新智元報導
編輯:元宇 好困
【新智元導讀】香港大學黃超團隊開源的DeepCode在「論文復現程式碼」方面,首次在PaperBench測試中超過來自劍橋、柏克萊等8所頂尖高校的機器學習博士,並領先Claude Code、Cursor等先進的商用程式碼智能體。
在AI領域,學術論文往往承載了演算法、模型架構等方面的最前沿突破。
但想要真正理解論文的核心知識,並成功復現其中的演算法和實驗結果,卻經常面臨巨大挑戰。
問題的主要症結,在於「關鍵實現細節」上的缺失!
現實中論文作者通常將複雜的演算法邏輯高度抽象化為幾行數學公式,省略了真正影響成敗的核心細節,比如:超參數的具體取值範圍、訓練過程中的技巧性調整、資料預處理的細節步驟、網路初始化策略等。
然而正是關鍵實現要點上的缺失,導致了理論與實踐之間的巨大鴻溝。
就連資深研究員也經常對此束手無策。
怎麼破?
近日,香港大學黃超教授團隊開源的DeepCode,為這一難題的解決提供了超強的AI利器。
它不僅能夠分析論文內容,理解演算法邏輯,還可以自動生成可執行的程式碼。
DeepCode示範
DeepCode視覺交互介面
在基準測試中,DeepCode在復現成功率和程式碼品質方面表現出色,在多项指標上超過了頂級大學的機器學習博士。
DeepCode自今年7月發布首個版本——DeepCode v1.0.0以來便備受關注,並登上 GitHub Trending榜首,斬獲近8千星標(截至11月1日數據)。
開源連結: https://github.com/HKUDS/DeepCode
四大基準測試全面領先
研究人員將DeepCode放在以下四大基準測試中進行比較:人類專家;最先進的商業程式碼智能體;科學程式碼智能體;基於大模型的智能體。
結果顯示,DeepCode均拿到了最高分。
首超人類專家:75.9% vs 72.4%
在OpenAI發布的PaperBench基準測試中,DeepCode的總體準確率為75.9%,超過參與評測的人類專家組72.4%的成績。
PaperBench的基準測試規格如下:資料集來源:OpenAI官方發布的標準化評測基準;任務規模:20篇ICML2024會議論文的完整復現;評估維度:8316個獨立可評分組件;評分機制:SimpleJudge分層加權評估系統;任務複雜度:要求從論文文本到可執行程式碼的端到端實現。
為確保實驗的科學嚴謹性,研究團隊還建立了高品質的人類專家基線。
首先是嚴格的人類專家資質標準。
這些專家均來自8所頂尖研究型大學的機器學習博士(在讀/已畢業博士學位)。
8所大學分別為UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。
此外,研究團隊還采用了嚴格的人類專家篩選流程:首先,進行簡歷預篩選和學術背景驗證;接著,實施機器學習理論知識的標準化測試;然後,評估Git版本控制和軟體工程實踐能力;最後,驗證候選人在論文復現任務中的完整技能鏈。
以上篩選流程確保所有參與者都具備從理論理解到程式碼實現的全流程能力。
實驗環境配置如下:計算資源:NVIDIA A10 GPU標準配置,部分使用A100;開發時間:4週彈性開發週期;工具權限:無限制使用ChatGPT、GitHub Copilot等商業AI助手;嘗試機制:每論文3次獨立復現機會,採用best@3評分策略。
以上實驗結果充分證明:面對需要深度理解和長期開發的複雜任務,即使人類專家可以充分利用各種AI輔助工具,DeepCode仍能在程式碼品質和準確性方面達到更高的水平。
這表明DeepCode不僅達到而且超越了專家級的程式碼復現能力,也意味著自主科學軟體工程領域的一個重要里程碑。
優於現有AI Coding:84.8% vs 58.7%
在同一基準上,研究人員從20篇論文中隨機抽取5篇,將DeepCode與當前主流商用程式碼智能體進行了系統性的性能對比。
在評測中DeepCode展現出明顯領先優勢:DeepCode得分84.8% ,領先Claude Code(58.7%)約26.1個百分點。
為確保測試的公平性和權威性,所有參與評測的商業程式碼智能體均配備了當前最先進的基礎模型:Claude 4.5 Sonnet-think和GPT 5 codex-high。
結果提示性能差距主要來自多智能體架構設計,而非單純的基礎模型差異。
此外,在科學程式碼智能體、基於大模型的智能體兩項評測中,DeepCode同樣保持領先:與目前最先進的科學程式碼復現框架PaperCoder(51.1%)相比,DeepCode的復現率達到了73.5% ,提升了22.4個百分點。
這一顯著的提升驗證了研究團隊結合規劃、分層任務分解、程式碼生成和迭代除錯的多模組架構優於更簡單的基於流水線的方法。
與性能最佳的大模型智能體(43.3%)相比,DeepCode(73.5%)提升了30.2個百分點。
這表明,對於複雜的程式碼復現任務而言,複雜的代理支架(而不是延長推理時間或更大的模型)至關重要。
DeepCode三大核心能力
Paper2Code(論文→程式碼):輸入:學術論文PDF文件;輸出:生產級程式碼實現+完整測試套件+詳細技術文件。
DeepCode的核心優勢在於自動解析複雜數學公式、理解演算法邏輯、生成可執行的優質程式碼,可以幫助科研人員快速復現SOTA演算法、驗證理論創新、加速研究進展等。
Paper2Code
Text2Web:(想法→網頁):輸入:自然語言描述的介面需求和功能期望;輸出:響應式前端頁面+現代化UI設計+完整交互邏輯。
DeepCode可以智能理解使用者意圖、自動適配行動端、生成符合設計規範的介面,適用於快速原型驗證、MVP產品開發、創業想法落地等場景。
前端實現
Text2Backend:(需求→服務):輸入:後端功能需求和業務邏輯描述;輸出:高性能API介面 + 優化資料庫設計 + 可擴展系統架構。
DeepCode可以自動選擇最佳技術堆疊、考慮性能和安全性、支援雲原生部署,適用於微服務快速開發、遺留系統重構、企業數位轉型等場景。
DeepCode的核心技術框架
DeepCode採用系統化的三階段框架,將複雜的程式碼生成任務分解為架構藍圖建構、程式碼實現和自動驗證三個步驟,透過多智能體協作實現從文件到可執行程式碼的自動轉換。
階段一:架構藍圖建構 該階段將冗長的文件規範轉化為結構化的架構藍圖,透過層次化內容分割、多智能體深度分析、架構藍圖融合三個關鍵步驟解決長文件理解的挑戰。
在多智能體深度分析環節,採用概念智能體、演算法智能體兩個專業智能體並行深度分析文件的不同維度,確保了既有全局視野又有具體實現細節。
程式碼規劃智能體融合以上兩個分析智能體的深度輸出,協調高層架構與底層規範,解決潛在的不一致性。
透過智能化的融合過程,最終生成完整的架構藍圖,為後續程式碼生成提供了詳細的指導。
階段二:自動化程式碼建構 該階段基於建構完成的架構藍圖進行程式碼倉庫的系統化建構,透過雙重機制設計解決大規模程式碼庫中的跨文件一致性維護和領域知識缺失的核心挑戰。
階段三:動態驗證與優化 該階段建構了一個多層次的品質保障體系,透過靜態分析和動態執行的雙重驗證機制,實現程式碼從結構完整性到功能正確性的全面保障,形成了自我完善的閉環反饋系統。
AI Coding的挑戰與思考
目前AI程式工具在程式碼補全和簡單任務上表現良好,但在需要深層理解的複雜任務中仍有不足。
科學論文復現就是一個典型例子——它需要AI理解數學原理,將抽象概念轉化為程式碼實現,並處理各種技術細節。
DeepCode在這個領域的進展表明,透過專門的架構設計,AI可以在特定領域取得較好效果,但通用的深度理解能力仍然存在局限。
如何讓AI更好地理解複雜的業務邏輯和技術需求,仍是一個開放性問題。
· 從輔助工具到開發夥伴 AI程式工具正在從簡單的程式碼補全向更全面的開發支援演進。
DeepCode展示的從需求分析到程式碼生成再到品質驗證的完整流程,代表了這種發展趨勢。
然而,這也帶來了新的問題:如何在AI系統提供更多自主能力的同時,保持開發者對專案的有效控制?
如何確保生成的程式碼符合團隊的編碼規範和架構要求?
這些問題需要在技術進步和工程實踐中逐步解決。
· Vibe Coding的實用性考量 Vibe Coding的興起降低了程式門檻,讓更多人能夠參與軟體開發。
但這種模式也帶來了一系列挑戰:生成程式碼的品質和一致性如何保證?當開發者減少對底層細節的關注時,如何維護程式碼的長期可維護性?如何在提高開發效率的同時確保程式碼的安全性和穩定性?
DeepCode的驗證機制提供了一種思路,但更完善的工程實踐和品質標準還需要行業的進一步探索和完善。
作者介紹
李宗蔚
李宗蔚(1999年生),現為香港大學博士生,師從黃超老師,專注於大模型智能體前沿技術研究。其學術成果入选CIKM 2024最具影響力論文榜單。作為開源專案DeepCode的核心貢獻者,該專案在GitHub上獲得約8,000星標。
李中行
李中行(1998年生),香港大學訪問博士,研究方向為大模型智能體與智慧城市。作為智慧城市大模型UrbanGPT第一作者,其研究成果入选KDD 2024及ICDE 2022最具影響力論文榜單。同時為開源專案DeepCode核心貢獻者,獲得約8,000 GitHub星標。
郭子睿
郭子睿(2000年生),香港大學博士學生,專注於RAG與智能體技術研究。作為LightRAG和RAG-Anything開源專案的第一作者,其專案在GitHub上累計獲得超過32,000星標,已成為圖RAG系統領域的主流技術框架之一。
黃超
黃超,香港大學博士生導師,專注於大語言模型、智能體與圖機器學習研究,Google Scholar引用超過13,000次。其團隊開發的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等開源專案累計獲得超過70,000 GitHub星標,50次登上GitHub Trending(趨勢榜)。
參考資料: