新智元報道
編集:元宇 眠い
【新智元ガイド】香港大学の黄超チームのオープンソースDeepCodeが、「論文再現コード」において、PaperBenchテストで初めてケンブリッジ、バークレーなど8つのトップ大学の機械学習博士を上回り、Claude Code、Cursorなどの先進商用コードエージェントをリード。
AI分野では、学術論文がアルゴリズム、モデルアーキテクチャなどの最先端ブレークスルーを担う。
しかし、論文の核心知識を真に理解し、アルゴリズムと実験結果を成功裏に再現するのは巨大な課題。
問題の主因は「キー実装詳細」の欠如!
現実では、論文著者が複雑なアルゴリズムロジックを数行の数式に抽象化し、成否を左右する核心詳細を省略:ハイパーパラメータの具体範囲、訓練中のトリッキー調整、データ前処理詳細、ネットワーク初期化戦略など。
これらのキー実装欠如が理論と実践の巨大ギャップを生む。
ベテラン研究者も手も足も出ない。
どう解決?
最近、香港大学黄超教授チームのオープンソースDeepCodeが、この難題に超強力AIツールを提供。
論文内容分析、アルゴリズム理解、実行可能コード自動生成。
DeepCodeデモ
DeepCode視覚インターフェース
ベンチマークで、DeepCodeは再現成功率とコード品質で優れ、トップ大学ML博士を複数指標で上回る。
今年7月初版DeepCode v1.0.0公開以来注目、GitHub Trending首位、約8千スター(11/1時点)。
オープンソースリンク: https://github.com/HKUDS/DeepCode
4大ベンチマークで全面リード
研究者はDeepCodeを以下の4ベンチで比較:人間専門家;最先端商用コードエージェント;科学コードエージェント;大モデルベースエージェント。
DeepCodeが全最高スコア。
初人類専門家超え:75.9% vs 72.4%
OpenAI PaperBenchでDeepCode総精度75.9%、人間専門家72.4%超え。
PaperBench仕様:データセットOpenAI標準;20 ICML2024論文完全再現;8316独立評価コンポーネント;SimpleJudge階層加重;論文テキストから実行コードE2E。
科学的厳密性確保のため高品質人間ベースライン構築。
厳格資格:8トップ大学ML博士。
大学:UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。
厳格スクリーニング:履歴書予選・学歴検証;ML理論標準テスト;Git/SE実践評価;論文再現フルスキル検証。
全参加者理論-コード全フロー能力確保。
環境:NVIDIA A10 GPU(一部A100);4週柔軟開発;ChatGPT/Copilot無制限;論文3試行、best@3。
結果証明:深理解・長期開発複雑タスクでAIツール活用人間もDeepCodeのコード品質・精度に劣る。
DeepCode専門家レベル超え、自治科学SWEマイルストーン。
既存AI Coding優位:84.8% vs 58.7%
同ベンチ20論文中5ランダム、主流商用コードエージェントと系統比較。
DeepCode明瞭優位:84.8%、Claude Code(58.7%)に約26.1%差。
公正のため最新モデル:Claude 4.5 Sonnet-think、GPT 5 codex-high。
差異はマルチエージェント設計由来、非ベースモデル。
科学コード・大モデルエージェントでもリード:PaperCoder(51.1%)比DeepCode 73.5%、+22.4%。
チームの計画・階層分解・コード生成・反復デバッグマルチモジュールがパイプライン優位。
最良大モデルエージェント(43.3%)比DeepCode(73.5%)+30.2%。
複雑再現タスクでは複雑エージェントスキャフォールド(非長推論・大モデル)が重要。
DeepCode3大核心能力
Paper2Code(論文→コード):入力:学術論文PDF;出力:生産級コード実装+完全テストスイート+詳細技術ドキュメント。
DeepCode核心優位:複雑数式解析、アルゴロジック理解、高品質実行コード生成。研究者SOTAアルゴ快速再現、理論検証、研究加速。
Paper2Code
Text2Web(アイデア→ウェブ):入力:NLインターフェース要件・機能期待;出力:レスポンシブフロント+現代UI+完全インターロジック。
DeepCodeユーザー意図理解、モバイル適応、設計準拠UI生成。プロト検証、MVP開発、起業アイデア実装。
フロントエンド実装
Text2Backend(要件→サービス):入力:バックエンド機能要件・業務ロジック記述;出力:高性能API+最適DB設計+拡張アーキテクチャ。
DeepCode最適スタック選択、性能/セキュリティ考慮、クラウドネイティブ。マイクロサービス速開発、レガシー再構築、企業デジタル変革。
DeepCode核心技術フレームワーク
DeepCodeは体系的3段階フレーム、複雑コード生成をアーキブループリント構築、コード実装、自動検証に分解、マルチエージェント協働でドキュメント→実行コード自動変換。
段階1:アーキブループリント構築 長文規範を構造ブループリントへ、階層分割・マルチエージェント深分析・融合で長文理解解決。
マルチ深分析:コンセプト/アルゴエージェント並行文書次元分析、全局+詳細確保。
コードプランナー融合、高層アーキ/低層規範調整、不整合解決。
完全ブループリント生成、後続コードガイダンス。
段階2:自動コード構築 ブループリント基盤リポジトリ体系構築、大規模コードベース跨ファイル一貫性・ドメイン知識欠如にデュアルメカ。
段階3:動的検証最適化 多層QA、静的分析+動的実行デュアル検証、構造完全性~機能正しさ全面保障、自己完璧ループ。
AIコーディング課題と考察
現AIツールは補完/単純タスク良好、深理解複雑タスク不足。
科学論文再現典型—数学把握、抽象→コード、技術詳細処理。
DeepCode進展:専用アーキでドメイン成功、通用的深理解限界。
複雑業務ロジ/技術要件理解向上は未解決。
· アシストツールから開発パートナーへ:コード補完から全面開発支援進化。
DeepCode要件分析→生成→検証フロー代表。
新問題:AI自治増で開発者制御維持?チーム規範/アーキ準拠?
技術進歩/実践で解決。
· Vibe Coding実用性:プログラミング障壁低下、多参加。
課題:生成コード品質/一貫性?低層注視減で長期保守性?効率向上時セキュリティ/安定?
DeepCode検証メカ思路、業界探求必要。
著者紹介
李宗蔚
李宗蔚(1999年生)、香港大博士、黄超指導、大モデルエージェント最先端。CIKM 2024影響力論文選。DeepCode OSS核心貢献、GitHub約8,000スター。
李中行
李中行(1998年生)、香港大訪問博士、大モデルエージェント/スマートシティ。UrbanGPT第一著、KDD2024/ICDE2022影響力選。DeepCode核心、8,000スター。
郭子睿
郭子睿(2000年生)、香港大博士、RAG/エージェント。LightRAG/RAG-Anything第一著、GitHub累計32,000+スター、グラフRAG主流フレーム。
黄超
黄超、香港大博士指導、大言語モデル/エージェント/グラフML、GS引用13,000超。チームOSS LightRAG等70,000+スター、Trending50回。
参考: