AIが人類博士に初勝利、トップ会議論文が即コード化！香港大90後オープンソースが8kスター爆発

新智元報道

編集：元宇眠い

【新智元ガイド】香港大学の黄超チームのオープンソースDeepCodeが、「論文再現コード」において、PaperBenchテストで初めてケンブリッジ、バークレーなど8つのトップ大学の機械学習博士を上回り、Claude Code、Cursorなどの先進商用コードエージェントをリード。

AI分野では、学術論文がアルゴリズム、モデルアーキテクチャなどの最先端ブレークスルーを担う。

しかし、論文の核心知識を真に理解し、アルゴリズムと実験結果を成功裏に再現するのは巨大な課題。

問題の主因は「キー実装詳細」の欠如！

現実では、論文著者が複雑なアルゴリズムロジックを数行の数式に抽象化し、成否を左右する核心詳細を省略：ハイパーパラメータの具体範囲、訓練中のトリッキー調整、データ前処理詳細、ネットワーク初期化戦略など。

これらのキー実装欠如が理論と実践の巨大ギャップを生む。

ベテラン研究者も手も足も出ない。

どう解決？

最近、香港大学黄超教授チームのオープンソースDeepCodeが、この難題に超強力AIツールを提供。

論文内容分析、アルゴリズム理解、実行可能コード自動生成。

DeepCodeデモ

DeepCode視覚インターフェース

ベンチマークで、DeepCodeは再現成功率とコード品質で優れ、トップ大学ML博士を複数指標で上回る。

今年7月初版DeepCode v1.0.0公開以来注目、GitHub Trending首位、約8千スター（11/1時点）。

オープンソースリンク: https://github.com/HKUDS/DeepCode

4大ベンチマークで全面リード

研究者はDeepCodeを以下の4ベンチで比較：人間専門家；最先端商用コードエージェント；科学コードエージェント；大モデルベースエージェント。

DeepCodeが全最高スコア。

初人類専門家超え：75.9% vs 72.4%

OpenAI PaperBenchでDeepCode総精度75.9%、人間専門家72.4%超え。

PaperBench仕様：データセットOpenAI標準；20 ICML2024論文完全再現；8316独立評価コンポーネント；SimpleJudge階層加重；論文テキストから実行コードE2E。

科学的厳密性確保のため高品質人間ベースライン構築。

厳格資格：8トップ大学ML博士。

大学：UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。

厳格スクリーニング：履歴書予選・学歴検証；ML理論標準テスト；Git/SE実践評価；論文再現フルスキル検証。

全参加者理論-コード全フロー能力確保。

環境：NVIDIA A10 GPU（一部A100）；4週柔軟開発；ChatGPT/Copilot無制限；論文3試行、best@3。

結果証明：深理解・長期開発複雑タスクでAIツール活用人間もDeepCodeのコード品質・精度に劣る。

DeepCode専門家レベル超え、自治科学SWEマイルストーン。

既存AI Coding優位：84.8% vs 58.7%

同ベンチ20論文中5ランダム、主流商用コードエージェントと系統比較。

DeepCode明瞭優位：84.8%、Claude Code（58.7%）に約26.1%差。

公正のため最新モデル：Claude 4.5 Sonnet-think、GPT 5 codex-high。

差異はマルチエージェント設計由来、非ベースモデル。

科学コード・大モデルエージェントでもリード：PaperCoder（51.1%）比DeepCode 73.5%、+22.4%。

チームの計画・階層分解・コード生成・反復デバッグマルチモジュールがパイプライン優位。

最良大モデルエージェント（43.3%）比DeepCode（73.5%）+30.2%。

複雑再現タスクでは複雑エージェントスキャフォールド（非長推論・大モデル）が重要。

DeepCode3大核心能力

Paper2Code（論文→コード）：入力：学術論文PDF；出力：生産級コード実装+完全テストスイート+詳細技術ドキュメント。

DeepCode核心優位：複雑数式解析、アルゴロジック理解、高品質実行コード生成。研究者SOTAアルゴ快速再現、理論検証、研究加速。

Paper2Code

Text2Web（アイデア→ウェブ）：入力：NLインターフェース要件・機能期待；出力：レスポンシブフロント+現代UI+完全インターロジック。

DeepCodeユーザー意図理解、モバイル適応、設計準拠UI生成。プロト検証、MVP開発、起業アイデア実装。

フロントエンド実装

Text2Backend（要件→サービス）：入力：バックエンド機能要件・業務ロジック記述；出力：高性能API+最適DB設計+拡張アーキテクチャ。

DeepCode最適スタック選択、性能/セキュリティ考慮、クラウドネイティブ。マイクロサービス速開発、レガシー再構築、企業デジタル変革。

DeepCode核心技術フレームワーク

DeepCodeは体系的3段階フレーム、複雑コード生成をアーキブループリント構築、コード実装、自動検証に分解、マルチエージェント協働でドキュメント→実行コード自動変換。

段階1：アーキブループリント構築長文規範を構造ブループリントへ、階層分割・マルチエージェント深分析・融合で長文理解解決。

マルチ深分析：コンセプト/アルゴエージェント並行文書次元分析、全局+詳細確保。

コードプランナー融合、高層アーキ/低層規範調整、不整合解決。

完全ブループリント生成、後続コードガイダンス。

段階2：自動コード構築ブループリント基盤リポジトリ体系構築、大規模コードベース跨ファイル一貫性・ドメイン知識欠如にデュアルメカ。

段階3：動的検証最適化多層QA、静的分析+動的実行デュアル検証、構造完全性～機能正しさ全面保障、自己完璧ループ。

AIコーディング課題と考察

現AIツールは補完/単純タスク良好、深理解複雑タスク不足。

科学論文再現典型—数学把握、抽象→コード、技術詳細処理。

DeepCode進展：専用アーキでドメイン成功、通用的深理解限界。

複雑業務ロジ/技術要件理解向上は未解決。

· アシストツールから開発パートナーへ：コード補完から全面開発支援進化。

DeepCode要件分析→生成→検証フロー代表。

新問題：AI自治増で開発者制御維持？チーム規範/アーキ準拠？

技術進歩/実践で解決。

· Vibe Coding実用性：プログラミング障壁低下、多参加。

課題：生成コード品質/一貫性？低層注視減で長期保守性？効率向上時セキュリティ/安定？

DeepCode検証メカ思路、業界探求必要。

著者紹介

李宗蔚

李宗蔚（1999年生）、香港大博士、黄超指導、大モデルエージェント最先端。CIKM 2024影響力論文選。DeepCode OSS核心貢献、GitHub約8,000スター。

李中行

李中行（1998年生）、香港大訪問博士、大モデルエージェント/スマートシティ。UrbanGPT第一著、KDD2024/ICDE2022影響力選。DeepCode核心、8,000スター。

郭子睿

郭子睿（2000年生）、香港大博士、RAG/エージェント。LightRAG/RAG-Anything第一著、GitHub累計32,000+スター、グラフRAG主流フレーム。

黄超

黄超、香港大博士指導、大言語モデル/エージェント/グラフML、GS引用13,000超。チームOSS LightRAG等70,000+スター、Trending50回。

参考：

https://github.com/HKUDS/DeepCode

https://sites.google.com/view/chaoh

メインタグ：DeepCode

サブタグ：論文再現、香港大学チーム、オープンソース、AIコード生成

前の記事：Claude が Skills 機能をリリース、Agent Skills 開発ガイド

次の記事：NVIDIA、10億ドルをこのAIコーディングスタートアップに投入予定！Copilot技術の重鎮が率い、設立2年で評価額約1兆円

短いURLをシェア

元のURL：https://mp.weixin.qq.com/s/093Qiz1fRH-t1JB_I-9zNQ