スタンフォード大学の最新研究：最強LLMでさえ最先端コードに苦戦！Gemini 2.5 Proの成功率は40%未満

皆さん、こんにちは。HxShineです。

本日は、スタンフォード大学からのベンチマーク記事、Title: ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code（ResearchCodeBench：最新機械学習コードの実装におけるLLMの能力評価）を共有します。

LLMは、事前学習段階で一度も見たことのない、最先端の研究論文で提案された新しいアイデアを本当に理解し、実装できるのでしょうか？この疑問に答えるため、研究者たちは ResearchCodeBench という新しいベンチマークを構築しました。このベンチマークには、2024-2025年のトップ会議の最新機械学習論文20本から抽出された212のコーディングタスクが含まれています。

評価方法は以下の通りです。論文と関連するコードフレームワーク（中心となるコードが空欄にされ、穴埋め問題として構成されている）が与えられ、LLMは論文を読み、その革新点を理解し、コードで補完する必要があります。その後、システムは、ドメイン専門家によって書かれた厳格で実行可能なテストケースのセットを通じて、生成されたコードの正確性を自動的に評価します。

評価結果によると、現在の最先端LLM（Gemini 2.5 Proなど）でさえ、成功率は40%未満であり、これは最先端の科学的アイデアを機能的に正しいコードに変換する能力において、LLMにはまだ大きな改善の余地があることを示しています。

I. 概要

• Title: ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code

• URL: https://arxiv.org/abs/2506.02314

• Authors: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber

• Institution: Stanford University

• Code: https://researchcodebench.github.io/

1 動機

• 新規性実装の厳密な評価の欠如： 現在のLLMのコード能力評価は、既知のアルゴリズムの再現、バグ修正、一般的なプログラミング問題の解決に集中していることがほとんどです。しかし、研究の核心はイノベーションにあります。現在、論文中の全く新しい概念を実行可能なコードに変換するLLMの能力を客観的かつ厳密に測定できるベンチマークが不足しています。

• 主観的評価方法の限界： 多くの既存のベンチマークは、他のLLMを審査員として利用したり、ピアレビューをシミュレートしたりしていますが、これらの方法は一貫性と偏見の問題を抱えがちで、評価の信頼性を保証できません。一方、従来のコード生成ベンチマークは実行可能なテストケースに依存しており、これはより客観的な評価方法です。

• コード生成は記憶を超えた能力を必要とする： 最先端の研究コードを実装するLLMの評価は、実際には丸暗記を超えた推論能力をテストしています。これらの最新の研究アイデアは通常、モデルの知識カットオフ日以降に登場するため、モデルは事前学習データから単純に想起するのではなく、論文を読んで理解することでタスクを完了する必要があるからです。

2 方法

「研究コード穴埋め」テストセットの構築： 著者らは、最新のMLトップ会議論文20本を厳選し、その 核となる革新的なコードを手動で特定し、それらを空欄にして「コード穴埋め問題」として設定しました。 LLMは、論文と文脈コードの両方を読み、この穴埋め問題を完了する必要があります。最後に、専門家が作成した単体テストを使用して、LLMの「解答」が正しいかどうかを判断します。

詳細な方法と手順:

1. ベンチマーク構築 (Benchmark Construction):

• 論文選定: ICLR、NeurIPS、CVPR、arXivなどのトップソースから、2024-2025年の最新機械学習論文20本を選定しました。これにより、生成モデル、コンピュータビジョン、強化学習などの分野をカバーし、テーマの多様性を確保しています。

• 核心貢献の特定: 各論文について、人間がその最も核となる、実装に最も関連する革新的な貢献を分析し特定しました。これは、新しい損失関数、独自のネットワーク層、または完全なトレーニングプロセスである可能性があります。

• タスク構築 (コード穴埋め): 論文に対応する公式オープンソースコードの中から、核心貢献を実装するコードスニペットを見つけました。これらのコードスニペット（Snippet）をXML形式のコメントタグでマークし、空欄にして「穴埋め問題」を作成しました。タスクの曖昧さを減らすため、各空欄には短い自然言語ヒントが添えられています。

• テストケース作成: 論文の原著者またはドメイン専門家と協力し、各コードスニペットに対して厳格な正確性テストケースを作成しました。これらのテストは実行ベースであり、主に等価性テスト（生成されたコードの出力と参照実装の出力を比較）とユニットテスト（特定のロジックと境界条件を検証）を採用し、評価の客観性と信頼性を確保しています。

2. モデル評価 (Benchmark Execution):

• タスク入力: 評価対象のLLMには、論文全文、"TODO"マーク（つまり、空欄にされたコードスニペット）付きのコードファイル、および関連する文脈コードが提供されます。

• コード生成: LLMは、論文の理解に基づき、"TODO"部分を埋めるコードを生成するよう求められます。

• 自動評価: LLMによって生成されたコードスニペットは、元のコードフレームワークに挿入され、事前に書かれたテストケースが実行されます。

• 評価指標:

• Pass Rate (通過率): モデルがすべてのテストケースを成功裏に通過したコードスニペットの割合。

• Scaled Pass Rate (加重通過率): 主要な評価指標。各コードスニペットは、そのコード行数（LoC）に基づいて加重され、これにより長く複雑なコードスニペットが全体スコアに占める割合が大きくなります。本論文では主にscaled pass@1、つまり貪欲デコーディングを使用して一度だけコードを生成した場合の加重通過率を報告しています。

3. 特徴分析:

• 高品質と信頼性: テストタスクは、論文の原著者またはドメイン専門家と共同で開発されており、タスクが論文の本来の意図に忠実であることを保証します。

• 挑戦性と新規性: タスクはすべて最新の研究論文から派生しており、モデルが事前学習データを記憶することで完了できないことを保証し、その真の推論能力を試します。

• 拡張性: コミュニティ主導のプロセスが設計されており、他の研究者が新しい論文やコーディングタスクを簡単に提出できるようになっており、ベンチマークを継続的に更新できます。

Q1: コード生成は具体的にどのように行われ、プロンプトは何ですか？

A: 複雑なエージェントを使用したり、論文を処理して核心情報を抽出したり、類似のコードを検索したりすることなく、プロンプトに基づいて直接生成されます。プロンプトは以下の通りです。

Q2: 単体テストはどのように行われますか？

A: 参照コード（ref code）が提供され、出力の一貫性が検証されます。テストコードは以下の通りです。

https://github.com/PatrickHua/ResearchCodeBench/blob/db3d16d94cfa6b6785bef6f1db0263edfe6f1d34/pset/DiffusionDPO/paper2code_test.py#L41

3 結論

• トップLLMの能力は依然として不足： 最高性能のGemini 2.5 Proでさえ、新規研究アイデア（革新的なアルゴリズム）の実装における加重通過率はわずか37.3%でした。これは、現在の最先端LLMが科学文献の理解と研究コードの実装において依然として顕著なギャップがあることを示しています。

• クローズドソースモデルとオープンソースモデルの性能差： 評価結果は、GoogleのGeminiシリーズ、OpenAIのGPTシリーズ、AnthropicのClaudeシリーズのようなトップクローズドソース商用モデルが、既存のオープンソースモデルよりも全体的に継続的に優れていることを示しています。

• 論文の文脈が極めて重要： 高性能モデルにとって、論文全文を文脈として提供することは、コード生成の正確性を大幅に向上させることができます（最大30%の向上）。これは、学術文書から情報を抽出し、コーディングに利用する能力が一定程度あることを示しています。逆に、一部の小規模モデルでは、長いテキストが干渉を引き起こす可能性があるためか、論文の文脈が与えられた後で性能が悪化しました。

• 主なエラータイプは機能/論理エラー： 失敗事例の分析から、エラーの大多数（約59%）が機能的エラー（つまり、コードは実行されるがロジックが不正確）であり、単純な構文エラーや命名エラーではなかったことが判明しました。これは、LLMが直面する主な課題が、論文に記述された複雑なアルゴリズムロジックを正確に理解し、実装することにあることを示しています。

4 限界

• 限られた範囲： 現在のベンチマークテストには、機械学習分野の論文が20本しか含まれていません。深さと品質は保証されていますが、広さが不足しており、将来的にはより多くの論文や生物学、物理学などの他の科学分野に拡張する必要があります。

• テストケースの手動作成： すべてのテストケースは手動で作成されており、高品質を保証する一方で、ベンチマークの拡張速度と規模を制限しています。論文では自動テスト生成を試みましたが、LLMが現在このタスクを信頼性高く実行できないことが判明しました。

• 人間のベースラインの欠如： タスクが専門家レベルのプログラミングとドメイン知識を必要とするため、大規模な人間によるテストを組織することは非常にコストがかかるため、このベンチマークは現在、比較ベースラインとして人間のパフォーマンスを提供していません。

II. まとめ

ハイライト:

1. 「新規性」に焦点を当てた初の研究コード生成ベンチマーク： ResearchCodeBenchは、既存のLLM評価システムにおける重要な空白を埋めます。モデルに既知の知識を「復習」させるのではなく、新しい知識を「学習し、実装する」能力を試すものであり、これは科学研究の本質により近く、LLMの推論能力の限界をより正確に測定できます。

2. 客観的で信頼性の高い評価フレームワークを提供： 実行可能で専門家によって検証されたテストケースを通じて、このベンチマークはLLM審査員に基づく主観性を排除し、モデルの科学的推論と実装能力の進捗を測る確固たる「物差し」を提供します。

3. 現在のLLMの真の能力限界を明らかにする： 「成功率40%未満」という結論は、LLMが多くのタスクで驚異的な性能を発揮する一方で、理論から実践への変換を加速するための信頼できる研究アシスタントとして利用するには、まだ長い道のりがあることを明確に示しています。同時に、エラータイプ（主に機能的エラー）の詳細な分析は、将来のLLM改善の方向性を示しています。モデルの論理的推論とアルゴリズム理解能力の向上に重点を置くべきです。

スタンフォード大学の最新研究：最強LLMでさえ最先端コードに苦戦！Gemini 2.5 Proの成功率は40%未満

短いURLをシェア