スタンフォードが新たな強化学習パラダイムを提案：3BモデルエージェントがClaude、GPT-4を凌駕

近年、大規模言語モデル（LLM）エージェントは、コード実行器のような外部ツールを呼び出すことで、ソフトウェア開発から科学研究まで、複雑なタスクをこなせるようになりました。究極のビジョンは、これらのAIエージェントが機械学習エンジニアリング（MLE）タスクを完了し、さらには反復的に、より優れたAIモデル自体を創造できるようになることです。

しかし、既存のMLEエージェントのほとんどは、強力な既製の大型モデル（Claude、GPTなど）にプロンプトを出すという単純な戦略に依存しています。このアプローチには根本的な欠陥があります。エージェント自体が学習しないのです。成功や失敗の経験をどれだけ積み重ねても、その中核となる行動パターン（つまりモデルパラメータ）は静的なままです。これは、才能ある学生に常に問題を与え続けるが、彼らが間違いを復習しないようなものです。彼らのパフォーマンスは、練習量とプロンプトの巧みさにのみ依存して向上し、自身の能力は成長しません。図1に示すように、最高のプロンプトフレームワークを数日間実行しても、パフォーマンスの向上はごくわずかです。

論文：Reinforcement Learning for Machine Learning Engineering Agents

リンク：https://arxiv.org/pdf/2509.01684

そこで自然に浮かぶアイデアは、なぜ私たちの小型エージェントを学生のように学習させないのか、というものです。つまり、蓄積された経験を利用して、強化学習（Reinforcement Learning, RL）を通じてモデルパラメータを更新し、真にその能力を向上させるのです。この論文はこのアイデアに基づき、驚くべき発見をしました。RLで訓練された小型モデル（Qwen2.5-3B）は、プロンプトのみで動作するはるかに大規模なトップティアの大型モデル（Claude-3.5-Sonnetなど）を最終的に大幅に上回り、12のKaggleタスクで平均22%リードしました。

しかし、この道は平坦ではありません。この記事では、研究者たちがエージェント環境でRLが直面する2つの独自の課題をどのように解決し、最終的に「小型モデルが大型モデルを凌駕する」という見事な物語を達成したかについて深く掘り下げていきます。

問題と方法

課題1：可変実行時間アクションによる最適化バイアス

1. 問題分析：速いことが常に良いのか？

標準的な分散RL訓練では、複数の「アクター」が並行して環境と相互作用し、経験を収集し、それを「学習者」に送って勾配更新を行います。これは、各アクション（例えば1歩移動する）に要する時間がほぼ同じであるシミュレートされた環境（ゲームなど）では効果的です。

しかし、MLEタスクでは、各「アクション」はコード片であり、その実行時間は大きく異なります。例えば、ロジスティック回帰モデルの訓練には1秒しかかからないかもしれませんが、深層ニューラルネットワークの訓練や複雑な特徴量エンジニアリングには数分から数時間かかることがあります。分散設定では、実行の速いアクションはより早く経験を返し、その結果、勾配更新に頻繁に使用されます。遅い高品質のアクションは、サンプリング回数が少ないだけでなく、タイムアウトで破棄されることさえあります。これはRLの最適化プロセスに深刻なバイアスを生じさせます。つまり、「良い」アクションではなく「速い」アクションに報酬を与える傾向があるのです。図2（元の文書構造では図3）に示すように、未処理のRL訓練では、エージェントは非常に高速に実行されるがパフォーマンスの低い解決策（例えば単純な線形モデル）に迅速に収束してしまいます。

2. 方法：実行時間認識型勾配更新

(1) 数学的モデリングと核心思想

研究者たちはまず、単純化された例を用いて問題の根本原因を明確にしました。実行時間txとty、アドバンテージ関数（アクションの良さを測る）推定値AxとAyを持つ2つのアクションxとyがあると仮定します。固定時間T内において、アクションxがサンプリングされる回数Nxは、その選択確率P(x)に比例し、実行時間txに反比例します。

Nx ∝ P(x) / tx

すると、アクションxの総勾配∇J_xへの貢献は次のようになります。

∇J_x ∝ Nx * ∇log P(x) * Ax ∝ (P(x) / tx) * ∇log P(x) * Ax

勾配貢献∇J_xがtxで除算されていることに注目してください。これは、実行時間が短いアクションほど、勾配更新への影響が拡大されることを意味します！これが速いアクションが優位になる根本原因です。

(2) 解決策と公式

この問題を解決するため、著者らは直感的で効果的な解決策を提案しました。勾配計算時に、アクションの実行時間で重み付けを行うのです。これにより、上記の勾配貢献は次のようになります。

∇J_x ∝ (P(x) / tx) * ∇log P(x) * Ax * tx

見てください、txが分母から分子に移動し、分子のP(x) / txに暗黙的に含まれるtxと正確に相殺されました！このようにして、各アクションの勾配への貢献は、それがポリシーによって選択される確率(P(x))とアドバンテージ値(Ax)のみに依存し、その実行速度とは完全に切り離されます。

このアイデアを一般的なポリシー勾配式に拡張すると、本論文で提案された実行時間認識型ポリシー勾配更新規則が得られます。

∇θJ = Σ (t * ∇θlogπ(a|s) * A(s,a))

• ∇θJ: 方策パラメータθに関する目的関数Jの勾配。

• t: 状態sでアクションaを実行するのにかかった時間。

• ∇θlogπ(a|s): スコア関数。現在の行動に対する方策の好ましさを示す。

• A(s,a): アドバンテージ関数。行動aが平均レベルに対してどれだけ優れているかを測る。

アクションの実行時間でその勾配更新量をスケーリングします。実行時間の長いアクションは、サンプリング頻度が低くても、各更新でより大きな影響を生み出し、最適化プロセスにおいて公平な扱いを受けることになります。実際には、著者らはtをバッチ内の平均時間で正規化し、単一の極端に長いアクションによる勾配爆発を防ぎます。

課題2：希薄な報酬信号

1. 問題分析：全か無かのフィードバックの限界

MLEタスクの自然な報酬は、テストセットでのモデルの性能指標（精度、AUCなど）です。しかし、これは非常に希薄な報酬です。コードは、データロード、前処理、モデル構築、訓練から最終的な推論提出まで、すべてのステップが完全に正しくなければ正の報酬を得られません。いずれかのステップでエラーが発生した場合、報酬はゼロまたは負の値になります。

これは、試験で「満点」と「ゼロ点」の2種類の成績しかないようなものです。ファイル名のスペルミスで提出に失敗した学生と、すべてのステップが正しかったが最後の答えの数字を1つ間違えた学生は、どちらも「ゼロ点」というフィードバックを受け取ります。このフィードバックは「完全な失敗」と「成功に近い状態」を区別できず、学習プロセスを極めて困難にします。エージェントは容易に局所最適解に陥り、例えば、複雑な機械学習ステップを完全に放棄し、基本的なスコアを素早く獲得できるような巧妙な方法に頼ってしまうことがあります。図3（元の文書構造では図4）に示すように、ある感情分析タスクでは、エージェントは最終的に、評価指標（Jaccard類似度）を直接エンコードし、テスト入力内で最適なフレーズを探索するという解決策に収束し、機械学習を完全に回避してしまいました。

2. 方法：環境計測による部分的なクレジットの提供

希薄な報酬の問題を解決するため、著者らは巧妙な「環境計測」スキームを提案し、中間ステップに部分的なクレジット（Partial Credit）を提供します。

(1) 核心思想：

コード実行中に「チェックポイント」（print文）を挿入します。エージェントがより多くのステップを完了するほど、より多くのチェックポイントを出力でき、より高い部分報酬を得られます。このようにして、データロード段階で失敗した解決策は、モデル訓練完了後に初めて失敗した解決策よりもはるかに少ない報酬しか得られません。

(2) 方法の流れ：

1. print文の挿入：独立した静的（RL訓練には参加しない）なQwen2.5-3Bモデルを使用して、エージェントが生成したコードに、あらかじめ定義されたprint文（例：`print("imported packages")`、`print("loaded data")`、`print("training loss: {loss}")`など）を自動的に挿入します。この「計測用LM」のプロンプトは、print文を追加するだけで、元のコードロジックは変更しないように設計されています。

2. 実行とマッチング：計測されたコードを実行し、ターミナル出力をキャプチャします。

3. 解析とスコアリング：正規表現（regex）を使用して、ターミナル出力中のprint文をマッチングします。完全に失敗した解決策は-10点。定義済みのprint文がマッチするごとに0.1点が加算されます。最後まで正常に実行され、提出物を作成できた場合は、テストセットでの実際の性能スコア（通常-1から1の間）が報酬として使用されます。

(3) 重要な設計：

計測には独立したLMを使用する必要があります。もし学習中のエージェント自身にチェックポイントを挿入させると、それは「不正」を学びかねません。つまり、価値のある操作を実際に行わずに、部分的な報酬を得るために大量のprint文を生成するようになる可能性があります。

追加戦略：自己改善プロンプトを用いた多段階RL（Multi-Step RL with Self-Improvement Prompt）

エージェントがゼロから問題を解決するだけでなく、著者らはエージェントの自己改善能力をさらに探求しました。訓練中、50%の確率でエージェントに「自己改善」プロンプトが与えられ、以前の解決策の実行結果（ターミナル出力と部分報酬を含む）に基づいてその解決策を修正・改善するよう求められます。

これは、エージェントに「間違いノート」を与え、失敗原因を分析して改善する方法を学ばせることに相当します。著者らは小型モデルの自己デバッグ能力が限られていることを発見しましたが、「ゼロからの生成」と「古い解決策の改善」を組み合わせるこの方法は、最終的に12のタスクのうち10でさらなるパフォーマンス向上（平均8%向上）をもたらしました。

実験設定と評価

上記方法の有効性を検証するため、著者らはMLEBenchベンチマークで包括的な実験を行いました。MLEBenchには、画像、テキスト、表形式データにおける分類および回帰問題を含む75のKaggleチャレンジタスクが含まれています。

• モデル：主に訓練可能なRLエージェントとしてQwen2.5-3B-Instructを使用しました。比較対象のベースラインは、Claude-3.5-Sonnet、GPT-4o、Llama3.1-405Bといった「巨人」たちです。

• ベースライン手法：

• 最先端モデル＋エージェントフレームワーク：AIDE、OpenHands、MLAgentBenchなどの高度なエージェントフレームワークを使用して、大型モデルにプロンプトを与えました。

• 純粋なRLベースライン：本論文の改善を加えない標準的な分散RLフレームワーク（HybridFlowなど）を使用しました。

• 評価指標：MLEBenchの評価器を使用して最終提出ファイルを採点しました。複数回の実行における平均スコアと最高スコアを報告しました。

• 訓練設定：PPOアルゴリズムを使用し、8台のA100 GPU上で各タスクを収束するまで1～3日間訓練しました。ハイパーパラメータの詳細は付録表3を参照してください。

結果と分析

主要実験結果：RL小型モデル vs. プロンプト大型モデル

表1

表2

表1と表2は、最も核心的で印象的な結果を示しています。

表1は、RL訓練後のQwen2.5-3Bと、AIDEフレームワークを用いてプロンプトを与えられた様々な最先端モデルを比較しています。結果は以下の通りです。

• 12のタスクのうち8つで、3BのRL小型モデルが最高のパフォーマンスを達成しました。

• 平均して、そのパフォーマンスは強力なClaude-3.5-Sonnetを22%上回り、GPT-4o（100時間実行）を24%上回りました。

• 大型モデルに勝てなかったタスクでも、RL訓練はAIDEを用いてQwen2.5-3B自体に直接プロンプトを与える効果を大幅に上回りました。

表2は、異なるエージェントフレームワークを比較しています。最も強力なGPT-4oモデルであっても、異なるエージェントフレームワーク（AIDE、OpenHands、MLAB）と組み合わせた場合、そのパフォーマンスはタスクによって変動し、全体的にはRLで訓練されたQwen2.5-3Bモデルには及びませんでした。これは、RLが特定のプロンプトフレームワークに依存しない、より汎用的なパフォーマンス向上経路を提供することを示しています。

図7は、パフォーマンスの時間経過による動的な変化傾向を示しています。多くのタスクにおいて、プロンプト型大型モデルは最初リードしていましたが、時間が経つにつれて、RL小型モデルは継続的な学習を通じて着実にパフォーマンスを向上させ、最終的に逆転を果たしました。これは、「学習」が「単発推論」よりも長期的な優位性を持つことを鮮やかに示しています。

アブレーションスタディ（Ablation Studies）

アブレーション実験は、各革新的コンポーネントの必要性を強く証明しました。

1. 実行時間認識型勾配の効果

実行時間認識型重み付けがない場合、エージェントによって生成される解決策の平均実行時間は急速に低下し、非常に低いレベルを維持しました（速いが質の悪い解決策）。一方、この方法を採用すると、エージェントはより長い実行時間を要するが、より優れたパフォーマンスを発揮する解決策（例えば勾配ブースティングモデル）を探索し、最終的に採用することができました。これは、この方法が最適化バイアスを克服し、エージェントに高品質な解決策を追求するよう促すことに成功したことを示しています。

2. 環境計測の効果

部分的なクレジットがない場合、訓練初期の平均スコアは極めて低く（多数の解決策が-10点だったため）、収束が遅く、分散が大きかった（ある実行では有効な解決策が全く生成されなかったことさえあった）。一方、環境計測によって部分的な報酬が提供されると、訓練開始時から平均スコアが高くなり、上昇と収束の速度が速く、より安定しました。これは、部分的なクレジットが希薄な報酬を緩和し、エージェントの学習を導く上で極めて重要であることを証明しています。

3. 自己改善プロンプトの効果

12のタスクのうち10で、「以前の解決策を改善する」というプロンプトの追加により、さらに8%のパフォーマンス向上が平均でもたらされました。これは、RLがエージェントの「ゼロから生成する」能力だけでなく、「反復的に最適化する」能力も向上させたことを示しています。

定性分析

上記の画像は、エージェントによって発見されたいくつかの高性能な解決策を示しています。例えば、lmsys-chatbot-arenaタスクでは、エージェントは複雑な特徴量エンジニアリングを行う方法を学習し、応答長の違い、単語数の違い、平均単語長の違いなどをユーザーの好みを予測する特徴として使用しました。random-acts-of-pizzaタスクでは、エージェントは最終的に、TF-IDFテキスト特徴とユーザーメタ特徴を組み合わせ、ランダムフォレストとグリッドサーチを使用した高コスト・高リターンの解決策を見つけました。これらの例は、RLエージェントが学習を通じていかに「賢く」なっていくかを直感的に示しています。

考察と関連研究

本研究は複数の分野と密接に関連しています。

• MLエンジニアリングエージェント：既存のほとんどの研究が、より複雑なプロンプトフレームワークや推論時のヒューリスティック探索の設計に焦点を当てているのに対し、本論文は勾配更新を通じて小型モデルの自己進化を可能にするという別のアプローチをとっています。

• LLMのRL：これまでの研究（RLHFなど）は、報酬モデルや数学/コード検証器が瞬間的な報酬を提供する環境で行われることが多く、アクション実行時間の変動性については無視されてきました。本論文は、実用的なエージェントシステムにおいてこの問題を明確に提起し、解決した最初のものです。

• エージェントシステムのRL：これまでのインタラクティブタスク（ウェブナビゲーション、ターミナル操作など）に関するRL研究は、主にターンベースのインタラクションに焦点を当てており、時間コストの差は大きくありませんでした。本論文は、各「ターン」内の時間コストが大きく異なるシナリオに焦点を当て、新しい解決策を提供します。

限界：現在の研究は、各タスクに対して個別のエージェントを訓練しています。将来の方向性としては、複数のタスクを解決する汎用エージェントの訓練、その汎化能力の研究、そしてより複雑な多段階分解計画の探求が含まれます。

社会的影響：AIエージェントによるMLエンジニアリングプロセスの自動化は、関連する雇用市場に影響を与える可能性があり、政策研究が必要です。エージェントがインターネット上で自由にコードを実行することを許可することもセキュリティリスクを伴うため、より強力なサンドボックス化とセキュリティ技術が緊急に求められています。

結論

本論文は、次の核心的な見解を力強く主張します。機械学習エンジニアリングのようなタスクにおいて、継続的に学習できる小型モデルは、プロンプトのみで動作する静的な巨大モデルを凌駕することができる、と。

その主な貢献は以下の通りです。

1. 実用的なエージェントシステムにおいてRLが直面する2つの主要な課題：可変実行時間アクションによる最適化バイアスと希薄な報酬を、特定し形式化しました。

2. 2つの革新的な解決策を提案しました。異なる実行時間のアクションの公平な最適化を保証する実行時間認識型勾配更新と、部分的なクレジットを提供することで希薄な報酬問題を効果的に緩和する環境計測です。

3. 3B小型モデルに基づくRLシステムが、一連の複雑なKaggleチャレンジにおいて、トップティアの大型モデルによって駆動される高度なエージェントフレームワークを一貫して上回ることを、大規模な実験を通じて実証しました。

この研究は、将来のAIエージェント開発にとって重要な方向性を示しています。特にインタラクションコストが無視できないタスクにおいて、推論、インタラクション（アクション実行）、学習（勾配更新）の間で計算リソースの配分をバランスさせることです。AIに「学習する方法を学ばせる」ことは、単にモデルの規模を追求するよりも重要である可能性があることを示唆しています。

スタンフォードが新たな強化学習パラダイムを提案：3BモデルエージェントがClaude、GPT-4を凌駕

短いURLをシェア