MicrosoftがrStar2-Agentを発表：「より賢く考える」ことは、単に「より長く考える」よりもはるかに効果的で効率的である

現在、大規模言語モデル（LLM）は複雑な推論タスクにおいて目覚ましい進歩を遂げており、重要なトレンドの一つとして「テスト時スケーリング」（Test-time scaling）が挙げられます。これは、モデルがより長い思考連鎖（Chain-of-Thought, CoT）を生成するように促すことで、本質的にモデルに「より長く考える」ことを奨励するものです。OpenAIのo3やDeepSeek-R1などの最先端モデルは、この方法の有効性を証明しています。

しかし、「より長い」ことは必ずしも「より賢い」ことを意味しません。非常に複雑で、中間ステップでエラーを起こしやすい、あるいは創造的な思考の転換が必要な問題に対しては、冗長な思考連鎖ではしばしば対応できません。モデルが依存する内部的な自己反省メカニズムは、自身の根本的なエラーを発見するのが難しい場合があります。

では、モデルが人間のように、外部ツールを利用して思考を補助し、アイデアを検証し、ツールのフィードバックから学ぶことで、「より賢く考える」ことはできないでしょうか？これがエージェント的強化学習（Agentic Reinforcement Learning）の核となる考え方です。モデルを能動的なエージェントとし、外部環境（Pythonインタープリタなど）とインタラクトさせ、環境からのフィードバックに基づいて自身の推論戦略を調整させるのです。

論文：rStar2-Agent: Agentic Reasoning Technical Report
リンク：https://arxiv.org/pdf/2508.20722

マイクロソフトリサーチによるこの論文は、この分野における重要な成果です。彼らは、わずか140億（14B）パラメータの事前学習済みモデルを、革新的なエージェント的強化学習フレームワークを通じて、数学的推論の分野で「トップエキスパート」へと訓練することに成功しました。その性能は、6710億（671B）パラメータを持つDeepSeek-R1モデルに匹敵し、さらにはそれを超えています。さらに驚くべきは、この強力な能力が、64基のGPUで1週間、510回のRLステップという短い期間で達成されたことで、「少ない労力で大きな成果を上げる」典型と言えます。

次に、この研究がどのように実現されたのか、その優れた点が何であるかを詳しく解説します。

主要な革新点1：GRPO-RoCアルゴリズム — ノイズの多い環境での効率的な学習

モデルにコードツールを使って推論させるのは素晴らしい考えですが、実践する上での最初の難題は環境ノイズです。計算機を使って問題を解き始めたばかりの生徒を想像してください。彼はおそらく間違ったキーを押し、計算機はエラーを出力するでしょう。彼の注意は「問題を解く」こと自体から、「計算機をどう使うか」に分散されてしまいます。モデルにとっても同様で、生成したコードに構文エラーや論理エラー（無限ループなど）がある場合、Python環境は有用な結果ではなくエラーメッセージ（Traceback）を返します。これらのエラーフィードバックは問題解決の推論とは無関係であり、強い環境ノイズを構成します。

従来の強化学習（RL）では、通常、最終的な答えの正誤（outcome-only reward）に基づいてのみ報酬が与えられます。これにより、深刻な問題が生じます。それは、ある推論経路が、途中のツール呼び出しがすべて間違っていても、最終的な答えが偶然正しければ満点の報酬を得てしまうというものです。これはモデルに「途中で間違っても構わない、結果が正しければ良い」と伝えているに等しいです。その結果、モデルは冗長で低品質、エラーだらけの推論プロセスを大量に生成し、学習効率が低下します。

報酬関数を変更せず、報酬ハッキング（reward hacking）を避けながら、ノイズ問題を解決するにはどうすればよいでしょうか？

rStar2-Agentは、簡潔かつ効率的な答えを提供します。それがGRPO-RoC（Group Relative Policy Optimization with Resample-on-Correct）アルゴリズムです。その核となるのは、「Resample-on-Correct」（RoC）と呼ばれる戦略です。

RoC戦略のワークフローは以下の通りです。

過剰サンプリング（Oversample）：各問題に対し、標準のG回ではなく、現在のモデルを使って2G回の推論経路（Rollout）を生成します。
分類と非対称ダウンサンプリング（Asymmetric Downsampling）：

ツールエラー率（p_err）：経路内の誤ったツール呼び出しが占める割合。エラーが多いほどスコアが高くなり、品質が低いことを示します。
フォーマット違反率（p_format）：例えば、最終的な解答（<answer>）の後に推論（<reason>）が出現するなど、規定に沿わないフォーマット。違反が深刻なほどスコアが高くなります。

これらの経路を、最終的な答えの正誤によって正例（答えが正しい）と負例（答えが間違っている）に分類します。
負例に対して：ランダムに均等に半分の数にダウンサンプリングします。目的は、様々な失敗の仕方を残し、モデルに「何が間違っているのか」を知らせ、再発を防ぐことです。
正例に対して：これが重要です！ランダムに選択するのではなく、「より高品質」な成功経路を優先的に選択します。品質はどのように測定されるのでしょうか？論文では2種類のペナルティ（減点）を定義しています。
総ペナルティスコアp_total = p_err + p_formatを計算し、ペナルティスコアが低い方から高い方へ（つまり品質が高い方から低い方へ）の確率でダウンサンプリングします。これは、ツールを正確に使い、フォーマットも規範的な成功経路が、モデルの更新を指導するために選択される確率が高いことを意味します。

ポリシー更新：最終的に、ダウンサンプリングされたG個の経路（高品質な正例と多様な負例を含む）を使用して、アドバンテージ関数（Advantage）を計算し、モデルを更新します。

このアルゴリズムの巧妙な点は：「最終的な答えが正しければ報酬を与える」という単純で信頼性の高い報酬原則を変更することなく、データフィルタリングの段階で工夫を凝らすことで、巧みにモデルに高品質な肯定的な模範例と多様な反面教師例を「与える」ことです。これは、教師が作文を採点する際に、最終的な点数だけでなく、高得点の作文の中から字が綺麗で文章が流暢な模範作を重点的に褒め、同時に様々な典型的な間違いを集めて解説するようなものです。これにより、生徒（モデル）は高品質な内容をどのように書くか（推論するか）をより効率的に学ぶことができます。

図に示すように、元のGRPOアルゴリズムでは、成功経路におけるツールエラー率は高い水準（10%-15%）で安定しており、これはモデルが常に大量のノイズを生成していることを意味します。しかし、GRPO-RoCを採用した後は、ツールエラー率が継続的かつ著しく低下し、この戦略の有効性が証明されました。

主要な革新点2：大規模エージェントRLインフラストラクチャ — 効率的な訓練を支える

優れたアルゴリズムには、それを支える強力なインフラストラクチャが必要です。エージェントRLの訓練コストは、モデルと環境間の頻繁なインタラクションを伴うため、非常に高額です。論文では、2つの主要な工学的課題を明らかにしています。

大量の並行ツール呼び出し：1回の訓練イテレーション（ステップ）で、数万のPythonコード実行リクエストが発生する可能性があります。これをローカルのPythonインタープリタで直接実行すると、瞬時にCPUがパンクし、GPUがアイドル状態になり、莫大なリソースの無駄と効率のボトルネックが発生します。さらに危険なのは、モデルが生成するコードは制御不能であり、無限ループ、悪意のあるコード、または終了困難なプロセスを含む可能性があり、訓練ホストの安定性を脅かすことです。
高度に不均衡な複数ラウンドRollout：エージェントRLでは、1つの完全な推論が複数ラウンドの対話（モデル出力->ツール実行->モデル再出力...）で構成されます。各問題の難易度は異なり、各ラウンドで生成されるトークン数やツール呼び出し回数も非常に不均衡です。従来のRLのように、タスクをすべてのGPUに静的に均等に割り当てると、必然的に一部のGPUが早期に完了した後、長時間アイドル状態になり、「ゆっくりとした」GPUを待つことになり、深刻な負荷不均衡と同期遅延が発生します。

課題1に対し、rStar2-Agentは高スループットで隔離されたコード環境サービスを構築しました。

このサービスの設計は非常に洗練されています。メインの訓練プロセスから隔離され、計算クラスターのCPUに独立してデプロイされます。中央のタスクキューがすべてのコード実行リクエストを受け取り、複数の「送信ワーカー」がそれらをバッチ処理し、多数の「実行ワーカー」に分散して実際に実行させます。実行結果は再度送信ワーカーに返され、最終的にRLプロセスに伝達されます。このアーキテクチャは、高効率の「コード実行クラウドサービス」のようであり、大量の信頼できないコードタスクを専門的に処理し、メインの訓練フローの安定性と高スループットを保証します。

性能データによると、この環境サービスは毎秒4万5千回以上のツール呼び出しを処理でき、平均遅延は0.3秒と低く、大規模訓練の要件を完全に満たしています。

課題2に対し、rStar2-Agentは動的な負荷分散を行うRolloutスケジューラを設計しました。

従来の静的割り当て（上図）は問題だらけでした。rStar2-Agentのスケジューラ（下図）は非常にインテリジェントです。各GPUに固定数のタスクを静的に割り当てるのではなく、各GPU上のKVキャッシュ（KV Cache）の残り容量をリアルタイムで監視します。KVキャッシュは、GPUが生成中のテキストのために予約しているメモリと理解できます。スケジューラは、各GPUが現在安全に引き受けられる新しい生成タスクの数を推定し、待機キュー内のタスクを動的に割り当てます。これにより、すべてのGPUが常に「忙しくてもクラッシュしない」状態を保証し、計算リソースの利用を最大限に高め、KVキャッシュオーバーフローによる計算の無駄や待機を回避します。

主要な革新点3：効率的な訓練 — 低コストで最強の頭脳を錬成

アルゴリズムとインフラストラクチャが整ったところで、最後のステップは、最小限のコストで最高のパフォーマンスを得るための訓練プロセスを設計することです。rStar2-Agentの訓練レシピもまた独特で、主流の方法とは大きく異なります。

ステップ1：「非推論」教師ありファインチューニング（Non-Reasoning SFT）

通常、RLを行う前には、詳細な推論連鎖を含むデータを用いてモデルをSFTします。これは「推論SFT」と呼ばれ、生徒に詳細な解法付き問題集を与えて模倣させるようなものです。しかし、rStar2-Agentは逆のアプローチを取り、「非推論SFT」のみを行います。目的は、モデルにどのように推論するかを教えるのではなく、指示に従う方法、ツールインターフェース（JSON形式）を使用する方法、そして規範的に解答を出力する方法（<reason>,<answer>,\boxed{}）を教えることです。SFTに使用されるデータは主にツール呼び出し、指示追従、対話データであり、数学的推論データはほとんど含まれません。利点：

SFT段階でモデルが特定の固定推論パターンに「過学習」するのを防ぎ、その後のRLがより良い解を探索するための余地を残します。
このSFTの後、モデルの初期応答長は非常に短く（約1Kトークン）、その後のRLがより短いコンテキスト長で効率的な訓練を行うための基盤を築きました。

表に示すように、「非推論SFT」後、モデルはツール使用（BFCL）、指示追従（IFEval）、および対話（Arena-Hard）能力が大幅に向上しましたが、数学的推論能力（MATH-500, AIME）はベースモデルと比較して大きな変化はなく、この段階の目標が達成されたことを裏付けています。

ステップ2：多段階エージェントRL訓練

次に、前述のGRPO-RoCアルゴリズムとインフラストラクチャを使用して強化学習を行います。プロセス全体は、ゲームのステージのように3つの段階に分かれています。

ステージ1（concise RL, 8K長）：全ての42Kの数学問題で訓練しますが、モデルの最大応答長を8Kトークンに制限します。初期には10%以上の経路が長すぎて途中で打ち切られますが、これによりモデルは限られた「スペース」内で、漫然と「手当たり次第に試す」のではなく、ツールをより効率的かつ正確に推論に利用するよう強制されます。モデルはすぐに適応し、応答長は4K程度で安定し、性能が大幅に向上しました。
ステージ2（12K長）：8Kの制限下でモデルの性能が安定してきたら、長さの上限を12Kに引き上げ、より複雑な問題に対処するための追加のスペースをモデルに与えます。平均応答長は6Kに増加し、性能はさらに向上しました。
ステージ3（困難なサンプルに焦点を当てる, 12K長）：この段階では、モデルは多くの簡単な問題を100%正しく解けるようになっています。継続的な改善のため、モデルがまだ間違える「難しい問題」（約17.3K問）を積極的に選別し、これらの問題のみで訓練を行います。平均応答長は8Kに増加し、最終的にモデルを性能の頂点へと押し上げました。

表は、rStar2-Agentの訓練レシピと他の主要モデルのそれを比較しています。最も顕著な特徴は、推論SFTなし、総RLステップ数が極めて少ない（510ステップ）、訓練長が極めて短い（8K->12K）ことです。これは、数万ステップ、16K以上の訓練長を要する他の方法とは対照的であり、その効率の優位性は一目瞭然です。

実験結果と性能 — 包括的なリード、強力な汎化能力

上記の効率的な訓練の後、rStar2-Agent-14Bモデルは極めて強力な性能を示しました。

数学的推論、巨頭を超える

最も挑戦的な数学コンペティションベンチマークであるAIME2024および2025において、rStar2-Agent-14Bは平均正答率（pass@1）80.6%と69.8%を達成し、OpenAI o3-mini (medium)、DeepSeek-R1 (671B)、Claude Opus 4.0といった多くの巨大モデルを凌駕しました。これは、エージェントRLの有効性を証明するだけでなく、「小規模モデルが大規模モデルを超える」という前例を確立しました。

さらに驚くべきは、性能の向上が「力任せの物量作戦」（長文生成）によるものではない点です。表4に示すように、rStar2-Agent-14Bの平均応答長（約9K-10Kトークン）は、比較モデル（約14K-17Kトークン）よりもはるかに短いです。これは、より賢く、より正確にツールを使用することを学習し、より少ない「言葉」でより難しい「こと」を成し遂げたことを意味します。

強力な汎化能力、一通百通

最も強力な証拠は、その強力な汎化能力にあります。rStar2-Agentは数学データのみでRL訓練を行いましたが、他の分野のテストでは驚くべき性能を発揮しました。

科学的推論（GPQA-Diamond）：SFT後の42.1%**から60.9%**へと精度が急上昇し、専門的に訓練されたDeepSeek-V3 (59.1%)さえも上回りました。これは、数学から学んだ推論パターンが一般的な科学的推論に転移できることを示しています。
ツール使用（BFCL v3）とアライメント（IFEval, Arena-Hard）：これらの非推論タスクでは、SFT後のレベルとほぼ同等の性能を維持しており、数学RL訓練がモデルが元々持っていた他の能力を損なわなかったことを示しています。

深層分析：エージェントはどのように「より賢く」考えるのか？

モデルが「賢く」なった内在的なメカニズムを探るため、論文ではトークンエントロピーの観点から分析を行いました。エントロピーが高いほど、モデルがそのトークンを生成する際により不確実であり、選択肢が多いことを意味し、これは通常、意思決定や反省の重要な瞬間に発生します。

研究者たちは2つの主要な高エントロピーパターンを発見しました。

分岐トークン（Forking Tokens）：これらの高エントロピートークンは、通常、モデルが自己反省し、疑問を呈し、検証を計画するときに現れます。例えば、「しかし...」（But before）、「もう一度確認させてください」（double-check）、「再実行」（rerun）などです。このパターンは従来のCoT RLでもよく見られ、モデルに探索を促し、一方通行の思考を防ぎます。
反省トークン（Reflection Tokens）：これはエージェントRLに特有のものです！モデルがコード環境からのフィードバック（成功出力であろうとエラーメッセージであろうと）を受け取った後、一連の高エントロピートークンを生成して、このフィードバックを分析し、解釈し、対応します。

成功実行の例：モデルはツールが返した結果を見た後、高エントロピートークンを生成して検証方法を計画し（「To verify」）、慎重な思考を示します。
より素晴らしいエラー処理の例：モデルがコード実行でエラーを出した後、諦めたり適当に推測したりせず、大量の高エントロピートークンを生成してエラーの原因を分析し（「The error occurred because...」）、解決策を考案し（「an easier workaround is to...」、「Alternatively」）、そして最終的に修正されたコードを生成します。これはプログラマーがデバッグしている様子に酷似しており、高度な認知能力を示します。

結論として：エージェントRLは、従来のCoTにおける自己反省能力を保持するだけでなく、さらに重要なことに、環境からのフィードバックに対して深く反省し、行動を調整する能力を新たに獲得しました。これこそが、単なる「長い思考連鎖」よりも本質的に「賢い」理由です。

いくつかの考察

論文では、いくつかの失敗した試みも率直に共有されており、これらの経験も同様に貴重です。

過剰な長さフィルタリング（Overlong Filtering）：長すぎるために途中で打ち切られた経路を直接破棄すること（負の報酬を与えずに）は、単に長文であるが推論が正しい経路を罰することを避ける意図でした。しかし、結果的にこれが、負のフィードバック信号が欠如しているために、モデルが冗長で繰り返しのあるテキストをより頻繁に生成する原因となることが判明しました。最終的に、途中で打ち切られた経路を保持し、負の報酬を与える方が効果的でした。
N-gram繰り返し検出：繰り返しN-gramを含む成功経路をルールでフィルタリングして品質を向上させようと試みましたが、これは検証目的で行われる合理的で類似したツール呼び出しを誤って排除してしまうことが頻繁に判明しました。このことから、LLMのRLにおいて、過度に複雑で精緻なルールベースの報酬またはフィルタリングメカニズムは、むしろ不利に働く可能性があることが示唆されます。

これらの教訓は、そのシンプルな報酬設計（最終的な答えの正誤のみに依存）とRoCのデータレベルでのフィルタリング戦略の優位性を改めて裏付けています。すなわち、偏りを減らし、探索を維持し、ロバストな学習を実現するということです。

さらに、実験ではRLの向上には天井が存在することが発見されました。訓練の後半で性能がピークに達した後、訓練を続けると崩壊を引き起こし、様々なパラメータ調整方法も無効でした。これは、RLが主にモデルが事前訓練段階で既に獲得している内在的な潜在能力を活性化させるものであり、その能力自体を超える新しい能力を付与するものではないことを示しています。したがって、最小限のRL計算コストでいかに効率的にこの天井に到達するかが極めて重要になります。rStar2-Agentはこの点を成功裏に達成しました。

結論

rStar2-Agentの研究は、アルゴリズムの革新、システム工学、そして訓練技術を融合させた傑出した成果です。その核となる貢献は以下の通りです。

GRPO-RoCアルゴリズム：「正確な再サンプリング」戦略を巧みに用いることで、シンプルな報酬を維持しながら、コード環境におけるノイズ問題を効果的に克服し、モデルに高品質な推論を生成するように導きました。
高性能インフラストラクチャ：大量の並行ツール呼び出しと動的な負荷分散をサポートできる訓練システムを構築し、大規模なエージェントRLを実現可能かつ効率的にしました。
効率的な訓練レシピ：「非推論SFT」と「多段階RL」の組み合わせにより、極めて少ない計算コスト（510ステップ、64基のGPUで1週間）で、小規模モデルを数学的推論の最高レベルに押し上げました。

この研究は、モデルを「より賢く考える」エージェントの道が、単に「より長く考える」よりもはるかに効果的で効率的であることを力強く証明しました。これは、小規模モデルが巨大モデルを超える前例を確立し、AIコミュニティに貴重なアルゴリズム、システム、洞察を提供します。そのコードとレシピはオープンソース化されており、効率的でインテリジェントな推論モデルの分野全体におけるさらなる探求を推進することでしょう。今後、このパラダイムを数学以外のより広範な推論領域やツール使用シナリオに拡張していくことには、無限の可能性が秘められています。