画像
本論文の筆頭著者は董冠霆(Dong Guanting)で、現在、中国人民大学高瓴人工知能学院の博士課程1年生であり、竇志成教授と文継栄教授の指導を受けています。彼の研究分野は主に大規模言語モデルの推論、マルチエージェント強化学習、深層探索エージェントなどです。彼はICLR、ACL、AAAIなどの国際トップ会議で多数の論文を発表し、Kuaishouの大規模モデル応用チームやAlibabaの通義千問チームなどの大規模モデルチームでインターンシップを行っています。代表的な研究には、AUTOIF、Tool-Star、RFT、Search-o1、WebThinker、Qwen2、Qwen2.5などがあります。本論文の責任著者(corresponding author)は、中国人民大学の竇志成教授とKuaishou Technologyの周国睿です。
検証可能な強化学習(RLVR)の推進により、大規模言語モデルは単一ターン推論タスクにおいて優れた性能を示しています。しかし、実際の推論シナリオでは、LLMは外部ツールと多段階で対話する必要があることが多く、既存のRLアルゴリズムはモデルの長期的推論能力と多段階ツール対話能力のバランスをとる点で依然として不十分です。
このため、私たちは、多段階対話型LLMエージェントのために特別に設計された、まったく新しいAgentic Reinforced Policy Optimization(ARPO)手法を提案しました。
ARPOは、外部ツールを呼び出した後にモデルの推論の不確実性(高エントロピー)が著しく増加するという現象を初めて発見し、これに基づいてエントロピー駆動型の適応的ロールアウト戦略を導入し、高エントロピーのツール呼び出しステップの探索を強化しました。同時に、メリット帰属推定を導入することで、モデルはツール対話における各ステップの価値の違いをより効果的に理解できるようになります。計算推論、知識推論、深層探索など13の難易度の高いベンチマークにおいて、ARPOは、既存のサンプルレベルのRL手法に比べて、ツールの呼び出し予算を半分しか使用していないにもかかわらず、著しく優れた性能を示し、多段階推論エージェントの効率的な訓練のための拡張可能な新しいソリューションを提供します。
画像
論文タイトル:Agentic Reinforced Policy Optimization
論文リンク:https://arxiv.org/abs/2507.19849
コードリポジトリ:https://github.com/dongguanting/ARPO
オープンソースデータ&モデル:https://huggingface.co/collections/dongguanting/arpo-688229ff8a6143fe5b4ad8ae
この研究は、X(旧Twitter)で高い注目を集め、Huggingface Paperのデイリーおよびウィークリーランキングで1位を獲得しました。
画像
研究動機:ツール呼び出し後の高エントロピーの瞬間を捉える
近年、検証可能な報酬に基づく大規模強化学習は、単一ターン推論タスクにおいて最先端の大規模言語モデルの潜在能力を最大限に引き出し、目覚ましい成果を上げています。しかし、オープンエンドな推論シナリオでは、LLMは長期計画と適応的決定能力を持つだけでなく、外部ツールと動的に多段階で対話する必要があります。これにより、静的な問題解決から動的なエージェントと環境の推論へと訓練を移行させる、Agentic RLという新しいパラダイムが生まれました。既存のAgentic RL手法の多くは、サンプルレベルのアルゴリズム(例:GRPO、DAPO)を採用しており、特定の特殊トークン下で完全なツール呼び出し軌跡を独立してサンプリングし、最終的な出力報酬モデルに基づいています。しかし、この方法は、報酬の希薄性やツールの過度な使用などの問題により、多段階対話の価値が過小評価され、ツール呼び出しプロセスにおける各ステップのきめ細やかな行動探索が無視されがちです。
深層探索タスクにおけるLLMのトークンエントロピー分布の分析を通じて、研究者は、モデルがツールを呼び出した後の初期生成段階でエントロピー値が著しく増加することを発見しました。これは、外部ツールのフィードバックが高い不確実性を導入することを示しており、既存の方法が十分に活用できていなかった探索の機会です。
画像
図1:左図は大規模モデルがツール呼び出し後の高エントロピー現象を示し、右図はARPOとベースラインの性能を比較しています。
ARPOフレームワーク:推論時に多種多様なツール呼び出しを自律的に実行するモデルの訓練
上記で発見された事柄に対処するため、私たちはAgentic Reinforced Policy Optimization(ARPO)を提案します。その核となる考え方は、高エントロピーのツール呼び出しステップにおいて、適応的にサンプリングを分岐させ、より多様な推論経路を探索することです。具体的には、私たちの貢献は以下の通りです。
私たちは、Agentic推論プロセスにおけるLLMのトークンエントロピーの変化を定量化し、LLMエージェントを整合させる上でのサンプルレベルRLアルゴリズムの固有の限界を明らかにしました。
私たちはARPOアルゴリズムを提案しました。これはエントロピーに基づく適応的ロールアウトメカニズムを導入し、グローバルサンプリングを維持しつつ、高エントロピーのツール呼び出しステップでの分岐サンプリングを促します。さらに、ARPOはメリット帰属推定を組み合わせることで、LLMがステップレベルのツール使用行動におけるメリットの差異をよりよく内面化するのに役立ちます。
ヒューリスティックな動機付けに加えて、私たちはLLMエージェント訓練にARPOアルゴリズムを導入することの正当性を理論的にも論証しました。
13の難易度の高いベンチマークにおける実験は、ARPOが主流のRLアルゴリズムよりも安定して優れた性能を示すことを示しています。これは、ツールの呼び出し訓練予算を半分しか使用していない場合でも同様であり、Agentic RLを探索するための実行可能な参照と実践的な示唆を提供します。
ツール呼び出しのエントロピー変動現象:高エントロピーの瞬間と探索の困難
画像
図2:LLMベースのツール使用エージェントにおけるトークンエントロピーの変化とトークン頻度分布のデータセット横断分析
大規模モデルがツールを組み合わせて複雑な検索・推論タスクを実行する際のトークンエントロピー値を分析した結果、以下の点が明らかになりました。
1. 各ツール呼び出し後の最初の10~50トークン内でエントロピーが著しく上昇する。
2. 推論の初期段階ではエントロピーが増加する傾向があるが、大規模モデルがツール呼び出しのフィードバックを受け取った後のレベルよりは低い。
3. 検索エンジンのフィードバックによって導入されるエントロピー変動は、コードコンパイラの実行フィードバックよりも大きい。
これらの現象は、外部フィードバックとモデルの内部推論間のトークン分布のシフトに起因すると考えられ、導入される推論の不確実性が元の入力の問題を超えることさえあります。さらに、検索エンジンは通常、豊富なテキストコンテンツを提供しますが、コードコンパイラの出力は決定論的な数字で構成されており、前者のエントロピー変動が大きくなる原因となります。
ツール設計:Agentic推論を支える多様なツール
本研究は、LLMベースのツール使用エージェントの訓練アルゴリズムの最適化に焦点を当てています。既存のAgentic RL研究を整理した後、ARPOの有効性を実証的に評価するために、代表的な3種類のツールを選択しました。
検索エンジン:ウェブ検索クエリを実行して関連情報を取得し、ローカルモードとオンラインモードの両方をサポートします。
ウェブブラウジングエージェント:検索エンジンから返されたウェブリンクにアクセスして解析し、クエリに応答するために重要な情報を抽出して要約します。
コードインタープリタ:LLMが生成したコードを自動的に実行し、成功すれば結果を返し、そうでなければコンパイルエラーメッセージを返します。
これらのツールは、情報検索、コンテンツ解析、プログラム実行など、多岐にわたる機能をカバーし、多段階対話と複雑な推論シナリオを強力にサポートします。
ARPOアルゴリズム:エントロピー信号を利用してLLMのツール呼び出しを段階的に最適化する
エントロピーに基づく適応的ロールアウトメカニズム
ARPOの核となる考え方は、グローバルサンプリングとエントロピー駆動型のローカルサンプリングを組み合わせることで、モデルがツールを呼び出した後に不確実性が高まる段階で探索の強度を高め、それによって推論効果を向上させることにあります。そのエントロピーに基づく適応的ロールアウトメカニズムには、以下の4つの主要なステップが含まれます。
画像
図3:ARPOのエントロピー駆動型適応的ロールアウトメカニズム、グローバル探索とローカル高エントロピーノード分岐の組み合わせ
1. ロールアウト初期化
グローバルロールアウト規模Mを設定し、まずサンプルレベルのグローバルサンプリングを行います。LLMは入力問題qに対してN個の初期軌跡を生成し、各軌跡の最初のトークンのエントロピー値を計算して初期エントロピー行列を形成します。残りのM-N個の軌跡のサンプリング予算はローカルサンプリングのために確保されます。
2. エントロピー変化の監視
各ツール呼び出しステップtの後、モデルはツールの戻り結果を連結した後、さらにk個のトークンを生成し、ステップレベルのエントロピー行列を計算します。
を用いて初期状態に対する正規化されたエントロピー変化を定量化することで、現在の推論不確実性の変化傾向を判断します。
3. エントロピーに基づく適応的分岐
エントロピー値が著しく上昇するノードでモデルがより深く探索するよう誘導するため、ツール呼び出しステップtのローカルサンプリング確率は次のように定義されます。
モデルの分岐決定は以下の通りです。
画像
このメカニズムは、探索リソースをエントロピーが上昇する領域に自動的に割り当てます。これらの領域は、より高い情報利得を秘めていることが多いです。
4. 終了条件
ロールアウトプロセスは、分岐経路数が予算上限M-Nに達するか(分岐を停止してサンプリングを完了)、またはすべての経路が事前に終了するまで継続されます。予算がまだ残っている場合は、より包括的な推論空間をカバーするためにグローバルサンプリングが補充されます。
ARPOは上記のメカニズムを通じて、計算複雑度をの範囲内に保ちつつ、不確実性を感知した効率的な探索を実現し、大規模モデルがツール呼び出し後の高情報利得段階を正確に特定し、十分に活用できるようにします。
メリット帰属推定
ARPOのエントロピー駆動型適応的ロールアウトは、共有推論セグメントと分岐経路を含む軌跡を生成します。これは、ステップレベルのツール呼び出し情報をよりよく活用するために、方策更新方法を最適化するヒントを与えてくれます。
2つのメリット推定方法
1. ハードメリット推定(Hard)
共有トークンと分岐トークンを明確に区別し、共有部分については平均メリットを計算し、分岐部分については個別に計算します。
分岐トークンのメリット推定:
画像
共有トークンのメリット推定:
画像
2. ソフトメリット推定(Soft)
方策最適化プロセスにおいて、共有推論連鎖と分岐推論連鎖のトークンを暗黙的に区別し、GRPO(Group Relative Policy Optimization)を通じて、グループ更新中に重要度サンプリング比率を動的に調整することで、両方のタイプのトークンを自然に処理します。
画像
ここで、重要度サンプリング比率は以下の通りです。
画像
2つの軌跡がステップtより前に同じトークンプレフィックスを共有する場合、それらの共有トークンは同じ重要度重みを持つため、この更新プロセスはハードメリット推定とほぼ同等であり、より洗練されています。
実験結果は、ソフトメリット推定がARPO訓練においてより高い報酬を安定して獲得できることを示しているため、これをデフォルトのメリット推定方法としています。
階層型報酬設計
ARPOの報酬関数は、回答の正確性、ツール呼び出しの形式、および多ツール連携を総合的に考慮しています。モデルが推論中に検索(<search>)やコード(<python>)など複数のツールを使用し、回答が正しく、形式が適切である場合、追加の報酬が得られます。式は以下の通りです。
画像
ここで:
画像
ソフトメリット推定と階層型報酬メカニズムを通じて、ARPOは訓練において多段階ツール使用方策をより円滑かつ効率的に最適化することができます。
実験結果:10以上の複合推論タスク評価
ARPOの汎用性と効率性を十分に評価するため、以下の3種類のテストセットを考慮しました。
計算型推論タスク:モデルの計算推論能力を評価します。これにはAIME24、AIME25、MATH500、GSM8K、MATHが含まれます。
知識集約型推論タスク:モデルが外部知識を組み合わせて推論する能力を評価します。これにはWebWalker、HotpotQA、2WIKI、MisiQue、Bamboogleが含まれます。
深層探索タスク:モデルの深層探索能力を評価します。これにはHLE、GAIA、SimpleQA、XBenchが含まれます。
画像
画像
実験結果から以下のことがわかります。
ARPOは全体的に主流の手法よりも優れている:ARPOはほとんどのタスクでGRPO、DAPOなどのサンプルレベルRL手法よりも高い精度を達成しており、ツール呼び出しが頻繁なタスク(例:GAIA、HLE)では改善幅がより顕著です。
複数タスクで安定した性能を維持:ARPOは計算、知識、探索の各タスクで良好な性能を維持しており、明確な性能の弱点がなく、そのタスク横断的な適応能力が検証されています。
実験:サンプリング分析とツール呼び出し効率評価
多段階サンプリング能力によるモデル性能向上
Deepsearchタスクは動的で多段階対話の特性を持つため、Pass@1指標だけではモデルのツール呼び出しの潜在能力を完全に反映することは困難です。私たちはさらにPass@3とPass@5指標を分析し、8Bモデルであろうと14Bモデルであろうと、ARPOのアラインメント訓練後には、継続的な改善と良好なスケール効果を示していることを発見しました。特に、14BモデルはPass@5指標で際立った性能を示しています。
GAIAで61.2%を達成
HLEで24.0%を達成
XBench-DRで59%を達成
ツール呼び出し効率の大幅な向上
Agentic RL訓練において、ツール呼び出し回数は直接コストに影響します。Qwen2.5-7Bモデルを例にとり、ARPOとGRPO手法を比較しました。
ARPOは全体的な精度でGRPOを上回る
同時に、ツール呼び出し回数は約半分しか使用していない
画像
これは、ARPOの独自のエントロピーに基づく適応的サンプリングメカニズムのおかげであり、高エントロピーのツール呼び出しステップでのみサンプリングを分岐させることで、ツール行動の探索空間を大幅に拡張し、同時に不要な呼び出しを削減しています。
まとめと今後の展望
ARPOアルゴリズムは、多段階ツール推論エージェントの性能を効果的に向上させ、既存のサンプルレベルRL手法における多段階対話での探索不足や汎化能力の欠如といった問題を解決しました。エントロピー駆動型適応的サンプリングとメリット帰属メカニズムを通じて、ARPOはツール呼び出しが頻繁で推論経路が複雑なタスクにおいて、より効率的で安定した出力を実現できます。今後、Agentic RLモデルの能力を継続的に向上させるために、いくつかの方向が探索に値します。
マルチモーダルAgentic RL:ARPOは現在、主にテキスト推論タスクに焦点を当てており、画像、ビデオなどのマルチモーダル情報の処理には依然として限界があります。今後はマルチモーダルタスクに拡張し、マルチモーダルシナリオにおけるモデルのツール呼び出しと方策最適化を探索できます。
ツールエコシステムの拡張:ARPOは多ツール連携タスクにおける潜在能力をすでに検証しています。今後は、より多くの種類の外部ツール(例:コードデバッガー、データ分析ツール、リアルタイムAPI呼び出しなど)を導入し、ツール使用方策の最適化を通じて複雑なタスクの性能をさらに向上させることができます。
大規模・リアルタイム展開:ARPOは高い訓練効率と推論汎化能力を示しました。今後は、より大規模なモデルやリアルタイムの動的環境での展開と適応を探索し、コストを削減しつつ実用価値を高めることができます。
画像