まとめ！2025年の大規模言語モデルエージェント強化学習におけるマルチターン計画技術

Datawhaleハイライト

著者：是念、編集：青稞AI

著者：是念（知乎）https://zhuanlan.zhihu.com/p/1902381952998281700

DeepSeek R1がGRPOベースの強化学習技術を牽引して以来、エージェンティックなツール利用学習もGRPO、Reinforce++、PPO、ポリシー勾配などの様々なアルゴリズムを使用するようになりました（以前はSFT+DPOで、悪例をカバーするために大量のラベル付けデータが必要でした。当時、高品質なデータのラベル付けで私は泣きそうになりました）。大規模言語モデル（LLM）がコードインタプリタやウェブ検索などのツールを使って、既存モデルの数学的・推論能力を向上させることを目指しています。シングルターンとはツールを1回呼び出すことであり、マルチターンとはツールを複数回呼び出すことです。マルチターンでのツール利用はより難しく、主な課題はデータの入手困難さとモデリング方法（現在の状態のみを考慮するMDPのような訓練モードか、それとも全ての状態を考慮する完全な履歴モードか）が不明瞭であることです。ツール利用強化学習（tool-use RL）も新しい研究分野であり、その可能性はまだ掘り起こされていません。

最近の作業は、このマルチターンツール利用のプロンプトテンプレート設計に集中しており、訓練時にはルールベースの報酬（正解報酬、フォーマット報酬、ツール実行報酬など）の設計、訓練におけるツール出力のマスク操作、サンプリング時の非同期並列性の導入、Megatronのパイプライン並列性への統合、マルチモーダル情報の組み込みなどが必要です。訓練のパラダイムは基本的に、まず専門家の軌跡を収集してSFTを行い、その後RLで訓練する（例：ReTool）、または直接RLを適用する（例：TORL、ToolRL、OTCなど）というものです。現時点では、エージェントRLのために真に設計された方法はまだなく、既存のインフラ（verl、open-rlhf、trl、ms-swiftなど）を再利用し、いくつかの拡張を行っています。

最近、ツール利用の基盤の上に、ツール統合推論という概念も登場しました。これはCoTとの違いとして、推論過程でツールを使用する点が挙げられます。これにより、推論過程に検索、コード、様々なカスタマイズされたAPIの入力が動的に追加され、推論能力がさらに強化されます。この方向性に関する論文は市場に少なく、私自身の論文読解と実践の経験を共有し、この分野の研究を共に推進したいと思います。

このエージェントのツール利用プロンプトをどのように書くか疑問に思う人もいるでしょう。以下の例は、チャットテンプレートを含むツールプロンプトであり、具体的にはチャットテンプレート、ツールスキーマ、ツールコール、ツールレスポンスなどが含まれています。システムプロンプトには通常ツールスキーマ情報が記述され、アシスタントはモデルの応答です。思考プロセスは<think></think>タグ内に含まれ、ツールコールのパラメータは</tool_call>タグ内に含まれ、ツール実行のレスポンスはユーザーの応答に含まれ、</tool_response>タグで囲まれています：

<|im_start|>system In this environment you have access to a set of tools you can use to assist with the user query. You may perform multiple rounds of function calls. In each round, you can call one or more functions. Here are available functions in JSONSchema format: ```json tool_schema ``` In your response, you need to first think about the reasoning process in the mind and then conduct function calling to get the information or perform the actions if needed. The reasoning process and function calling are enclosed within <think> </think> and <tool_call> </tool_call> tags. The results of the function calls will be given back to you after execution, and you can continue to call functions until you get the final answer for the user's question. Finally, if you have got the answer, enclose it within \boxed{} with latex format and do not continue to call functions, i.e., <think> Based on the response from the function call, I get the weather information. </think> The weather in Beijing on 2025-04-01 is \[ \boxed{20C} \]. For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags: <tool_call> {"name": <function-name>, "arguments": <args-json-object>} </tool_call><|im_end|> <|im_start|>user User 1 wants to return all books by Jane Doe they have checked out. Each book is 5 days overdue, what is the total late fee? <|im_end|> <|im_start|>assistant <think> First, I need to find out which books by Jane Doe the user has checked out. Then, I will calculate the late fee for each book based on the number of days it is overdue. </think> <tool_call> {"name": "get_user_checked_out_books", "arguments": {"user_id": 1}} </tool_call> <tool_call> {"name": "search_books_by_author", "arguments": {"author": "Jane Doe"}} </tool_call> <|im_end|> <|im_start|>user <tool_response> {"name": "get_user_checked_out_books", "arguments": {"user_id": 1}} ['Python Basics', 'Advanced Python', 'Data Structures'] </tool_response> <tool_response> {"name": "search_books_by_author", "arguments": {"author": "Jane Doe"}} [{'title': 'Python Basics', 'author': 'Jane Doe', 'copies_available': 3}, {'title': 'Advanced Python', 'author': 'Jane Doe', 'copies_available': 0}] </tool_response> <|im_end|> <|im_start|>assistant <think> ... ...

エージェントRLの台頭により、エージェントベースの応用に取り組む多くの人々が希望を見出しました。エージェントRLの利点について述べます。

• ツールとの直接的な相互作用を通じて外部知識を獲得し、モデルの精度をさらに向上させることができます。

• DPOはデータ駆動型のアプローチであり、大量のデータを必要とします。DPOは対照学習の思想を取り入れており、うまく訓練するのは非常に困難です。PPOシリーズの手法はオンラインRLの手法であり、サンプリングによってサンプルを生成し、それを用いて訓練を改善します。DPOよりも必要なデータ量がはるかに少ないです。

エージェントRLの利点について述べた後、その欠点についても触れます。

• 真に複雑なタスクは数十ステップかかることがあり、LLMの長系列処理における性能低下や長系列後の計算効率の低さといった理由により、既存のRLフレームワークは依然として約10ステップで完了できるタスクに集中しています。実際のタスクは30〜100ステップを要することが多く、複雑な問題を真に解決できるまでにはまだ長い道のりがあります。

• GRPOはルールベースの手法であり、プロセスを簡素化しますが、それでもアノテーションデータ、慎重に設計された報酬、そして最終的にはパラメータ調整やデータ調整が必要であり、良い結果を得るには手間がかかります。

• RLは訓練に環境を必要とし、通常はシミュレーション環境です。その速度はGPUの計算速度に及ばないため、環境を高速化し、RL訓練のペースに追いつくことも考慮すべき課題です。

• エージェントRLの研究は、コードインタプリタ専用やウェブ検索専用など、単一のツールに集中していることが多く、複数のツールを混合してマルチターンで呼び出す研究は少ないです。

これらのRLアルゴリズムを区別できない人もいるかもしれません。簡単に整理してみましょう。

• PPO：生成された各トークンを「行動」とみなし、モデルの各出力を監視します。このプロセスはバリューモデル/クリティックモデルによって行われ、損失にはクリッピングメカニズムが追加され、方策の更新幅を制限し、モデルが「学習に偏る」のを防ぎます。

• GRPO：GRPOはPPOの改良版であり、バリューネットワークに依存しません。同じサンプルの複数の出力を生成し、各出力の報酬とグループ内の平均報酬との差を計算し、KLダイバージェンスを用いてモデルと参照モデルの乖離度を制約します。

• REINFORCE++：基本的なREINFORCEに「履歴ベースライン」メカニズムを追加します。例えば、過去の複数のバッチの平均報酬を現在のベースラインとして使用し、単一バッチの変動の影響を避けます。

その他にもRLOO、REMAX、ポリシー勾配などのアルゴリズムがあります。興味があれば関連資料を学んでみてください。RLには特徴があり、理論は長く難解ですが、コードに落とし込むと数行の簡単なコードになります。

DeepSeek 技術分析

RL技術について言及するなら、最近非常に話題になったDeepSeekの基盤技術について触れないわけにはいきません。その効果も非常に驚くべきもので、例えばDeepSeek V3はほとんどの指標でクローズドソースモデルのGPT-4oを上回り、DeepSeek-R1もほとんどの指標でO1を上回りました。オープンソースモデルがこれほど優れた性能を発揮できるのは信じられないことであり、多くのAI企業のクローズドソース戦略の計画を台無しにし、苦労して築き上げた障壁が一夜にして消え去ったのです。DeepSeek-R1とV3で用いられた技術をまとめました。

• Mixture-of-Experts: 訓練コストを削減し、推論効率を向上させました。

• Multi-Head Latent Attention: アテンション部分のKVキャッシュを削減しました。低ランク。

• Multi-Token Prediction: モデルの性能（精度）を向上させました。

• DualPipe: 大規模GPUクラスタの計算対通信比率と効率を向上させました。

• FP8 Training: この低精度訓練の採用により、訓練コストをさらに削減しました。

• DeepSeek-R1強化学習GRPOと多段階訓練

これらの技術については詳しく説明しません。これらの論文を解説する記事は市場に山ほどあります。その中でもGRPOはRLの技術路線を人気にしました。GRPOとPPOの違いは、advantage（分散を減らすために使用される）がサンプリングプロセスで生成されたサンプルの報酬であり、平均と分散を求める点です。PPOとの違いは非常に小さいため、オープンソースコードでPPOを実装する際に、ついでにGRPOも実装されました。GRPOはルールベースの報酬しか必要としませんが、経験に基づいてこの報酬を設計する必要があるため、パラメータ調整が好きな人にとっては良いことですが、手抜きをしたい人にとってはあまり友好的ではありません。

TORL: Scaling Tool-Integrated RLTORL：スケーラブルなツール統合型強化学習

論文：https://arxiv.org/abs/2503.23383

コード：https://github.com/GAIR-NLP/ToRL

この論文では、ToRL（ツール統合強化学習）を紹介しています。これは、強化学習を通じて計算ツールを自律的に使用するように大規模言語モデル（LLM）を訓練するためのフレームワークです。教師ありファインチューニングとは異なり、ToRLはモデルがツール利用の最適な戦略を探索し発見することを可能にします。

Qwen2.5-Mathモデルの実験では、顕著な改善が示されました：ToRL-7BはAIME~24で43.3%の精度を達成し、ツール統合なしの強化学習よりも14%高く、既存の最良のツール統合推論（TIR）モデルよりも17%高くなりました。さらなる分析により、戦略的ツール呼び出し、無効なコードの自己調整、計算推論と分析推論の間の動的適応など、純粋に報酬駆動型学習から生じる新たな振る舞いが明らかになりました。

訓練にはVERL、GRPOアルゴリズムを使用し、ロールアウトバッチサイズ128、サンプル数16、KL損失は不使用、温度は1。Qwen2.5-7Bモデルを使用しました。

TORLはデータセットの構築においてLIMRを使用し、高品質なサンプルを抽出し、難易度の高いサンプルの分布をバランスさせました。元々75,149のデータがありましたが、フィルタリング後に28,740のデータが残りました。モデルがコードブロックを使用して自動的に推論を出力できるようにするため、TORLは以下のプロンプトを使用しました。

モデルのロールアウトプロセス中、コード終端識別子（「output」）が検出されると、システムはテキスト生成を一時停止し、最新のコードブロックを実行のために抽出し、構造化された実行結果を「output\nOBSERVATION\n」形式でコンテキストに挿入します。ここでOBSERVATIONは実行結果です。その後、システムはモデルが最終的な答えを提供するか、新しいコードブロックを生成するまで、後続の自然言語推論を生成し続けます。

コード実行が失敗した場合、意図的にLLMにエラーメッセージを返すことは注目に値します。これは、これらのエラー診断が、モデルが後続の反復で構文的および意味的に正しいコードを生成する能力を強化すると仮定しているためです。

A conversation between User and Assistant. The user asks a question, and the Assistant solves it. User:Please integrate natural language reasoning with programs to solve the problem above, and put your finalanswer within \boxed{}. prompt Assistant:

ToRLの設計選択

ツール呼び出し頻度制御：ロールアウト中のツール統合は大量のGPUアイドル時間を引き起こし、ロールアウト速度はツール呼び出し頻度に反比例します。合理的な訓練効率を維持するため、本論文ではハイパーパラメータCを導入しました。これは各応答生成で許容される最大ツール呼び出し回数を示します。この閾値を超えると、システムはさらなるコード実行要求を無視し、モデルを純粋なテキスト推論モードに切り替えることを強制します。

実行環境選択：訓練効率と有効性のバランスを取るため、安定性、正確性、応答性の高いコードインタプリタの実装を求めました。調査とテストの結果、Sandbox Fusion2を選択しました。これは隔離された実行環境を提供します。わずかに遅延が高いにもかかわらず、継続的な訓練操作に対して優れた安定性を提供します。

エラーメッセージ処理：訓練効果を高めるため、特定のエラー処理最適化が実装されました。Sandbox Fusionが実行エラーに遭遇すると、無関係なファイルパス情報を含む詳細なバックトレースを生成します。コンテキスト長を削減し、関連するエラー情報のみを保持するため、最後のエラーメッセージ行（例：NameError： name 'a' is not defined）のみが抽出されます。

サンドボックス出力マスキング：損失計算プロセス中に、サンドボックス環境からのOBSERVATION出力をマスキングしました。これにより、モデルが特定の実行出力を記憶しようとするのではなく、汎用的な推論パターンを学習するのを防ぎ、訓練の安定性を大幅に向上させました。

報酬設計：ルールベースの報酬関数が実装されました。正解には1の報酬、不正解には-1の報酬を与えます。さらに、コードインタプリタはコードの実行可能性に関するフィードバックを自然に提供します。コードの実行成功と問題解決の精度との相関関係に基づいて、実行ベースのペナルティが導入されました：実行不可能なコードを含む応答は-0.5の報酬が減少します。詳細については、論文を参照してください。

ToolRL: Reward is All Tool Learning Needs

論文：https://arxiv.org/abs/2504.13958

現在の大規模言語モデル（LLM）は、ツール使用能力を獲得するために、通常、教師ありファインチューニング（SFT）を必要とします。しかし、SFTは、慣れないまたは複雑なツール使用シナリオに一般化するのが困難です。強化学習（RL）分野の最近の進歩、特にR1のようなモデルは、優れた推論能力と汎化能力を示しています。しかし、ツール使用のための報酬設計は、独自の課題に直面しています。複数のツールが異なるパラメータで呼び出される可能性があり、粗い粒度の報酬シグナル（例えば、回答の一致）では、効果的な学習に必要なきめ細やかなフィードバックを提供できません。

本研究では、ToolRLはRLパラダイムにおけるツール選択と適用タスクの報酬設計を包括的に調査しました。様々な報酬戦略を体系的に探索し、その種類、スケール、粒度、時間動態を分析しました。これらの洞察に基づいて、ツール使用タスクに特化した原則的な報酬設計を提案し、グループ相対ポリシー最適化（GRPO）を用いたLLM訓練に適用しました。

様々なベンチマークでの実証評価は、ToolRLが堅牢でスケーラブルかつ安定した訓練を実現できることを示しました。ベースモデルと比較して17%、SFTモデルと比較して15%の性能向上を達成しています。これらの結果は、LLMのツール使用能力と汎化性能を高める上で、入念に設計された報酬メカニズムの重要な役割を浮き彫りにしています。

最適な報酬戦略を特定するために、4つの主要な側面における様々な報酬設定を検討しました。

• 1 報酬タイプ（どの側面を報酬とするか）

• 2 報酬スケール（どのくらいの報酬か）

• 3 報酬粒度（報酬シグナルの詳細レベル）

• 4 報酬動態（報酬が時間とともにどのように変化するか）。

多数の実験を通じて、主体のツール使用状況に最も合致する報酬設計を特定し、ツールを呼び出すLLMにとって報酬が「有用」である理由を明らかにしました。本論文で得られた核となる洞察は以下の通りです。

• 推論の軌跡が長ければ良いとは限らず、過度に長い報酬は性能を低下させる可能性があります。

• 動的な報酬スケールは、モデルが単純な行動から複雑な行動へとスムーズに移行するのに役立ちます。

• きめ細やかな報酬分解は、より安定した効果的な学習を可能にします。

ルールベースの報酬メカニズムは、強力な実証的効果を示し、広く採用されています。ToolRLも、先行研究と一致して、構造的報酬と正確性ベースの報酬を組み合わせた式を採用しています。具体的には、フォーマット報酬はモデル出力が、アイデア、ツールコール、応答を含む、期待される構造に適合しているかを評価します。一方、正確性報酬はツールコールの正確性を評価します。形式的には、全体報酬 R final(·) は、R format + R correct の2つの部分に分解されます。各部分の具体的な記述は以下の通りです。

フォーマット報酬：報酬フォーマット Rformat ∈ {0, 1} は、モデル出力がグラウンドトゥルースで指定された正しい順序で必要な特殊トークンをすべて含んでいるかをチェックします。

正確性報酬：正確性報酬 Rcorrect ∈ [−3, 3] は、予測されたツール呼び出し P = {P1, ..., Pm} を真の呼び出し G = {G1, ..., Gn} と比較して評価するために使用されます。これにはToolName Matching、Parameter Name Matching、Parameter Content Matchingの3つの部分が含まれます。具体的な詳細については、主な式を掲載するだけで省略します。これらはすべてフォーマットチェックの評価細則です。

訓練にはGRPOの手法、verl訓練フレームワークを使用し、基盤モデルにはllama3.2とqwenモデルを使用しました。詳細については割愛しますので、興味のある方は論文を参照してください。

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

論文：https://arxiv.org/abs/2504.20073

コード：https://github.com/RAGEN-AI/RAGEN

大規模言語モデル（LLM）をインタラクティブなエージェントとして訓練することは、長期的な意思決定やランダムな環境フィードバックとの相互作用など、独自の課題に直面します。強化学習（RL）は静的タスクで進歩を遂げていますが、マルチターンエージェントRL訓練はまだ十分に探索されていません。

本論文では、軌跡レベルのエージェントRLのための汎用フレームワークであるStarPO（状態-思考-行動-報酬ポリシー最適化）を提案し、LLMエージェントの訓練と評価のためのモジュール式システムであるRAGENを紹介しました。本研究には3つの核となる発見があります。

第一に、エージェントRL訓練は、「エコー・トラップ」パターンという反復的な不安定性を示し、報酬の分散が急激に減少し、勾配がピークに達します。この問題に対処するために、軌跡フィルタリング、評価器のマージ、デカップリングクリッピング機能を備えた安定版であるStarPO-Sを使用します。

第二に、多様な初期状態、中程度の相互作用の粒度、およびより頻繁なサンプリングがRL展開の形成に有利に働きます。

第三に、きめ細かな推論認識報酬シグナルがなければ、エージェントの推論はマルチターンRLを通じて現れることは難しく、表面的な戦略や幻覚的なアイデアを示す可能性があります。

エージェント学習の3つの重要な側面を分析し、安定したエージェントRL訓練の核となる課題と設計原則を明らかにする以下の発見をまとめました。

マルチターン強化学習における勾配の安定性は、安定した訓練の鍵です。マルチターン強化学習訓練は、エージェントが局所的な報酬推論パターンに過学習する「エコー・トラップ」と呼ばれる不安定なパターンを頻繁に引き起こし、報酬分散の崩壊、エントロピーの低下、勾配のスパイクを特徴とします。この失敗モードを緩和するために、本論文ではStarPO-Sを提案しました。これは、分散ベースの軌跡フィルタリング、批評家ベンチマーク、およびデカップリングクリッピングを通じて学習の堅牢性を向上させます。

展開頻度と多様性が自己進化を形成します。強化学習ベースのエージェント訓練では、LLMが自己生成する展開軌跡がコア訓練材料として使用されます。エージェント強化学習の安定訓練の重要な展開要因を特定しました。

• (1) 展開が多様なプロンプトセットから得られることを確認し、各プロンプトに複数の応答があること。

• (2) 各ラウンドで複数の操作を実行し、固定されたラウンド制限内で相互作用の範囲を改善すること。

• (3) 高い展開頻度を維持し、オンラインフィードバックが現在のポリシーを反映するようにすること。

新たなエージェント推論には、きめ細かな報酬シグナルが必要です。行動形式の推論を奨励するだけでは、推論行動の発生を保証できません。StarPOによる軌跡レベルの最適化が行われても、モデルが推論するように促されても（例：「<think>」タグを使用）、推論が明確な報酬上の利点をもたらさない場合、それらは直接的な行動選択に戻ることがよくあります。これは、MDPの行動空間が単純であり、浅い戦略で十分であるためと推測されます。

さらに、報酬がタスクの成功のみを反映する場合、モデルは幻覚的な推論を生成し、思考と環境の状態の間に不一致を明らかにします。これらの問題は、長期的なエージェント訓練のために、きめ細かな推論認識報酬シグナルの必要性を強化学習において浮き彫りにしています。

下図に示すように、以前の方法は数学やコード生成などの非対話型タスクに焦点を当てていました。RAGENはStarPOを実装しています。これは汎用的なエージェント強化学習フレームワークであり、マルチターン展開、軌跡レベルの報酬割り当て、ポリシー更新をサポートし、マルチターンのランダムな相互作用を必要とするエージェントタスクに適しています。

下図は、状態-思考-行動-報酬ポリシー最適化（StarPO）フレームワークを示しています。LLMは環境とのマルチターンインタラクションのために推論に基づいた行動を生成し、軌跡レベルの報酬を蓄積します。これらの報酬は正規化され、LLMのポリシーを更新するために使用されます。

StarPO（状態-思考-行動-報酬ポリシー最適化）は、LLMエージェントの完全なマルチターンインタラクション軌跡を最適化することを目的とした汎用的な強化学習フレームワークです。静的なタスクに対して各行動を個別に処理する従来の方法とは異なり、StarPOは観察、推論軌跡、行動、フィードバックを含む軌跡全体を、展開とモデル最適化のための連続した単位として扱います。その目標は、期待される軌跡報酬を最大化することです。

各訓練イテレーションで、エージェントは初期状態0から開始し、条の軌跡を生成します。各ステップで、エージェントは推論に基づいた構造化出力を生成します。

ここで、は中間推論を含む完全な行動出力であり、は環境で実行可能なサブ行動です。環境はその後、次の状態+1と報酬を返します。ロールアウトフェーズでは、完全な軌跡={0,0,0,1,...,−1,−1,}が生成され、各コンポーネントはLLMによって生成されるか、環境によって誘導され、共同で最適化されます。

StarPOはロールアウトと更新ステップを交互に実行します。新しいロールアウトは、ポリシーに基づいて生成することも、古いリプレイバッファからサンプリングすることもできます。各訓練ループは個の初期状態0を含み、各状態から条の軌跡を生成し、バッチサイズで更新を実行し、合計回ループします。これにより、総勾配ステップ数=··/となります。

アルゴリズムにはPPOとGRPOを使用し、モデルにはqwen-0.5b-instructを使用し、verlフレームワークを使用しました。StarPOを実践するために、RAGENを構築しました。これは、制御された環境でLLMエージェントを訓練するための完全なシステムです。RAGENは、構造化された展開、カスタマイズ可能な報酬関数をサポートし、マルチターンのランダム環境と統合できます。StarPOの実行バックエンドとしてだけでなく、推論エージェントの訓練プロセスにおける安定性、汎化能力、学習動態を研究するためのプラットフォームとしても機能します。

RAGENの設計はモジュラー式でスケーラブルです。新しい環境、報酬スキーム、展開戦略を訓練ループに簡単に挿入でき、強化学習ベースのエージェント訓練分析の基盤を築きます。論文では、実験部分でDAPOに言及されている安定化手法（clip-higherとremove kl term）も採用し、SokobanとFrozen Lakeの2つのタスクで実験を行いました（あまり一般的ではないタスクです）。詳細については、論文を参照してください。

OTC: Optimal Tool Calls via Reinforcement Learning

論文：https://arxiv.org/abs/2504.14870

ツール統合推論（TIR）は、大規模言語モデル（LLM）の能力を強化し、外部ツール（検索エンジンやコードインタプリタなど）を呼び出すことを可能にし、純粋な言語推論能力では解決できないタスクを解決します。強化学習（RL）は、最終的な回答の正確性を最適化することでTIRの可能性を高めてきましたが、既存の方法はツール利用に関連する効率とコストを無視しがちでした。これにより、ツールの過剰な呼び出しによる計算と財務的オーバーヘッドの増加、またはツール利用の不足による回答品質の低下など、望ましくない行動が生じる可能性があります。

本論文では、最適なツール呼び出し制御に基づくポリシー最適化（OTC-PO）を提案します。これは、モデルが最小限のツール呼び出しで正確な回答を生成することを奨励する、シンプルかつ効果的な強化学習ベースのフレームワークです。OTCは、正確性とツール効率を同時に考慮するツール統合報酬メカニズムを導入し、ツールの生産性を向上させます。

フレームワークとして実装されたOTC-PPOとOTC-GRPOをQwen-2.5とQwen-Mathを用いて複数のQAベンチマークで実験した結果、かなりの精度を維持しながら、ツール呼び出し回数を最大73.1%削減し、ツール効率を最大229.4%向上させることが示されました。

OTC-POは、強化学習（RL）に基づいたシンプルかつ効果的な手法であり、大規模言語モデル（LLM）が外部ツールを正確かつ適応的に制御する方法を学習することを可能にします。OTC-POは、正しい解決策に到達するために必要なツール呼び出し回数を最適化するようにモデルを訓練し、精度を犠牲にすることなく訓練と推論のコストを削減します。この目標を達成するために、本論文ではツール統合報酬メカニズムを導入しています。これは、ツール効率を反映するスケーリング係数によって従来の報酬シグナル（例：正確性）を調整します。これにより、モデルはツール呼び出し回数が少ない正しい回答を優先するように促されます。

OTC-POは、最適化目標を単なる正確性からツール生産性へと転換します。ツール生産性とは、タスクの収益（例：回答の正確性）とツール使用コスト（例：ツール呼び出し回数）の比率として定義されます。OTC-POは軽量で広く適用可能であり、標準的な強化学習プロセスにわずかな変更（わずか数行のコード）を加えるだけで、既存のシステムに簡単に適用できます。ウェブ検索とコード実行の2つの一般的なツールモードで実験を行いました。複数のLLM（Qwen-2.5-3B/7B-BaseおよびQwen2.5-Math-1.5B/7B-Baseを含む）を使用し、OTC-POは推論軌跡中のツール呼び出し回数を大幅に削減しながら、従来の方法と同等の精度を維持しました。論文で言及されている貢献は以下の通りです。

• 次の目標を初めて達成しました。i) 強化学習を通じてツール効率の問題を体系的に解決しました。この問題は、先行研究ではしばしば無視されていました。ii) LLMのTIRにおける認知オフロード現象を特定しました。iii) TIRの有効性と効率を測るためにツール生産性の概念を導入しました。

• 最適なツール呼び出しを用いて問題を解決し、ツール生産性を最大化するようモデルを促す、シンプルでスケーラブルかつ汎用的なOTC-POアルゴリズムを提案しました。このアルゴリズムは、各問題とモデルの組み合わせに対して最適なツール呼び出し回数が存在するという基本的な観察に基づいています。このアルゴリズムは様々な強化学習アルゴリズムと互換性があり、わずかなコード変更で簡単に実装できます。

• OTC-PPOとOTC-GRPOを2つの典型的な方法として実装し、適応性と汎用性を維持しました。複数のベンチマークおよびベースラインでの実験結果は、ドメイン内およびドメイン外評価における大部分の精度を維持しながら、ツール呼び出しコストが大幅に削減されることを示しました。

GRPOとPPOは比較的一般的ですが、報酬設計を見てみると、コサイン関数が使われていて非常に独特です。OTC-PPOのツール報酬設計：

OTC-GRPOのツール報酬設計：

ツール統合報酬設計。

この論文の主な目的はツール呼び出しの回数を減らすことであり、SOTA（最先端）を追求するものではないのが少し残念です。その他の詳細については割愛しますので、この要件のある読者は論文を参照してください。

SkyRL-v0: Train Real-World Long-Horizon Agents via Reinforcement Learning

https://novasky-ai.notion.site/skyrl-v0

https://github.com/NovaSky-AI/SkyRL

既存の強化学習フレームワークのほとんどは、検索拡張推論や単純なコード実行など、短期で状態を持たない相互作用を伴うタスクに最適化されています。対照的に、SWE-Benchで示されているような実世界のタスクは、状態を持つ動的な環境での長期的な計画から恩恵を受けます。これは、インフラストラクチャと訓練アルゴリズムの両方に新たな課題をもたらします。

強化学習の最近の進歩により、言語モデルが能動的なエージェントになることが可能になりました。最近のオープンソースフレームワーク、例えばSearch-R1やToRL（VeRLに基づいて構築）は、この分野で目覚ましい進歩を遂げ、マルチターン強化学習を達成し、単一ツール（例えば検索やコード実行）を横断的に使用できるようになりました。これらのシステムは、ツール強化推論のための重要な基盤を築きました。しかし、SWE-Bench、WebDev、Webブラウジングなどの複雑な実世界のタスクには、モデルが複数のツールを呼び出し、テストを作成・実行し、環境フィードバックに応答し、長期的な計画を実行できる高度なエージェント能力が必要です。

これらのより高度なエージェントはエキサイティングな進化を示していますが、それらでオンライン強化学習を実行するのは極めて困難です。第一に、効率的な訓練フレームワークには、迅速な環境実行と効率的な環境相互作用展開が必要です。第二に、効果的な訓練には強力な長期ホライズンアルゴリズムが必要です（これは本ブログの焦点ではありません）。結論として、これらの問題は、以前のツール強化推論LLMの訓練よりもはるかに複雑になります。

本論文では、SkyRLを導入します。これは、VeRLとOpenHands上に構築された、SWE-Benchを含む複雑な環境で長期タスクを実行するためのマルチターンツール使用LLMのRL訓練ワークフローです。SkyRLの機能：

• LLMエージェントを訓練し、複雑な環境相互作用を伴う多段階計画を実行できるようにサポートします。

• 非同期並列実行により、計算集中型と環境相互作用集中型フェーズを軌跡間でオーバーラップさせ、高スループット生成を実現します（基準実装と比較して4〜5倍高速）。

• RLアルゴリズムを事前に組み込み（拡張も可能）ており、迅速な開始を容易にします。

SkyRLはVeRL上に構築されており、学習アルゴリズムに対する豊富なサポートを継承しています。SkyRLは、エージェント層を導入することでVeRLを拡張しました。（1）効率的な非同期マルチターンロールアウト、（2）汎用ツール利用、および（3）汎用かつスケーラブルな環境実行。

Group-in-Group Policy Optimization for LLM Agent Training

グループベースの強化学習（RL）の最近の進歩は、数学的推論のようなシングルターンタスクにおける大規模言語モデル（LLM）の応用を推進しました。しかし、長期的なLLMエージェント訓練におけるスケーラビリティは依然として限定的です。静的なタスクとは異なり、エージェントと環境の相互作用は複数のステップにわたって展開され、しばしば希薄または遅延した報酬を生み出すため、各ステップにわたる信用割り当てがより困難になります。

本研究では、LLMエージェントに対してきめ細かな信用割り当てを可能にしつつ、グループベース強化学習の多くの利点（評価器不要、低メモリ、安定した収束）を維持する、斬新な強化学習アルゴリズムであるGroup-in-Group Policy Optimization（GiGPO）を提案します。GiGPOは相対優位を推定するための2段階構造を導入します。

• (i) エピソードレベルでは、GiGPOは完全な軌跡グループに基づいてマクロな相対優位を計算します。

• (ii) ステップレベルでは、GiGPOはアンカー状態グループ化メカニズムを導入し、軌跡を横断する重複する環境状態を識別することで、ステップレベルのグループを遡及的に構築します。

同じ状態から派生した操作はグループ化され、微視的な相対優位推定が実現されます。この階層構造は、補助モデルや追加のデプロイに依存することなく、グローバルな軌跡品質とローカルなステップ有効性を効果的に捉えることができます。GiGPOは、Qwen2.5-1.5B-InstructとQwen2.5-7B-Instructを使用し、ALFWorldとWebShopという2つの挑戦的なエージェントベンチマークで評価されました。

極めて重要なこととして、GiGPOはきめ細かなステップごとの信用シグナルを提供し、ALFWorldでは12%以上、WebShopでは9%以上の性能向上を達成しました。GRPOベンチマークと比較してもGiGPOの性能向上は同様に顕著であり、同時にGPUメモリ消費量やLLMデプロイメントは同じで、追加の時間コストはほとんど発生しません。

下図に示すように、エージェントは同じ状態に初期化された一連の環境と相互作用し、一連の軌跡 {τi}Ni=1 を生成します。同じ色の状態は同じ環境状態を表します。GiGPOは2次元のグループ計算（エピソードレベルAEとステップレベルAS）を実行し、きめ細かなポリシー最適化を導く階層的な相対優位を生成します。

具体的な詳細については割愛しますが、ロールアウト段階でいくつかきめ細かい最適化を行っています。ただし、著者はverlベースのコードを公開しているので、興味があれば試してみてください。

論文：https://arxiv.org/abs/2505.10978

コード：https://github.com/langfengQ/verl-agent

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

外部ツールを活用して大規模言語モデルの機能をテキスト生成タスク以外に拡張することは、重要な戦略となっています。以前の研究では、ツール利用能力を強化するために、教師ありファインチューニング（SFT）を適用してツール呼び出しの正確性を保証したり、より強力なモデルから推論軌跡を抽出してSFTを実現したりする方法が一般的でした。しかし、これら2つの方法には欠点があり、推論を完全に無視したり、汎化を制限する模倣推論を生成したりしていました。

DeepSeek-R1がルールベースの強化学習を通じて推論を引き出すことに成功したことに触発され、本論文ではNemotron-Research-Tool-N1を提案します。Nemotron-Research-Tool-N1は、より強力なモデルから抽出された中間推論軌跡を厳密に教師するのではなく、ツール呼び出しの構造的有効性と機能的正確性のみを評価するバイナリ報酬を通じて最適化されます。この軽量な教師メカニズムにより、モデルはアノテーション付きの推論軌跡を必要とせずに、自律的に推論戦略を内面化できます。

BFCLおよびAPI-Bankベンチマークで実施された実験では、Qwen-2.5-7B/14B-Instructをベースに構築されたNemotron-Research-Tool-N1-7BおよびNemotron-Research-Tool-N1-14Bが最先端の結果を達成し、両方の評価でGPT-4oを上回りました。

Nemotron-Research-Tool-N1（Tool-N1）訓練フローの概要は下図の通りです。ユーザーからのクエリと候補ツールを含む標準SFTツール呼び出しデータから始め、LLMを訓練し、GRPOアルゴリズムのバイナリ報酬関数を用いて構造化推論とツール呼び出しを行います。監督はフォーマットとツール呼び出しの正確性のみを対象としているため、訓練プロセスは綿密に計画された推論軌跡を必要としません。

データ準備

無効なツール呼び出しを含むサンプル（特に候補ツールリストにないツールを含むサンプル）をフィルタリングし、データセットを標準化します。システムプロンプトから利用可能なツールを抽出し、候補ツールと実際のツール呼び出しを構造化された辞書形式で解析します。JSON解析に失敗したインスタンスや形式が不整合なインスタンスは破棄されます。この前処理により、強化学習に適したクリーンで一貫性のあるデータセットが生成されます。ToolACEサブセットからのマルチターンデータについては、各軌跡をさらに複数のシングルステップ予測インスタンスに細分化します（マルチターンを複数のシングルターンに分割し、既存のインフラを再利用します）。各インスタンスにはターゲットツール呼び出しが含まれ、前のステップはコンテキストと見なされます。GRPO訓練では、これらのコンテキスト情報と提供されたツールに基づいて各ツール呼び出しステップを予測します。

思考テンプレート

LLMからツール呼び出しを引き出すために軽量なプロンプトテンプレートを採用しています。下図をご覧ください。このプロンプトは、<think>...</think>タグ内で中間推論を生成し、次に...</tool_call>タグ内でツール呼び出しを行うよう、モデルに明確に指示しています。このテンプレートの設計思想は、厳密すぎるフォーマット規則への依存を最小限に抑え、特定のプロンプトパターンへの過剰適合のリスクを低減することです。モデルにより大きな推論表現の柔軟性を与えることで、さまざまなツール使用シナリオにおいて、より堅牢な汎化を促進することを目指しています。さらに、訓練中にこの軽量プロンプト設計を使用することで、生成されたモデルがより複雑なプロンプト戦略と容易に統合できるようになります。

報酬モデリング

フォーマットチェック：訓練プロセス中にフォーマットチェックが追加され、モデルの出力が期待される構造的仕様に適合しているかを検証します。具体的には、推論プロセスが<think>...</think>タグに含まれているか、ツール呼び出しが...</tool_call>タグに正しく含まれているかを確認します。この構造的制約は、モデルが最終回答を急いで出すのではなく、ツール呼び出しの前に明確な推論を行うよう促します。フォーマットへの準拠を強制することで、モデルの内部推論能力を育成することを目指しています。これは、特に分布外の入力の処理において、汎化能力の向上に役立つ可能性があります。

ツール呼び出しチェック：ツール呼び出し自体の正確性をチェックします。ツール呼び出し出力は辞書として解析され、実際の呼び出しと正確に一致するかを確認します。これには、予測されたツール名が実際の呼び出しと一致するか、および必要なすべてのパラメータが正しい値を持っているかを確認することが含まれます。この厳密な一致基準により、モデルは機能的に正確で実行可能なツール呼び出しを生成することを学習できます。SFTにおける次のトークン予測ロジックと比較して、この辞書ベースの一致はより大きな柔軟性をもたらします。パラメータの順序変更がペナルティなしで許容され、モデルがツール呼び出しの根底にあるセマンティクスに集中し、表面的な記憶に固執しないよう促します。この設計は、ツール使用のより深い理解を助け、より良い汎化をサポートします。

NVIDIAによる非常に優れた実用記事です。詳細については論文を参照してください。

https://arxiv.org/abs/2505.00024

Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

大規模言語モデル（LLM）は複雑な推論タスクで目覚ましい進歩を遂げていますが、依然として静的な内部知識と純粋なテキスト推論への依存に限定され、その発展を根本的に制約しています。実世界の課題解決には、動的で多段階の推論、適応的な意思決定、外部ツールや環境との相互作用能力が通常必要とされます。

本論文では、ARTIST（自己改善型Transformerにおけるエージェント推論とツール統合）を導入します。これは、エージェント推論、強化学習、LLMのツール統合を密接に結びつける統一フレームワークです。ARTISTは、モデルがマルチターン推論チェーンでいつ、どのように、どのツールを呼び出すかを自律的に決定することを可能にし、結果ベースの強化学習を利用して、ステップレベルの教師なしで強力なツール使用と環境相互作用戦略を学習します。

数学的推論およびマルチターン関数呼び出しベンチマークで実施された多数の実験は、ARTISTの性能が最先端のベースラインモデルを一貫して上回り、ベースモデルと比較して最大22%の絶対性能向上を達成し、最も困難なタスクで顕著な進歩を示したことを示しています。詳細な研究と指標分析は、エージェント強化学習訓練がより深い推論、より効率的なツール使用、およびより高品質な解決策をもたらすことを示しています。

ARTISTでは、ロールアウトはモデルが生成する推論ステップとツール出力の間で交互に行われ、これによりエージェントと外部ツールおよび環境との相互作用が捉えられます。トークンレベルの損失を統一的に適用すると、モデルが確定的なツール出力を模倣し、効果的なツール呼び出し戦略を学習しない可能性があります。

これを防ぐため、ARTISTは損失マスキング戦略を採用しています。損失計算プロセス中に、ツール出力中のトークンがマスキングされ、勾配がモデルが生成したトークンのみを介して伝播されるようにします。これにより、最適化の焦点がエージェントの推論と意思決定に置かれ、確定的なツール応答からの偽の更新を回避します。

ARTISTのアーキテクチャ図を以下に示します。テキストベースの思考、ツールクエリ、ツール出力を織り交ぜることで、エージェント推論が実現され、統一フレームワーク内で推論、ツール使用、環境相互作用の動的な協調が可能になります。

ARTISTの方法論の概要を以下に示します。このフレームワークは、推論が内部思考、ツール使用、および環境相互作用の間でどのように交互に行われるかを説明し、学習を導くために結果ベースの報酬を使用します。これにより、モデルは強化学習を通じて推論とツール使用戦略を繰り返し洗練させることができます。

ARTISTにおけるロールアウト

ARTISTでは、ロールアウトの構造は、内部推論と外部ツールまたは環境との相互作用を交互に行うように設計されています。モデルによって生成されたトークンのみで構成される標準的なRLロールアウトとは異なり、ARTISTはLLMがテキスト生成とツールおよび環境クエリを織り交ぜる反復フレームワークを採用しています。プロンプトテンプレート：ARTISTは構造化されたプロンプトテンプレートを使用し、出力を4つの部分に分類します。

• (1) 内部推論（<think>...</think>）

• (2) ツールまたは環境クエリ（...</tool_name>）

• (3) ツール出力（<output>...</output>）

• (4) 最終回答（<answer>...</answer>）

ツールクエリを発行した後、モデルは対応するツールまたは環境を呼び出し、出力を追加し、回答に到達するまで推論ループを続けます。ロールアウトプロセス：各ロールアウトはこれらの構造化された断片で構成され、ポリシーモデルは各ステップで内部推論を行うか、外部リソースと相互作用するかを決定します。

ツール呼び出しには、コード実行、API呼び出し、Web検索、ファイル操作、またはインタラクティブな環境（Webブラウザやオペレーティングシステムなど）での操作が含まれる場合があります。これらのインタラクションの出力は推論チェーンに再統合され、フィードバックに基づく反復的な改善と適応的なポリシー調整が可能になります。

報酬設計

効果的な強化学習訓練には、慎重に設計された報酬関数が不可欠です。これにより、望ましい行動へとポリシーを導く最適化シグナルが提供されるからです。GRPOでは、結果ベースの報酬が効率的かつ効果的であることが証明されており、集中的な中間監視なしに堅牢なポリシー改善をサポートします。しかし、ARTISTは報酬設計に新たな課題をもたらします。正しい最終回答を導き出すだけでなく、モデルは推論、ツール使用、環境との相互作用を一貫性があり信頼できる方法で構築する必要があります。

この問題を解決するため、ARTISTは複合報酬メカニズムを使用し、各展開にきめ細かなフィードバックを提供します。ARTISTの報酬関数は、次の3つの主要な部分で構成されています。

回答報酬：モデルが正しい最終回答（<answer>...</answer>タグで示されるような）を生成した場合、このコンポーネントは正の報酬を割り当てます。回答報酬は、モデルがタスクを正しく解決することを直接奨励し、推論プロセスの最終目標が達成されることを保証します。フォーマット報酬：構造化された解釈可能な推論を促進するため、ARTISTはフォーマット報酬を導入し、規定されたプロンプトテンプレートへの準拠を促します。この報酬は主に2つの基準をチェックします。

• (1) 展開全体を通して、実行順序（推論（<think>）、ツール呼び出し（）、ツール出力（<output>））が正しい順序で維持されているか。

• (2) 最終回答が<answer>タグに正しく含まれているか。フォーマット報酬は、モデルが一貫性があり、解析しやすい方法で出力を整理することを学習するのに役立ちます。これは、信頼性の高いツール呼び出しと下流評価にとって不可欠です。

ツール実行報酬：各ツール相互作用プロセスにおいて、モデルのクエリは正しくフォーマットされているか実行可能である場合もあれば、そうでない場合もあります。堅牢で効果的なツール使用を促進するため、ARTISTはツール実行報酬を導入しました。これは、成功したツール呼び出しの割合として定義されます。

Tool Exection Reward = Tool success / Tool total

ここで、Tool successとTool totalは、それぞれ成功したツール呼び出しの回数と総呼び出し回数を表します。この報酬は、モデルが文法的に正しく、ターゲット環境で実行可能なツールクエリを生成することを学習するようにします。

ARTISTはGRPOメソッドで訓練され、Qwen2.5 7bおよび14bモデルを使用し、verlフレームワークを使用しました。そして、複雑な数学的推論とマルチターン関数呼び出しに対してそれぞれ報酬関数を設計しました。詳細については論文を参照してください。

https://arxiv.org/abs/2505.01441

Agent RL Scaling Law: Spontaneous Code Execution for Mathematical Problem Solving

大規模言語モデル（LLM）は、正確で検証可能な計算を必要とする数学的推論タスクでしばしば苦戦します。結果ベースの報酬に基づく強化学習（RL）はテキストベースの推論能力を向上させることができますが、エージェントがコード実行のような外部ツールを自律的に利用する方法を理解することは依然として極めて重要です。本論文では、結果ベースの報酬に基づく強化学習を研究し、それをツール統合推論（ZeroTIR）に適用して、数学的問題解決のために監督なしのツール使用例なしでPythonコードを自発的に生成および実行できるベースLLMを訓練します。

具体的には、訓練ステップ数の増加は、自発的なコード実行頻度、平均応答長、そして決定的に重要な最終タスク精度の向上につながります。これは、訓練に投入された計算作業量と、効果的なツール強化推論戦略の出現との間に、定量化可能な関係があることを示唆しています。我々は、デカップリングされたコード実行環境を備えた堅牢なフレームワークを実装し、標準的なRLアルゴリズムとフレームワークで我々の発見を検証しました。実験は、ZeroTIRが挑戦的な数学ベンチマークにおいて、非ツールZeroRLベースラインを大幅に上回ることを示しています。

既存のツール機能に基づくと、ファインチューニングされたモデルに基づく強化学習は、いくつかの重要な発見を覆い隠す可能性があります。SFT後のモデルに基づく強化学習と同様に、応答長とパフォーマンスの関係を観察することは困難です。本論文は、より包括的で明確な分析を提供し、コミュニティ研究と「エージェントRLスケーリング法則」の再現を促進することを目的としています。主要なコミュニティフレームワーク（Open-Reasoner-Zero、OpenRLHF）と一般的な強化学習アルゴリズム（PPO、Reinforce++）、および環境サーバーを使用した詳細な実験を示しました。ベースモデルから初期化されたLLMが、強化学習を通じてPythonコード実行環境を自律的に利用する方法を研究しました。

論文の核心的な仮説は、このようなツール利用の学習プロセスが、我々が「エージェントRLスケーリング法則」と呼ぶ識別可能なパターンに従うというものです。

• 数学的推論におけるZeroTIRにおける自発的なコード実行スキルの自律的習得を制御する、新しいエージェントRLスケーリング法則を特定し、記述しました。

• ベースLLMがコード実行を自発的に利用できるように訓練するための効果的なフレームワークARLを提案し、実装しました。このフレームワークは、コミュニティの主要なRL訓練フレームワークで迅速に有効化できます。

• 実証的検証は、ZeroTIRで訓練されたZTRLモデルが、挑戦的な数学ベンチマークおよびSFTベースのTIR方法において、非ツールZeroRLベースラインを大幅に上回ることを示しています。

ZeroTIRは、強化学習を通じてベースLLMを訓練し、数学的問題解決のためにPythonコード実行環境を自律的に利用できるようにします。主にポリシー勾配アルゴリズム、例えばPPOやReinforce++のようなREINFORCEの変形を採用しています。

まず、ZeroTIRは安定性を強化し、学習を集中させるためにリプレイバッファフィルタリングメカニズムを導入しました。同じプロンプトに対して生成された複数の応答はグループ化され、その最終的な回答精度（結果ベースの報酬に基づく）が計算されます。精度が上位閾値0.8を超えるグループまたは下位閾値0.2を下回るグループはフィルタリングされ、学習勾配が最も有利である可能性のある中間範囲のサンプルを優先します。

次に、ZeroTIRはデプロイ中にコードを自発的に実行するための効率的な相互作用メカニズムを実装しました。図3に示すように、この方法は動的な停止トークン（例：「python」、「」）を利用して、推論、コード生成、外部コード環境との相互作用、および実行フィードバックの統合を反復的に管理します。このステートマシンアプローチは、完全なシーケンスを生成してから事後解析でコードを抽出するよりも効率が大幅に向上します。

このメカニズムは、完了した実行サイクル（n calls）を計算することで、ツール相互作用の頻度も管理します。実験制御のため、特に計算リソースの初期実行を管理する際に、最大呼び出し回数（N max）を強制的に設定します。この制限に達すると、最終的な生成再開の前に、コンテキストに通知（「ツール呼び出し回数が使い果たされました。これ以上ツールを呼び出すことはできません。」）が挿入され、エージェントがその後内部推論に依存できるようにします。

論文：https://arxiv.org/abs/2505.07773

コード：https://github.com/yyht/openrlhf_async_pipline

まとめ

R1-Searcher、ReSearch、Search-R1、DeepResearcherなど、検索関連の作業もいくつかあります。興味があれば確認してみてください。

全体として、エージェントの訓練拡張は既存のRLインフラに基づいており、いくつかの変更が加えられていますが、大きな革新とは言えません。しかし、この分野は徐々に活発になっており、競争を続けるうちに、RLとエージェントをより完璧に融合させ、参入障壁をさらに下げ、より複雑なシナリオをサポートする万能のパスが発見されるかもしれません。

ぜひ「いいね」を3連打してください↓

まとめ！2025年の大規模言語モデルエージェント強化学習におけるマルチターン計画技術

短いURLをシェア