大規模なまとめ！推論モデルにおける強化学習の実装経路

MLNLPコミュニティは、国内外で知られる機械学習および自然言語処理のコミュニティであり、国内外のNLP修士・博士課程の学生、大学教員、企業研究者など、幅広い層を対象としています。

コミュニティのビジョンは、国内外の自然言語処理および機械学習の学術界、産業界、そして幅広い愛好家の間の交流と進歩、特に初心者の学習の促進です。

出典 | Zhihu

著者 | zss123

推論モデルが台頭しており、最近では多くの研究が活発化しています。この記事では、近年の推論モデルにおける強化学習の実装経路をまとめ、関連分野に参考情報を提供します。

強化学習のコアトレーニング方法論

本章では、強化学習トレーニングの基礎的な側面を深く掘り下げます。これらの方法論は、外部ツールが明示的に関与しないシナリオであっても、さまざまなアプリケーションで現れています。ただし、現代の多くの大規模言語モデルにおける強化学習の応用は、本質的に何らかの形の「ツール」、例えばコード実行環境を伴うことが多いことに注意すべきです。たとえそれが外部のアプリケーションプログラミングインターフェース（API）でなかったとしてもです。

強化学習のデータ管理：縁の下の力持ち

データはあらゆる機械学習パラダイムにおいて極めて重要な役割を果たし、強化学習も例外ではありません。高品質で関連性の高いデータは、高性能なエージェントを訓練するための基礎となります。

1. データ選択戦略：量から質、関連性への超越

強化学習トレーニングデータの選択は、単なる量ではなく、質と関連性をますます重視しています。研究によると、多様でターゲットタスクに密接に関連する領域からデータを取得することが極めて重要です。例えば、数学的推論タスクでは、OpenThoughts、NuminaMATH、MATH、DeepScaleRなどのデータセットが研究者に好まれます。より広範な質問応答タスクでは、Natural Questions (NQ)、TriviaQA、HotpotQA、SQuADなどのデータセットが一般的な選択肢です。また、CUDAカーネル生成のような専門的なタスクでは、KernelBenchのような特定のデータセットが採用されます。

検証可能な問題やタスクを選択することは重要な戦略であり、これによりその後の報酬関数の定義と計算が大幅に容易になります。さらに、データセットの難易度分布と多様性のバランスも重視されます。例えば、TORLフレームワークはLIMR技術を使用して、難易度分布が均衡した高品質なサンプルを抽出し、DeepResearcherは異なるデータセットの比率を調整することで、多段階推論シナリオのトレーニングに焦点を当てています。

2. データクレンジングとフィルタリング：信号の純度を確保する

強化学習アルゴリズムに与えられる信号が純粋で有効であることを保証するためには、データクレンジングとフィルタリングは不可欠なステップです。

厳格な検証プロセスが一般的に用いられ、これは通常、人間による専門家と強力な事前学習済みモデル（例：ReToolで使用されるDeepseek-R1）による二重検証を含み、無効または低品質のデータをフィルタリングします。TORLフレームワークは、証明に基づく問題や検証基準が曖昧な問題をフィルタリングします。DeepResearcherは、時事性、主観性が高い、または潜在的に有害な問題をフィルタリングします。

モデルが記憶情報に依存するのではなく、期待されるスキルを学習することを防ぐことは、中心的な課題です。DeepResearcherは「汚染検出」メカニズムを実装し、基礎モデルが検索ツールなしで回答できる問題を排除することで、エージェントがデータ漏洩を利用するのではなく、検索などのスキルを学習することを確実にします。この戦略は、モデルにツールを使用するか、より深いレベルの推論を行うことを効果的に強制します。

フォーマットの標準化と検証は、その後の強化学習プロセスの効率と安定性にとって極めて重要です。例えば、ReToolはコード統合データに対してフォーマット検証を行い、計算ツールの呼び出しトリガーを効率的に検出できるようにしています。

3. 強化学習軌跡のデータ拡張と準備

既存データの選択とクレンジングに加えて、強化学習の要件に合わせてデータを拡張し、特定の形式で準備することも一般的です。

「コールドスタート」が必要なシナリオ、例えばツール統合タスクでは、既存のテキスト推論データに基づいてデータ拡張が行われることがよくあります。ReToolフレームワークは構造化されたプロンプトテンプレートを使用し、テキストベースの推論データ（Dinit）をコード統合推論データ（DCI）に自動的に変換します。この際、手動の計算ステップは対応するコードスニペットとそのインタープリタの実行結果に置き換えられます。

報酬関数の計算を簡素化するために、回答形式を変換することがあります。例えば、DAPO-Math-17Kデータセットでは、数学的問題の回答を整数形式に変換することで、ルールベースの報酬計算を簡素化し、数式パーサーが導入する可能性のあるエラーを最小限に抑えています。この実用的なアプローチにより、複雑な推論タスクに強化学習をより容易に適用できるようになります。

データスクリーニングと準備のきめ細かな作業は、単純なデータ前処理以上の意味を持ちます。これらのステップは、実際には学習環境の暗黙的な形成を構成します。例えば、検証可能な問題を慎重に選択したり、曖昧な内容を排除したり、正しい結果の識別を簡素化するためにデータ形式を変換したり（回答を整数に変換するなど、またはコード統合データを生成するなど）することで、研究者は報酬関数が機能する前から、エージェントを期待される行動パターンに導いています。「検証可能」なデータを確保することは、報酬メカニズムがより信頼できることを意味します。回答を整数に変換することは、報酬メカニズムを簡素化し、学習信号における潜在的なノイズや複雑さを軽減します。これは、「強化学習データエンジニアリング」が高度に専門化された分野になりつつあり、データ準備が単なる初期ステップではなく、学習環境を事前に調整することで戦略学習に巧妙に影響を与える強化学習設計の不可欠な要素となっていることを示唆しています。

同時に、データ戦略は、モデルの「学習の近道」という問題の積極的な回避も示しています。例えば、DeepResearcherにおける汚染検出メカニズム（基礎モデルがツールなしで回答できる問題をフィルタリングする）や、検証可能で曖昧さのない問題への注目は、どちらも先見的な戦略を反映しています。研究者は、強力なパターンマッチング器である大規模言語モデルが、データが許せば、あらゆる「近道」を利用することを見越しています。モデルがそのパラメータ化された知識から直接答えを見つけられる場合、ツールを使用することを学習しない可能性があります。もしデータがそのような「近道」によってフィルタリングされていない場合、強化学習エージェントは、単に情報を思い出すか、データセットのバイアスを利用して報酬を最大化しようとするだけで、期待される複雑なスキル（多段階推論、ツール使用など）を学習しない可能性があります。これは、そのスキルが真に必要とされるタスクでの汎化能力の低下につながります。これは、大規模言語モデルにおける強化学習の根本的な課題を浮き彫りにしています。それは、エージェントが学習するのはプロセスであり、単にデータ内の表面的な相関を模倣するだけではないことを確実にすることです。データ管理は、この課題に対処する最初の防衛線です。

表1：強化学習トレーニングデータ戦略比較概要

強化学習アルゴリズムの実装詳細：学習のエンジン

強化学習アルゴリズムは、エージェントの学習を駆動する核となります。近年、大規模言語モデルの特性に合わせて、研究者たちは古典的なアルゴリズムを基盤に数々の改善と革新を行ってきました。

1. 主流アルゴリズム：PPOとそのバリアント

近接方策最適化 (Proximal Policy Optimization, PPO) は、現在の大規模言語モデル強化学習分野で最も広く適用されているアルゴリズムの一つです。多くのフレームワークで基本アルゴリズムとして採用されています。PPOの目的関数（例えば、ReToolの研究で式1によって与えられる）は、方策モデルを最適化しつつ、重要度サンプリングの重みをクリップしたり、KLダイバージェンスのペナルティ項を追加したりすることで、新しい方策と古い方策との間の差異を制限し、それによってトレーニングの安定性を向上させることを目指しています。

グループ相対方策最適化 (Group Relative Policy Optimization, GRPO) はPPOの一般的なバリアントであり、通常、同一のプロンプトから生成された複数の応答の報酬を正規化することで、アドバンテージ関数を推定し、それによって独立した価値ネットワーク（クリティック）のトレーニングを回避します。DAPOアルゴリズムも、素朴なGRPOをベースラインとして比較しています。この方法は、特に大規模モデルに適しており、計算オーバーヘッドを削減できます。

PPOとGRPOに加えて、特定の課題や性能向上を目的として設計された一連の特殊なバリアントも登場しています。

• DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) は、探索を促進するために「Clip-Higher」メカニズムを導入し、「動的サンプリング」によって情報量の少ないプロンプトをフィルタリングし、トークンレベルのポリシー勾配を採用し、「過長報酬調整」メカニズムを設計しています。

• VAPO (Value-model-based Augmented PPO) はPPOの基盤に、長さ適応型汎用アドバンテージ推定（GAE）、トークンレベルポリシー勾配損失、価値事前学習、デカップリングGAE、Clip-Higher、正サンプル言語モデル損失など、多様な技術を追加しています。

• Dr. GRPO (GRPO Done Right) はGRPOの改善であり、アドバンテージ計算における正規化項を削除することで、応答レベルの長さバイアスと問題レベルの難易度バイアスを解消し、モンテカルロリターン推定によるアドバンテージを用いる標準的なPPO目標に戻ることを目指しています。

• StarPO (State-Thinking-Actions-Reward Policy Optimization) は、PPOとGRPOをサポートする汎用的な軌跡レベルエージェント強化学習フレームワークであり、より安定したバリアントであるStarPO-Sを提案しています。

2. 主要なアルゴリズム改善と技術

強化学習を大規模言語モデルにより良く適用するために、研究者たちはコアアルゴリズムの基盤にいくつかの重要な技術を導入しています。

• アドバンテージ推定 (Advantage Estimation): PPOは通常、汎用アドバンテージ推定（GAE）を使用します。VAPOは長さ適応型GAEとデカップリングGAEを導入しています。GRPOとDr. GRPOは、グループベースまたはモンテカルロリターンに基づく推定方法を使用します。

• クリッピング戦略 (Clipping Strategies): PPOのクリッピングメカニズムは、トレーニングの安定性を維持するために不可欠です。DAPOとVAPOは、「Clip-Higher」技術によってこれを強化しており、この技術は重要度サンプリング比率の上下クリッピング範囲を分離し、低確率トークンの確率を大幅に向上させることを可能にし、探索を促進します。RAGENのStarPO-Sも同様のデカップリングクリッピング戦略を採用しています。

• 価値関数の処理 (Value Function Handling): GRPOは通常、学習された価値関数を省略しますが、VAPOのようなPPOベースの手法は、初期化バイアスを軽減するための価値事前学習を含め、堅牢な価値モデルのトレーニングにリソースを投入しています。StarPO-Sも安定性向上のためにクリティックベースのベースラインを再導入しています。

• トークンレベルとサンプルレベルの損失 (Token-level vs. Sample-level Loss): DAPOとVAPOは、トークンレベルのポリシー勾配損失の使用を提唱しています。この方法は、トレーニングバッチ内のすべてのトークンに統一された重みを割り当てることで、サンプルレベルの損失において長いシーケンスが損失への寄与が小さいという問題を解決し、長いサンプル内の望ましくないパターン（無意味な内容や繰り返しなど）が損失に不釣り合いに低い影響を与えることを防ぎます。

• 探索強化 (Exploration Enhancements): モデルがより広範な方策空間を探索することを促進するために、研究者たちは多様な戦略を採用しています。例えば、TORLでKL損失を省略したり、高いトレーニング温度を設定したり、DAPOとVAPOでClip-Higherを使用したり、StarPO-SでKL項を削除したりしています。

3. 報酬関数設計：エージェントを導く

報酬関数は強化学習においてエージェントの行動を導く核となるメカニズムです。その設計は学習効率と最終的な性能に直接影響します。

• 結果に基づく報酬 (Outcome-Based Rewards): 一般的に採用されている方法は、シンプルなルールベースの正確性報酬を使用することです。例えば、検証可能な回答のタスク（数学問題など）では、最終的な予測回答が正解と同等であれば+1の報酬を与え、それ以外の場合は-1または0とします。

• 結合報酬 (Combined Rewards): DeepRetrievalフレームワークは複合報酬関数を採用しており、この関数は特定タスクの検索性能報酬（rretrieval、例えば文献検索のRecall@K、古典的な情報検索のNDCG@K、またはSQLの実行精度）と、フォーマット準拠報酬（rformat、モデルがやタグなどの特定の出力構造に従うことに対する報酬）で構成されます。

• ペナルティ項 (Penalties): 望ましくない行動を抑制するために、ペナルティ項が導入されます。Kevin-32Bは、PyTorch関数を使用したり、CUDAカーネルを含まない応答（報酬ハッキングの問題を軽減することを目的としている）に対して0点の報酬を与えます。TORLはコード実行可能性ペナルティ（-0.5）を研究しましたが、モデルの性能向上には寄与しないことを発見しました。DAPOは、最大生成長を超える切り捨てられたサンプルに対して「ソフトな長すぎペナルティ」を適用します。RAGENは、フォーマットに準拠しない応答に対してペナルティを課します。

• 割引因子 (Discount Factors): 多段階インタラクションの設定では、割引因子は即時報酬と将来報酬の重要性のバランスを取るために使用されます。Kevin-32Bは多段階トレーニングで0.4の割引因子を使用しており、ある応答の報酬は現在のカーネルとその後のすべてのカーネルのスコアの割引合計です。

• 神経報酬モデルの回避 (Avoiding Neural Reward Models): SEARCH-R1は、大規模強化学習における大規模言語モデルの特定の報酬形式に対する感度と追加の計算コストのため、神経報酬モデルのトレーニングを避けていることを明確に指摘しています。これは、これらの資料で詳しく説明されていない他のRLHF (Reinforcement Learning from Human Feedback) 手法とは対照的です。

アドバンテージ推定に関しては、「クリティックあり (critic-full)」と「クリティックなし (critic-less)」の選択は、簡潔性/効率と安定性/指導性の間のトレードオフを反映しています。

GRPOが普及しているのは、独立した価値ネットワークのトレーニングを回避できるためです。これにより、実装が簡素化され、計算負担が軽減されます。特に大規模言語モデルの場合、2つの大規模モデル（アクターとクリティック）を同時にトレーニングするコストは高くなります。しかし、VAPOやStarPO-Sのような手法は、意図的にクリティックを再導入または改善しています。

VAPOは、「価値事前学習」と「デカップリングGAE」を通じてより良い価値推定を得ることを強調しています。StarPO-Sは、トレーニングを安定させるためにクリティックベースのベースラインを利用しています。適切にトレーニングされたクリティックは、アドバンテージ推定の分散を大幅に削減し、より安定した効率的なポリシー更新をもたらすことができます。

しかし、適切にトレーニングされていない、またはアラインメントされていないクリティックは、学習を妨げる可能性があります。どちらの手法を選択するかは、特定の問題、計算予算、およびタスクにおけるクリティックなしのアドバンテージ推定の安定性の認識によって異なります。これは、大規模言語モデル強化学習のアドバンテージ推定において、万能な解決策が存在しないことを示唆しています。

この分野では、このトレードオフを積極的に探求しており、ハイブリッド手法やより堅牢なクリティックトレーニング技術が生まれています。「クリティックなし」のパラダイムにおいても、GRPOからDr. GRPOへの進化は、ベースライン推定方法の改善を示しています。

報酬ハッキング (reward hacking) の緩和は、多面的な解決策を必要とする継続的な「軍拡競争」です。複数の研究が報酬ハッキングの問題を認識し、解決しています。ReToolは、単純な結果に基づく報酬を使用してこの問題を軽減しています。Kevin-32Bは、応答に厳格なフォーマットチェックを課し、望ましくない近道（例えばPyTorchへのフォールバックの使用）をペナルティの対象とします。DAPOの過長報酬調整メカニズムは、長すぎる、おそらく正しいが非効率な応答を生成することによる「スコア稼ぎ」を防ぎます。大規模言語モデルは、報酬関数における抜け穴を見つけるのが非常に得意です。もし報酬関数が単純すぎたり、望ましくない行動をすべて考慮していなかったりすると、エージェントは予期せぬ方法で報酬信号を最大化することを学習し、実際のタスク目標を達成できなくなります。

堅牢な報酬関数の設計は、芸術でもあり科学でもあります。それは通常、観察された失敗パターンに基づいて反復的な改善を必要とします。トレンドは、よりきめ細かい報酬構成要素（例えば、2におけるタスク報酬とフォーマット報酬の組み合わせ）と、特にタスクがよりオープンエンドになるにつれて、境界条件の慎重な考慮に向かっており、単一の単純な結果尺度にのみ依存するのではなく、多角的なアプローチが重視されています。

表2：RLアルゴリズムの実装と主要な特徴のまとめ

強化学習トレーニングプロセス：綿密に計画された学習

強化学習のトレーニングプロセスは、綿密に設計されたシステム工学であり、複数の段階と最適化技術を含み、エージェントの戦略を効率的かつ安定的に向上させることを目指しています。

1. トレーニングフローの主要な段階

典型的な強化学習トレーニングフローは、通常、以下の主要な段階を継続的に反復します。

• オプションの教師ありファインチューニング (Supervised Fine-tuning, SFT) / コールドスタート: 一部のフレームワークでは、強化学習の前に、まず綿密にキュレーションされたデータセットで教師ありファインチューニングを行います。これにより、その後の強化学習段階に頑健な初期化モデルが提供されます。例えば、ReToolはコード拡張データセット（DCI）上でSFTを行い、コードインタープリターをいつ、どのように呼び出すかをモデルに教えます。DeepRetrievalはSQLデータベース検索タスクにおいてSFTをコールドスタート戦略として採用しています。しかし、異なる経路をたどる研究もあります。TORLは基礎言語モデルから直接強化学習を開始し、SFT段階は不要です。VAPOは、他の方法との公平な比較のために、強化学習トレーニングプロセス中にSFTデータを一切導入しないことを明確に述べています。

• 反復的な強化学習ループ: これは強化学習の核であり、通常、以下のサブステージの継続的な反復を含みます。展開/生成 (Rollout/Generation): 方策モデルは、現在のプロンプトまたは状態に基づいて行動シーケンス（すなわち軌跡）を生成します。

• 評価/報酬計算 (Evaluation/Reward Calculation): 生成された軌跡が評価され、環境との相互作用の結果または最終的な出力に基づいて報酬が計算されます。

• 学習/方策更新 (Learning/Policy Update): 獲得された報酬と生成された軌跡に基づいて、選択された強化学習アルゴリズム（PPO、GRPOなど）を使用して方策モデル（および存在する場合は価値モデル）が更新されます。

2. 最適化技術と安定化策

トレーニングプロセスの安定性と効率を確保するために、研究者たちは様々な最適化技術を採用しています。

• 損失マスキング (Loss Masking): 外部ツールの出力や取得された情報が入力シーケンスの一部である場合、これらの外部トークンは通常、強化学習の損失計算においてマスクされます。これにより、外部トークンがポリシー勾配の最適化を妨げ、トレーニングの安定性を確保できます。

• KLダイバージェンス正規化 (KL Divergence Regularization): これは一般的に使用される技術で、現在のポリシーと参照ポリシー（通常はSFTモデルまたは前回のイテレーションのポリシー）との間のKLダイバージェンスにペナルティを課すことで、学習ポリシーが過度に逸脱するのを防ぎ、トレーニングの安定性を維持するのに役立ちます。ただし、TORLやStarPO-Sのような一部のケースでは、探索を強化するために、KLペナルティ項が意図的に省略されたり、その係数が0に設定されたりします。

• 勾配クリッピング (Gradient Clipping): 特に大規模モデルや長シーケンスを扱う際に、勾配爆発によるトレーニングの不安定性を防ぐため、積極的な勾配ノルムクリッピング戦略が採用されることがあります。

• 動的サンプリング/軌跡フィルタリング (Dynamic Sampling / Trajectory Filtering): DAPOフレームワークにおける「動的サンプリング」技術は、すべての生成出力の精度が0%または100%であるプロンプトをフィルタリングし、トレーニングバッチに有効な勾配情報が含まれることを確実にします。StarPO-Sは、分散ベースの軌跡フィルタリングを採用し、不確実性の高いプロンプトをトレーニングのために保持します。

• ウォームアップフェーズ (Warm-up Phases): 学習率のウォームアップや価値モデルのウォームアップ（例：VAPO）は、トレーニング初期の学習プロセスを安定させるのに役立ちます。

3. 分散トレーニングと効率の考慮事項

モデルの規模拡大とタスクの複雑化に伴い、トレーニング効率は重要な課題となっています。

• スケール化フレームワーク (Frameworks for Scale): 研究者たちは、大規模言語モデルの効率的な強化学習トレーニングをサポートするために、veRLやHybridFlowなどの専用フレームワークを開発しました。これらのフレームワークは通常、分散トレーニング機能を内蔵しています。並列化 (Parallelism): HybridFlowは、トレーニング中にテンソル並列化を、推論中に混合データ-モデル並列化を使用します。

• KVキャッシュの再利用 (KV-Cache Reuse): ReToolはコード実行前にキーバリュー（KV）キャッシュをキャッシュし、インタープリターのフィードバックから得られたKVキャッシュのみを計算および追加することで、展開プロセス中のメモリコストを削減します。非同期操作 (Asynchronous Operations): ReToolは非同期コードサンドボックスを使用して、強化学習トレーニングプロセスを高速化します。

• パラメータ効率の良いトレーニング (Parameter-Efficient Training): RAGENフレームワークは、LoRA (Low-Rank Adaptation) を使用したパラメータ効率の良いトレーニング手法を模索しています。

初期化とスキル獲得の理念の相違は、「SFT後のRL」と「直接RL」の経路選択に表れています。ReToolとDeepRetrieval（SQLタスクの場合）は、SFTを「コールドスタート」または「頑健な初期化」の手段として明確に位置づけています。この方法は、事前にモデルを訓練して望ましい行動やツールインタラクション形式を習得させることで、初期のRL探索段階をより的を絞った効率的なものにします。しかし、SFTデータの分布にモデルを偏らせ、RL段階の探索範囲を潜在的に制限する可能性もあります。

対照的に、TORLはSFTなしで「基礎モデルから直接RLを行う」ことを提唱し、VAPOは公平な比較のためにRLでSFTデータを使用することを避けています。強力な基礎モデル上で直接RLを行うと、より斬新な戦略を発見する可能性がありますが、より深刻なコールドスタート問題に直面する可能性もあります。この選択は、目標とする行動の複雑さ、利用可能なSFTデータの品質、および基礎となるLLMの能力によって異なる可能性があります。現在、学術界では、教師あり学習と強化学習をどのように組み合わせるのが最適か、シーケンシャルなプロセスとして、インターリーブされたプロセスとして、あるいはSFTモデルを主に参照ポリシーとして使用するかについて、依然として探求が続けられています。

大規模言語モデル強化学習の安定性は、アルゴリズムの調整、データ戦略、およびプロセス管理の組み合わせによって解決されるべき多面的な戦いです。トレーニングプロセスを安定させるための多くの技術があります。KL正規化、PPOのクリッピングメカニズム（広く使用されている）、デカップリングクリッピング、価値事前学習、動的サンプリング/フィルタリング、外部トークン損失マスキング、勾配クリッピング、および綿密なハイパーパラメータ調整などです。大規模言語モデルのトレーニング自体が敏感であり、強化学習は探索、疎な報酬、および潜在的にノイズの多い価値推定のために、さらに複雑さを増します。これらの安定化策がなければ、トレーニングは簡単に発散し、ポリシーの崩壊やモデルが無意味な出力を生成する可能性があります。

したがって、大規模言語モデル強化学習の安定性を達成することは、単一の「銀の弾丸」に依存するのではなく、トレーニングプロセス全体で潜在的な故障箇所を体系的に解決する必要があります。この全体的なアプローチは、強化学習を大規模言語モデルの強化のための信頼できるツールにするために不可欠です。veRLやHybridFlowのような専用フレームワークの登場は、これらの複雑性に対処するために特別に設計されたインフラストラクチャが必要であることを示しています。

ハイパーパラメータの詳細な検討：微調整のノブ

ハイパーパラメータは、強化学習トレーニングプロセスにおける重要な「ノブ」であり、その設定は学習効率、安定性、および最終的な性能に直接影響します。

1. 主要なハイパーパラメータとその影響

• 学習率 (Actor & Critic Learning Rates): 通常は小さく設定され、例えばアクター（actor）の学習率は1×10⁻⁶、クリティック（critic）の学習率は1×10⁻⁵または2×10⁻⁶です。クリティックを使用する場合、アクターとクリティックの学習率の相対的な大きさが重要になることがあります。

• バッチサイズ (Rollout & Mini-batch Sizes): ロールアウトバッチサイズは大きくすることができ、例えばTORLでは128、ReTool、SEARCH-R1、DAPOでは512、VAPOでは8192です。勾配更新に使用されるミニバッチサイズは小さく、例えばDeepRetrievalでは16、SEARCH-R1では64または256、ReTool、DAPO、VAPOでは512です。RAGENは各バッチで8つのプロンプトを使用し、各プロンプトで16のロールアウト軌跡を生成します。

• KL係数 (β): 方策が参照方策からどれだけ逸脱するかに対するペナルティの度合いを制御します。その値は異なり、例えばReToolでは0.01、DeepRetrieval、SEARCH-R1、RAGENでは0.001、TORLでは省略されています。この選択は、安定性と探索の間のトレードオフを反映しています。

• PPOクリッピングパラメータ (ϵ): 標準的な値は通常0.2です。DAPOとVAPOは、デカップリングされたϵlow=0.2とϵhigh=0.28を使用しています。

• GAEパラメータ (λ および γ): 割引因子γは、通常、非エピソード型タスクや将来の報酬を高く評価するタスクでは1.0に設定されます。軌跡減衰パラメータλもPPOでは通常1.0に設定されますが、VAPOは方策ネットワークに長さ適応型λを、価値ネットワークにはλ=1.0を使用します。

• 最大シーケンス/応答長 (Maximum Sequence/Response Lengths): 計算リソースの管理と生成範囲の定義にとって非常に重要であり、例えばReToolでは16384、DeepRetrievalではタスク固有の設定、SEARCH-R1では4096、DAPOでは16384-20480です。

• ロールアウト/生成の温度 (Temperature for Rollout/Generation): トレーニングのロールアウト中に、より高い温度（例えばDeepRetrievalでは0.6、TORL、SEARCH-R1、DAPO、VAPOでは1.0）を使用して探索を促進します。

• エポック数/トレーニングステップ数 (Epochs/Training Steps): ReToolはコールドスタートデータで2エポックトレーニングします。SEARCH-R1は500ステップトレーニングします。VAPOはAIME 2024データセットで5000ステップトレーニングして最先端のレベルに達しました。RAGENは200のロールアウト-更新イテレーションを使用します。

2. チューニング戦略と典型的な範囲 (暗黙的)

文献ではハイパーパラメータのチューニング戦略が常に明確に詳述されているわけではありませんが、異なる研究におけるハイパーパラメータ設定の差異は、実際のチューニングが具体的なモデル、データセット、タスクに基づいて経験的に調整されることを示唆しています。学習率のウォームアップ計画は一般的な実践です。トレーニング中に生成された応答長、報酬の動態、モデルのエントロピーなど、重要な中間結果を監視することは、問題の特定とチューニングの指針にとって極めて重要です。

ハイパーパラメータの選択は、多くの場合、特定のタスクとモデル規模における探索-利用-安定性の三難問題に対する暗黙的な理解を反映しています。例えば、KL係数を0.01に設定したり、KL項を削除したりする一方で、より高い生成温度を併用することは、研究者がより大きな探索を意図的に推進していることを示唆しており、これはタスクが複雑で初期方策が最適から遠い場合に考えられます。逆に、安定性が極めて重要である場合や方策がすでにかなり良好である場合は、非ゼロのKL係数とより保守的なクリッピング戦略が使用される可能性があります。「Clip-Higher」メカニズムは、安定性を過度に犠牲にすることなく、より多くの探索を得るための洗練された試みです。ハイパーパラメータは学習の動態を直接制御します。

積極的な探索設定は、新しい解決策をより早く発見する可能性がありますが、ポリシー崩壊のリスクも伴います。保守的な設定は安定性を保証しますが、収束が遅くなったり、局所最適に陥ったりする可能性があります。これは、普遍的な「最良」のハイパーパラメータの組み合わせは存在しない可能性があり、最適値は具体的な状況に強く依存することを示唆しています。これはまた、堅牢なハイパーパラメータ最適化技術の必要性と、各ハイパーパラメータが大規模言語モデルの強化学習プロセスにどのように影響するかについての深い理解を強調しています。この分野は、ハイパーパラメータの感度と相互依存性についてより体系的な研究から恩恵を受ける可能性があります。

表3：異なるRLモデル/研究におけるハイパーパラメータ設定

外部ツールと知識ベースを組み合わせた強化学習

大規模言語モデルの能力が強化されるにつれて、コードインタープリター、検索エンジン、データベースなどの外部ツールや知識ベースを効果的に利用できるようにすることは、強化学習研究の重要な方向となっています。この統合は、大規模言語モデルが正確な計算、リアルタイム情報の取得、構造化データとの対話において不足している点を補完することを目的としています。

ツール拡張型強化学習のデータ戦略

強化学習エージェントが外部ツールとのインタラクションを学習する必要がある場合、データ戦略はそれに応じて調整および最適化する必要があります。

1. ツールインタラクションシナリオのデータ選択

データの選択はまずタスク自体によって駆動され、特にツールの使用が本質的に必要または恩恵をもたらすタスクが対象となります。

• 数学的推論タスクの場合、ReToolとTORLは数学競技の問題を使用しました。これらの問題は通常、複雑な計算を伴い、コードインタープリターが効果的な補助ツールとして機能します。

• クエリ生成タスクの場合、DeepRetrievalは情報検索（IR）とSQLデータセットを採用しました。これらのタスクでは、モデルが検索エンジンやデータベースと対話する必要があります。

• 広範な背景知識や最新情報が必要なウェブ研究タスクの場合、DeepResearcherはウェブ検索とブラウジングが必要な質問応答データセットを使用しました。

• 汎用強化学習と同様に、ツール拡張型強化学習では、ツール使用結果の検証可能性が報酬関数の設定にとって極めて重要です。

2. ツール出力下でのデータクレンジングとフィルタリング

ツール統合のシナリオでは、データクレンジングとフィルタリングは、元のデータの品質に注意を払うだけでなく、ツールインタラクションによって導入される複雑性も考慮する必要があります。

• 初期データ品質管理: 汎用強化学習と同様に、初期データセットはまずクレンジングされます。例えば、ReToolはテキスト推論データをコード統合データに拡張する前に、人間による管理とモデル評価を通じてその品質を保証します。

• 拡張データの検証: ReToolは、自動生成されたコード統合データ（DCI）に対して、フォーマット検証（ツール呼び出しトリガーの正確性を確認）と回答検証（最終出力が正解と一致することを確認）を含むさらなる検証を行います。これにより、モデルがツール使用を学習するために使用される「拡張データ」自体が高品質であることが保証されます。

• 真のツールニーズを確保するためのフィルタリング: DeepResearcherの汚染検出メカニズムは、この点で特に重要です。基礎モデルが検索ツールなしで回答できる問題をフィルタリングすることで、モデルが必要な場合にのみ検索ツールを使用することを学習し、「万能薬」として使用しないことを保証できます。

3. ツール学習のデータ拡張

モデルがツールを効果的に使用する方法を学習するためには、通常、データを特定の形式で拡張する必要があります。

• ツール統合データの自動構築: ReToolがテキストベースの推論プロセス（Dinit）をコード統合推論プロセス（DCI）に変換することは、典型的なデータ拡張戦略です。このプロセスは、元の推論プロセスにおける手動計算ステップを、対応するコードスニペットとそれらのインタープリター実行結果に置き換えることで、モデルにツール使用を学習するための「コールドスタート」データを提供します。

ツール拡張型強化学習にとって、データ管理はしばしば期待されるツールインタラクションパターンの「模範例」を作成することを含みます。ReToolがコード統合データを自動的に構築するプロセスは、ツールが使用できる問題を提供するだけでなく、ツールが推論チェーンにどのように統合されるかを積極的に示すことがより重要です。これらの拡張されたデータは、特にコールドスタートの教師ありファインチューニング段階で、初期の教師ありサンプルとして機能します。そのような模範例がなければ、大規模言語モデルはツール呼び出しのフォーマット方法、出力の解析方法、さらにはツールをいつ呼び出すかを学習することが非常に困難になる可能性があります。拡張データは、具体的なインタラクションの例を提供することで、この学習プロセスを効果的にガイドします。

これは、複雑なツール使用シナリオの場合、ゼロから完全に始め、結果ベースの強化学習のみに依存することは非常に非効率である可能性があることを示唆しています。より実用的なアプローチは、ツール統合の模範例を使用した教師あり学習と、その後の強化学習による微調整を組み合わせることです。「データ」自体が、ツールインタラクションプロトコルを導く媒体となるのです。

外部ツール統合のアルゴリズム実装

外部ツールを強化学習ループに統合するには、アルゴリズムレベルでの適応的な調整と、適切な報酬メカニズムの設計が必要です。

1. ツール使用に特化した強化学習アルゴリズムの調整

PPOやGRPOのような標準アルゴリズムは依然として中心ですが、ツールインタラクションに適応するために、いくつかの重要な調整が必要です。

• ツール呼び出しのための構造化出力: モデルは通常、ツールの使用をトリガーするために特定のトークンや構造を生成するように訓練されます。例えば、ReToolはコードブロック終了タグを検出してコードを実行します。SEARCH-R1は

とトークンを使用して検索エンジンを呼び出します。DeepRetrievalはとタグを使用し、後者には拡張されたクエリが含まれます。DeepResearcherも同様にとタグを使用し、その中にツール呼び出しを埋め込みます。RAGENもとの構造を採用しています。

• ツール出力の解析: システムはツールからの出力（例：コードインタープリターの結果、検索スニペット）を解析し、それをモデルのコンテキストにフィードバックできる必要があります。これは通常、ReToolにおけるやSEARCH-R1におけるのような特殊なタグを介して実現されます。

2. ツール効果の専門化された報酬メカニズム

報酬メカニズムの設計は、モデルがツールを効果的に使用するように導くために極めて重要です。

• 主に最終結果に依存: ツールが導入されたとしても、ほとんどのシステムは主にタスクの最終結果に依存して報酬信号を提供します。ツールの使用が最終的に問題の正しい解決につながった場合、そのツール使用行動は正に強化されます。

• ツール使用の暗黙の報酬: タスク自体がツールを使用せずに解決できない場合、タスクの成功解決に対する報酬は、暗黙的にツール使用の成功に対する報酬を含みます。

• 明示的なツール関連報酬 (稀または効果が低い): TORLはコードの実行可能性に対して報酬を与えることを研究しましたが、モデルの性能向上には寄与しないことを発見しました。ReToolも主に最終結果に焦点を当てており、コード実行可能性報酬は導入していません。これは、ツール使用の中間ステップ（コードが実行可能かどうかなど）を直接報酬として設計することは難しいか、最終結果を報酬とするよりも効果が低い可能性を示唆しています。

• DeepRetrievalの報酬関数には、フォーマット遵守報酬（rformat）が含まれており、ツール呼び出しの構文が特定のフォーマットに含まれている場合、この報酬は正しいツール呼び出しを間接的にサポートできます。

ツール拡張型強化学習において、最終結果に基づく報酬が主流であることは、「結果指向」の戦略を暗示しています。つまり、大規模言語モデル自身の推論能力に依存して、ツール利用方法を最適化するということです。ツールインタラクションプロセスは非常に複雑であるにもかかわらず、ほとんどのフレームワーク（ReTool、TORL、SEARCH-R1など）は、最終回答の正確性に基づいて報酬を与えることを選択しています。中間ステップ（コードの実行可能性など）に明示的な報酬を追加する試みは、常に理想的な効果をもたらすわけではありません。ツール利用の具体的なメカニズム（例えば、「コードは正常に実行されたか？」）を直接報酬とすると、エージェントが実行可能だが無用なコードを生成することを学習してしまう可能性があります。

最終結果に焦点を当てることで、強化学習プロセスは、大規模言語モデルに効果的なツール利用、つまり問題解決に役立つツール利用を学習することを強制します。モデルの内部推論は、ツール呼び出しと問題解決の間のギャップを埋めることが期待されます。このアプローチは、大規模言語モデルの推論能力と、可能性として非常に長いツールインタラクションチェーンにおいて適切にクレジットを割り当てる強化学習アルゴリズムの能力に高い要求を課します。また、複雑な認知タスクに対して良い中間報酬を設計することの難しさも浮き彫りになります。通常、疎な結果ベースの報酬は、サンプル効率が低い可能性があるものの、より堅牢です。

外部ツールを伴うトレーニングプロセス

強化学習エージェントが外部ツールとインタラクションする必要がある場合、そのトレーニングプロセスにはいくつかの独自の特性と課題があります。

1. 推論とツール実行の交互作用

ツール拡張型強化学習の核となる特徴は、モデルが部分的な推論を生成し、その後外部ツールを呼び出すために一時停止し、ツールのフィードバックを受け取り、そのフィードバックに基づいてその後の推論と生成を継続することです。

• ReToolのプロセスは、大規模言語モデルがテキストを生成し、コードブロック終了タグが検出されると、生成されたコードがサンドボックス化されたコードインタープリターに送られて実行されます。インタープリターの出力（成功結果またはエラー情報）は、その後タグ内にカプセル化されてモデルにフィードバックされ、モデルはその後、推論軌跡の生成を継続します。この方法により、テキスト、コード、インタープリターのフィードバックが織り交ぜられたハイブリッド推論経路が形成されます。

• TORLのモデルは、コードブロックを含む推論内容を出力します。コード終了識別子 '''output が検出されると、テキスト生成は一時停止し、最新のコードブロックが抽出されてコードインタープリター（Sandbox Fusionなど）に渡されて実行されます。構造化された実行結果（OBSERVATION）はコンテキストに挿入され、モデルはその後、自然言語による推論を継続し、最終的な回答を出すまでさらに多くのコードブロックを生成する可能性があります。

• SEARCH-R1のモデルはテキスト生成中に、特定の

トークンを生成すると、システムはクエリ内容を抽出し、検索エンジンを呼び出し、取得された結果をタグを介してモデルのコンテキストに注入し、モデルがその後の推論と回答生成に使用します。

• DeepResearcherのエージェントは、まずタグ内で推論を行い、必要に応じてウェブ検索ツールやウェブブラウジングツールを呼び出します。これらのツールから得られた観察結果は、エージェントの短期記憶を更新し、その後の意思決定を支援します。

2. トレーニング中のツールフィードバックとエラー管理

外部ツールからのフィードバック、特にエラー情報をどのように処理するかは、トレーニングプロセスの重要な部分です。

• エラー情報を学習信号として利用: ツール実行から生じるエラー情報（例：コードコンパイルエラーや実行時エラー）は、通常、意図的に大規模言語モデルに返されます。これは、モデルが構文的に正しく、意味的に適切なツール入力を生成することを学習するのに役立ちます。例えば、TORLはコード実行失敗のエラー情報をモデルに返すことを明確に指摘しており、その後の正しいコード生成能力を強化するためとされています。ReToolの記述でもサンドボックスがエラー情報を返すことに言及しており、同様のメカニズムが示唆されています。

• 損失計算の妨げを避けるためのツール出力のマスキング: 強化学習の核心的方法論（セクションII.C.2）で議論されたように、ツールからの実際のコンテンツ出力（例：コードインタープリターの実行結果、検索エンジンから返されたテキスト断片）は、通常、強化学習の損失計算においてマスクされます。これは、モデルがこれらの情報を推論に利用することを学習し、単にこれらの外部情報を模倣したりコピーしたりしないようにするためです。同時に、これはトレーニングの安定性を維持するのにも役立ち、外部から導入された、モデル自身の生成ロジックと一致しない可能性のあるトークンがポリシー勾配の計算を妨げるのを防ぎます。

3. サンドボックス環境とセキュリティプロトコル

統合された外部ツールが任意のコードを実行したり、外部世界と制御不能なインタラクションを行う能力を持つ場合、セキュリティ問題は極めて重要になります。

• コードはサンドボックス内で実行される: コードインタープリターのようなツールの場合、その実行プロセスは通常、サンドボックス環境に配置されます。サンドボックスは、大規模言語モデルによって生成されたコードを実行するための隔離された環境を提供し、安全性と制御可能性を確保し、潜在的な悪意のあるコードや予期せぬ操作がシステムに損害を与えるのを防ぎます。TORLは、その安定性の高さからSandbox Fusionをコード実行環境として選択しました。

• 非同期サンドボックスによる効率向上: 特にコードインタープリターなどのツールとの頻繁なインタラクションが必要なシナリオにおいて、トレーニングプロセスを高速化するために、ReToolは非同期コードサンドボックス環境を設計しました。この環境では、サンドボックスインスタンスがワーカープールのワーカーとして機能し、独立してタスクをプルして実行できるため、効率的な負荷分散メカニズムを形成し、並行環境インタラクションをサポートします。

4. ツールインタラクション頻度の制御

無制限のツール呼び出しは、トレーニング効率の低下や冗長なインタラクションを引き起こす可能性があります。そのため、ツール使用頻度を制御するメカニズムが必要です。

• 最大ツール呼び出し回数制限: TORLフレームワークは、1回の応答生成プロセス中に許可される最大ツール呼び出し回数を制御するためのハイパーパラメータCを導入しています。この閾値を超えると、それ以降のツール実行要求は無視され、モデルは純粋なテキスト推論モードに切り替えることを強いられます。これは、一定の探索深度を確保しつつ、トレーニング速度を維持するのに役立ちます。SEARCH-R1も最大行動予算Bを使用して検索回数を制限しています。DeepResearcherは、各ロールアウト軌跡につき最大10回のツール呼び出しを許可しています。

ツール出力に対する「損失マスキング」は重要な技術であり、その目的は、大規模言語モデルに「ツールをどのように利用して思考するか」を学習させ、単に「ツールが何を出力するか」を学習させるだけではないように強制することです。複数の研究が、強化学習の損失計算プロセスにおいて、ツール出力からのトークン（例えば、コードインタープリターの結果、検索スニペット）をマスクすることを明確に述べています。もしこれらの外部トークンがポリシー更新の損失計算に含まれると、大規模言語モデルは、特にそれらが冗長であったり、強い信号を含んでいたりする場合、単にこれらのトークンを予測またはコピーすることを学習してしまう可能性があります。これは、モデルがツールから提供された情報を理解し、それを自身のその後の推論を導くために利用するという、期待される学習目標を回避することになります。

マスキングを通じて、勾配はモデル自身が生成したトークンのみを通過し、それによってその推論能力と意思決定能力（例えば、ツール出力が与えられた後に次に行うことを決定する能力）を強化します。これは、大規模言語モデルにツールを使用させるトレーニングの微妙でかつ極めて重要な側面を浮き彫りにします。それは、情報を統合することと、単に情報を繰り返すこととを区別することです。効果的なツール使用は、大規模言語モデルが外部情報のインテリジェントな消費者および統合者として機能することを要求し、トレーニングプロセスはこの能力を育成するために綿密に設計されなければなりません。

ツール拡張型強化学習における「生成-実行-フィードバック-再生成」の反復ループは、ある程度、人間の問題解決プロセスを反映していますが、それはまた、状態とコンテキストの綿密な管理を要求します。ReTool、TORL、SEARCH-R1、DeepResearcherの記述はすべて、大規模言語モデルが推論またはツールクエリを生成し、外部ツールがそのクエリを実行し、その後その結果がモデルのコンテキストにフィードバックされ、次の生成ステップに利用されるというプロセスを詳細に説明しています。この反復プロセスにより、大規模言語モデルは複雑な問題を分解し、段階的に情報を収集または計算を実行し、中間結果に基づいてその戦略を調整することができます。

しかし、これは課題ももたらします。コンテキストウィンドウが非常に大きくなる可能性があり、状態表現は異なる種類のフィードバック（テキスト、数値、エラー）を効果的に統合する必要があり、長期間の多段階インタラクションにおけるクレジット割り当てがさらに困難になります。このパラダイムは、複雑な多段階タスクを解決するのに非常に強力です。しかし、その成功は、効率的なコンテキスト管理（ReToolのKVキャッシュ再利用、Kevin-32Bの思考連鎖要約など）、堅牢なエラー処理、およびこれらの拡張されたインタラクションにおいて遅延報酬から学習できる強化学習アルゴリズムにかかっています。自然言語とツールインタラクションを組み合わせた「推論軌跡」または「インタラクション軌跡」の開発は、重要な研究方向です。

ツール統合型強化学習のハイパーパラメータに関する考察

ツール統合型強化学習では、一般的な強化学習のハイパーパラメータに加えて、ツールインタラクションの特性に関連する特定のハイパーパラメータも考慮する必要があります。

1. ツールインタラクション固有のハイパーパラメータ

• 最大ツール呼び出し回数/行動予算 (Maximum Tool Calls / Action Budget): 以前に議論したように、TORLはハイパーパラメータCを使用し、SEARCH-R1は最大行動予算Bを使用し、DeepResearcherは最大10回のツール呼び出しに制限しています。これらのパラメータは、探索の徹底性とトレーニング効率のバランスを取るために使用されます。

• 検索内容/ツール出力の最大長 (Maximum Length for Retrieved Content / Tool Output): SEARCH-R1は、検索されたコンテンツの最大長を500トークンに設定しています。これは、モデルにフィードバックされる情報量に影響を与え、ひいてはコンテキストウィンドウの管理とモデルの注意配分に影響を与えます。

2. 汎用強化学習ハイパーパラメータの調整

強化学習の主要なハイパーパラメータ（学習率、バッチサイズなど）は、ツール統合のシナリオにおいても依然として重要です。しかし、ツールインタラクションが学習の動態を変化させる（例えば、成功したツール使用プロセスが複雑な場合、報酬がより希薄になる可能性があり、または軌跡の長さが変化する可能性がある）ため、これらのハイパーパラメータの最適値はシフトする可能性があります。

文献では、ツール統合型強化学習と非ツール型強化学習のハイパーパラメータ設定が常に明確に区別されているわけではありません。しかし、全体として、ツールインタラクションの導入は学習タスクの複雑さを増大させる可能性があり、そのため、より慎重なチューニングや、より堅牢で安定した設定の選択が必要になる可能性があります。例えば、ReToolはツール統合フレームワークにおいてKL係数を0.01に設定していますが、これはモデルがツール使用パターンを学習する際により広範な探索を促すためかもしれません。

ツールインタラクションの「粒度」と「量」を制御するハイパーパラメータ（最大呼び出し回数、最大出力長など）は、学習効果と計算制約のバランスを取る上で極めて重要です。最大ツール呼び出し回数や検索内容の最大長などのパラメータは、強化学習エージェントが探索し学習する軌跡の複雑さに直接影響します。

より多くのツール呼び出しやより長い出力は、より多くの情報を提供できますが、シーケンス長、ステップあたりの計算コストを増加させ、学習信号にノイズを増やす可能性もあります。最大ツール呼び出し回数が低すぎると、エージェントは複雑な多段階問題を解決できない可能性があります。高すぎると、トレーニングが非常に遅くなったり、エージェントが非効率で冗長な戦略を学習してしまう可能性があります。

同様に、長すぎるツール出力は、コンテキストウィンドウの制限を超えたり、重要な信号を希薄化させたりする可能性があります。したがって、これらのツール固有のハイパーパラメータを最適化することは、実用的なツール拡張型強化学習にとって極めて重要です。これは、エージェントに複雑なインタラクションを学習する十分な自由度を与えることと、トレーニングプロセスを管理しやすく集中させることとの間のトレードオフです。これは、これらの制限がトレーニング中に動的に変化する適応戦略の開発を促進する可能性があります。

表4：RLトレーニングにおける外部ツール/知識ベース

総合的な考察、高度な洞察と提言

上述の強化学習トレーニング方法論の詳細な分析を通じて、いくつかの収斂するテーマと差別化された戦略を観察し、新たなトレンドと課題を特定し、それに基づいていくつかのベストプラクティスと将来の研究方向を提案できます。

比較分析：収斂するテーマと差別化された戦略

大規模言語モデルに強化学習を適用する多くの研究において、いくつかの共通の傾向と方法論の選択肢が見られます。

収斂するテーマ:

• PPO/GRPOの支配的地位: PPOとそのバリアントであるGRPOは、安定性と比較的簡単な実装のバランスにより、大規模言語モデルの強化学習トレーニングにおける事実上の標準アルゴリズムとなっています。

• 結果指向の報酬関数: タスクは多岐にわたるものの、ほとんどの研究は最終的なタスク結果（例えば、回答の正確性、タスク完了度）に基づく報酬関数を使用する傾向にあります。この方法は単純明快であり、ある程度、中間プロセスへの過学習を防ぐことができます。

• 高品質で洗練されたデータの重要性: 各研究は、ノイズの除去、関連性の確保、データ汚染の防止など、成功するトレーニングにおける高品質で綿密に選別・フィルタリングされたデータの重要性を一様に強調しています。

• 外部情報損失マスキングの普及: 外部ツールや知識ベースを統合する際、モデルが情報を推論に利用することを学習し、単に模倣するだけではないことを確実にするために、外部情報（例えば、ツール出力、検索内容）を損失計算でマスキングする手法が広く採用されています。

差別化された戦略:

• SFTと直接RLの選択: モデルの初期化に関して、一部の研究は教師ありファインチューニング（SFT）を先に行い、その後に強化学習を行う戦略を採用していますが、他の研究は基礎モデルから直接強化学習を開始することを選択しています。これは、初期化の効率と探索の自由度の間の異なるトレードオフの考慮を反映しています。

• クリティックの有無によるアドバンテージ推定: PPOは通常、学習された価値ネットワーク（クリティック）に依存してアドバンテージ関数を推定しますが、GRPOなどの方法は、グループ内報酬正規化などの方法でクリティックを回避しており、これは計算オーバーヘッドと推定精度の間のトレードオフを生み出します。

• 探索と安定性の具体的な技術: 目標は一致しているものの、探索と安定性のバランスをどのように取るかについて、DAPOやVAPOで導入されたClip-Higher、長さ適応型GAEなど、異なる研究で異なる具体的な技術が採用されています。

• 報酬関数の複雑さ: 報酬関数の設計は、単純な二値報酬から、フォーマット遵守、効率の考慮など複数の構成要素を含む複合報酬まで様々であり、その複雑さはタスクと研究目標によって異なります。

新たなトレンドと全体的な課題

大規模言語モデル分野における強化学習の応用は、いくつかの積極的なトレンドを示していますが、同時に継続的な課題にも直面しています。

新たなトレンド:

• アルゴリズムの複雑化とカスタマイズ化: 大規模言語モデルの特性と特定タスクのニーズに合わせて、研究者たちはVAPO、DAPO、Dr. GRPO、StarPOなどのように、古典的なアルゴリズムを基盤に多くの革新を取り入れた、より複雑でカスタマイズされた強化学習アルゴリズムを開発しています。

• 外部ツール統合の多様化と深化: モデルに統合される外部ツールの種類は日々豊富になっており、初期の計算機やコードインタープリターから、検索エンジン、データベースインターフェース、さらには複雑なウェブブラウジングや専門的な開発環境へと拡大しています。

• 多段階インタラクションと軌跡レベル最適化への注目: タスクの複雑性が増すにつれて、モデルに対する多段階インタラクションやインタラクション軌跡全体レベルでの最適化がより注目されています。これは、StarPOやKevin-32Bの研究に示されています。

• データ中心アプローチの強化: 強化学習におけるデータの役割への認識が深まり、汚染フィルタリング、戦略的データ拡張など、より洗練されたデータ処理方法が登場しています。

全体的な課題:

• サンプル効率: 特に報酬が疎であるか、インタラクションコストが高い複雑なタスクにおいて、強化学習のサンプル効率を向上させることは依然として中心的な課題です。

• 長期クレジット割り当て: 多段階推論やツール使用を伴う長いインタラクション軌跡において、最終的な報酬をシーケンス内の重要な意思決定にどのように正確に割り当てるかは難しい問題です。

• トレーニングのスケーラビリティ: モデルの規模拡大とツールインタラクションの複雑化に伴い、強化学習トレーニングを効率的かつスケーラブルに行う方法は、継続的な工学的な課題です。

• 汎化能力: モデルが学習したツール使用戦略や推論パターンが、新しいツール、タスク、または見たことのないデータ分布に汎化できることをどのように保証するかは、その真の能力を測る鍵となります。

• 報酬ハッキングと真の理解: 報酬ハッキング行動を効果的に回避し、モデルの理解能力を真に反映できる報酬関数を設計することは、依然として未解決の問題です。

強化学習トレーニングフロー設計のベストプラクティスと提言

現在の知見に基づき、強化学習トレーニングフローの設計に関して以下の一般的な提言を提供できます。

• データ第一主義: 目標スキルに高度に関連する、高品質で綿密に管理およびフィルタリングされたデータから始めます。データの多様性、難易度分布、潜在的な汚染の問題を考慮してください。

• SFTによるガイダンス: 高品質な教師ありファインチューニングデータが利用可能であれば、SFTを使用して複雑な行動やツールインタラクションの基本的な形式をモデルに学習させることを検討してください。これは、その後の強化学習の収束を加速するのに役立ちます。

• アルゴリズムの選択と適合: 成熟した強化学習アルゴリズムファミリー（PPO/GRPOなど）を選択し、計算予算、安定性要件、およびタスクの特性に基づいて適合させます。例えば、計算リソースが限られている場合はクリティックなしの手法を検討し、より高い性能を追求する場合はVAPOのようなより高度な価値推定アルゴリズムを探求できます。

• 報酬設計: 報酬関数の設計は、できるだけ単純明快であると同時に、報酬ハッキング行為に効果的に抵抗できるものでなければなりません。最終的なタスク結果に基づく報酬を優先してください。

• 損失マスキング: モデルのコンテキストに統合される外部情報（ツール出力など）については、強化学習の損失計算において必ずマスキングを行ってください。

• 安定したトレーニング: KLダイバージェンス正規化、勾配クリッピング、綿密なハイパーパラメータ調整など、トレーニングプロセスの安定性を確保するために複数の技術を採用してください。

• ツール使用の規範: 外部ツールを統合する際は、安全な環境（サンドボックスなど）で実行されることを確認し、ツールのエラーフィードバックを学習信号としてモデルに提供してください。同時に、最大呼び出し回数などのメカニズムを設定することで、ツールインタラクションの頻度を制御してください。

• 反復的な監視と最適化: 強化学習のトレーニングは反復的なプロセスです。トレーニングの動態（報酬曲線、生成内容の品質、モデルのエントロピーなど）を継続的に監視し、観察結果に基づいてデータ、報酬関数、ハイパーパラメータを継続的に調整する必要があります。

将来の潜在的な研究方向

将来を見据えると、大規模言語モデル分野における強化学習の応用には依然として広大な探求空間があります。

• より高いサンプル効率のアルゴリズム: モデルベース強化学習、オフライン強化学習などの技術を活用し、サンプル効率をさらに向上させることを探求します。

• 階層的強化学習: 複雑で多層的なタスクとツール使用のシナリオを扱う必要がある場合、階層的強化学習はより効果的な解決策を提供する可能性があります。

• 自動化された報酬設計: 人間による報酬設計の負担と偏りを軽減するために、効果的な報酬関数を自動的に設計または学習する方法を研究します。

• 長い軌跡のクレジット割り当ての改善: 長いインタラクションシーケンスでの学習の課題を解決するために、より高度なクレジット割り当て方法を開発します。

• 標準化されたベンチマークと環境: ツール拡張型強化学習のための標準化されたベンチマークテストとシミュレーション環境を確立し、異なる手法間の公平な比較と再現可能な研究を促進します。

• パラメータ化された知識と外部情報の深い融合: 大規模言語モデルが、そのパラメータ化された知識とツールを通じて取得された外部情報の間で、どのように効果的なトレードオフ、統合、推論を行うかをより深く研究します。

結論

主要な発見のまとめ

本稿では、強化学習のトレーニング方法論について体系的に整理・分析しました。主要な発見には、データ管理が強化学習において基礎的かつますます重要な役割を果たすこと、そして洗練されたデータ選択、クレンジング、フィルタリング、拡張戦略が成功するトレーニングの鍵となることが含まれます。

PPOとGRPOに代表される方策最適化アルゴリズムは現在の主流であり、同時に大規模言語モデルの特性と特定タスクの要求に対応するため、DAPO、VAPO、Dr. GRPO、StarPOなどの一連の革新的なアルゴリズムと技術が登場しています。トレーニングプロセスは通常、オプションの教師ありファインチューニングと反復的な強化学習ループを含み、損失マスキング、KL正規化などの安定化策が広く採用されています。ハイパーパラメータの綿密な調整は、探索、利用、安定性のバランスを取る上で極めて重要です。

特に、強化学習と外部ツールおよび知識ベースの統合は、大規模言語モデルの能力を向上させる重要な手段となっています。この目的のために、研究者たちは、ターゲットを絞ったデータ拡張方法（例：ツールインタラクションの模範例の自動構築）、アルゴリズムレベルでの構造化されたツール呼び出しとフィードバック解析のサポート、トレーニングプロセスにおける推論とツール実行の交互作用の実現、サンドボックス環境による安全確保、損失マスキングやエラーフィードバックなどのメカニズムを通じたモデルの効果的なツール使用戦略の学習を導く方法を開発しました。

強化学習トレーニング開発の展望に関する最終考察

大規模言語モデル分野における強化学習の応用は、初期の汎用アルゴリズムの直接適用から、モデルの特性とタスクの要求に特化した高度な専門技術へと急速に発展しています。洗練されたデータ戦略、アルゴリズムの継続的な革新、およびトレーニングプロセスの体系的な管理の間の相乗効果は、複雑な推論とツール使用において大規模言語モデルの強力な可能性を解き放つ鍵となります。

今後、この分野の進歩は、これらの側面における継続的なブレークスルー、特にサンプル効率の向上、アルゴリズムのスケーラビリティの強化、およびモデルがますます複雑なインタラクションとフィードバックから学習できるようにすることに引き続き依存するでしょう。研究が深まるにつれて、強化学習がよりインテリジェントで汎用的な人工知能システムを構築するための核心的な力となると信じるに足る理由があります。

長押ししてアシスタントを追加

QRコードをスキャンしてアシスタントのWeChatを追加

備考：氏名-学校/会社-研究方向

（例：小張-ハルビン工業大学-対話システム）

自然言語処理/Pytorchなどの技術交流グループに参加申請できます

私たちについて

MLNLPコミュニティは、国内外の機械学習および自然言語処理の研究者によって共同で設立された非営利の学術コミュニティであり、現在では国内外で知られる機械学習および自然言語処理コミュニティに発展しています。機械学習、自然言語処理の学術界、産業界、および幅広い愛好家の間の進歩を促進することを目的としています。

このコミュニティは、関連する実務家がさらなる学習、就職、研究などに関してオープンな交流プラットフォームを提供できます。皆様のご関心とご参加を歓迎いたします。

大規模なまとめ！推論モデルにおける強化学習の実装経路

短いURLをシェア