NVIDIA（ProRL）｜RLはLLMの推論上限を本当に引き上げられるのか？

本日はNVIDIAの研究論文「ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models」（ProRL：長時間強化学習が大規模言語モデルの推論境界を拡張する）を共有します。

この記事では、強化学習（RL）がLLMの推論上限を本当に拡張できるのか、それとも単に基盤モデルに既に存在する高報酬出力のサンプリング効率を最適化するだけなのか、そしてRL計算の継続的な拡張が推論性能を確実に向上させられるのかどうかを探求しています。著者らはProRL（Prolonged Reinforcement Learning）という訓練手法を導入し、効果的なRL手法を通じてLLMの推論上限を継続的に向上させられることを証明しました。

この手法の主な特徴は以下の通りです。

1. 訓練の安定性と効率： ProRLはKLダイバージェンス制御、参照ポリシーのリセット、多様なタスクセットを導入することで、長期的な安定した訓練と継続的な性能向上を実現しました。

2. 卓越した性能： 訓練されたNemotron-Research-Reasoning-Qwen-1.5Bモデルは、基盤モデルが完全に失敗するシナリオを含む様々なPass@k評価において、基盤モデルを継続的に上回る性能を示しました。複数のベンチマークでは、その性能はより大規模なDeepSeek-R1-7Bモデルに匹敵するか、あるいは凌駕しました。

3. 高い汎化能力： モデルは2000ステップ以上の訓練後も継続的に改善し、RL訓練がより多くの計算リソースを効果的に活用できること、そして未見の分布外（OOD）タスクやより難易度の高いタスクにも良好に汎化できることを示しました。

4. 効果的なRLがLLMの推論上限を向上させることの証明： 長時間のRL訓練（ProRL）が、基盤モデルでは広範なサンプリングでも得られなかった新しい推論戦略を発見し、既存の能力を最適化するだけでなく、真にモデルの推論能力を拡張することを証明しました。

I. 概要

• タイトル: ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

• URL: https://arxiv.org/abs/2505.24864v1 (注意：OCRの内容によると、このURLは2025年5月という未来の日付を示しており、OCRのプレプリントのプレースホルダーまたは特定の組版である可能性があります。実際の論文公開時にはURLが異なる場合があります。)

• 著者: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

• 機関: NVIDIA

• コード: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

1 動機

• 現在の研究コミュニティでは、強化学習（RL）が言語モデルの推論能力を真に拡張するのか、それとも単に基盤モデルに既に存在する高報酬出力のサンプリング効率を高めるだけなのかについて、広く議論があります。

• 既存のRL研究には限界があります：数学などの専門分野での評価への過度な依存、事前訓練および事後訓練段階でのモデルの過学習の可能性があり、探索の可能性が制限されています。また、RL訓練が早すぎる段階で終了することが多く、通常は数百ステップしか行われず、モデルが新しい推論能力を十分に探索し、発展させることができていません。

• 本稿では、長時間の安定したRL訓練を通じて、モデルが大量のサンプリングによっても基盤モデルでは得られない、全く新しい推論戦略を学習できることを証明したいと考えています。

2 手法

要約:

本論文では、長時間かつ安定したRL訓練を通じて大規模言語モデルの推論能力を拡張することを目指す、ProRL（Prolonged Reinforcement Learning）という新しい訓練手法を提案しています。その核心は、RL訓練におけるエントロピー崩壊と不安定性の問題を解決し、多様なタスクとポリシー最適化手法を通じて、モデルがより深いレベルで探索し学習できるようにすることです。

ProRLにより、モデルは2000ステップ以上の長時間訓練を行うことができ、多様なタスクで性能を継続的に向上させ、最終的にNemotron-Research-Reasoning-Qwen-1.5Bを開発しました。これは、推論能力において基盤モデル（DeepSeek-R1-1.5B）を大幅に上回り、DeepSeek-R1-7Bに匹敵するか、あるいはそれを凌駕するモデルです。

詳細な手法と手順:

RLアルゴリズムの選択は？： DeepSeekのGRPOを依然として採用しています。PPOとは異なり、GRPOは価値モデルを削除し、グループスコアに基づいてベースラインを推定し、その目的関数を最大化することで最適化を行います。

エントロピー崩壊とは？エントロピー崩壊戦略をどのように緩和するか？ RL訓練で頻繁に見られるエントロピー崩壊問題（モデルの出力分布が早すぎる段階で収束し、探索を制限する）に対処するため、ProRLは複数の対策を講じています：

• 高い探索温度： ロールアウト段階でより高いサンプリング温度を使用し、初期探索を促進します。

• デカップリングクリッピング（DAPOを参照）： DAPOアルゴリズムのデカップリングクリッピングメカニズムを導入し、PPOの目的における上下クリッピング境界を独立したハイパーパラメータとして扱います。値を高くすることで、以前の可能性が低いトークンの確率を高め、より広範な探索を促進し、エントロピーを維持し、早すぎるモード崩壊を減らすのに役立ちます。

• 動的サンプリング（DAPOを参照）： モデルが一貫して成功または失敗する（精度1または0）プロンプトを除外し、訓練の焦点を中程度の難易度の例に置くことで、多様な学習信号を維持します。

• KL正則化： GRPOの目的関数にKLダイバージェンスのペナルティ項を導入します。これにより、エントロピーを維持するだけでなく、オンラインポリシーが安定した参照ポリシーから遠く離れすぎるのを防ぎ、学習を安定させ、偽の報酬信号への過学習を軽減します。

• 参照モデルのリセット（検証セットのパフォーマンスが悪化した場合に参照モデルを更新）： KL項が訓練後期に損失を支配し、ポリシーの更新が弱まる可能性のある問題を解決するため、ProRLは定期的に参照ポリシーモデルをオンラインポリシーの最新のスナップショットにハードリセットし（つまり、最新のオンラインモデルと参照モデルの差を減らし、KL項の影響を軽減します）、最適化器の状態を再初期化します。この戦略は、KL正則化の利点を維持しながらモデルが改善を続けることを可能にし、長時間の訓練を促進します。

• 多様な訓練データセットの構築： 数学、コード、STEM、論理パズル、指示追従の5つの主要なタスク領域をカバーする、136Kの質問を含む多様で検証可能な訓練データセットを構築しました。各タスクタイプには明確な報酬信号（二値または連続）が付与されており、訓練中の信頼できるフィードバックを実現し、汎化能力を促進します。

DAPOとは？どのような主要技術を採用しているか？

• Clip-Higher: この技術は、システム多様性を向上させ、エントロピー崩壊を回避することを目指しています。従来のPPOのクリッピングメカニズムはポリシーの探索を制限しますが、Clip-Higherは上限と下限のクリッピング範囲をデカップリングすることで、低確率トークンの確率をより自由に増加させ、探索を促進します。

• Dynamic Sampling: 動的サンプリングは、訓練効率と安定性を向上させることを目指しています。精度が1または0のプロンプトをオーバーサンプリングしてフィルタリングし、有効な勾配を持つプロンプトを保持し、バッチ内のプロンプト数を安定させます。訓練前には、バッチが精度が0または1以外のサンプルで満たされるまでサンプリングを継続します。

• Token-Level Policy Gradient Loss: トークンレベルポリシー勾配損失は、長いCoT (Chain-of-Thought) RLシナリオにおいて非常に重要です。元のGRPOアルゴリズムはサンプルレベルの損失計算を採用しており、長い応答におけるトークンが総損失に不釣り合いに寄与する可能性があります。トークンレベルポリシー勾配損失は、より長いシーケンスが勾配更新により大きな影響を与え、各トークンの報酬の変化に反応することを可能にします。

• Overlong Reward Shaping: 過長報酬シェーピングは、報酬ノイズを減らし、訓練を安定させることを目指しています。切り捨てられた過長サンプルには、デフォルトで懲罰的な報酬が割り当てられますが、これはノイズを導入します。論文では、切り捨てられたサンプルの損失をマスクするためのOverlong Filtering戦略と、事前定義された最大長を超える応答に長さ認識ペナルティを課すSoft Overlong Punishmentメカニズムを提案し、モデルが過度に長い応答を避けるように誘導します。

実験設定の詳細は？

• RL訓練にはverlフレームワークを使用しました。

• AdamWオプティマイザを使用し、学習率は2e-6でした。

• 48台のNVIDIA H100-80GBノードで訓練を行い、合計約16k GPU時間を要しました。

• 混合検証セットを通じて訓練の進捗を密接に監視しました。検証性能が停滞または低下した場合、参照モデルとオプティマイザのハードリセットを実行しました。

• 訓練の大部分では、応答長を8kトークン以内に制限し、簡潔さと安定した生成を維持しました。最終段階では、コンテキストウィンドウを16kトークンに増やしました。

3 結論

• RLは確かに推論境界を拡張する： 長時間かつ安定した強化学習（ProRL）により、言語モデルは基盤モデルには存在しない、全く新しい推論戦略と解決策を学習することができます。

• ProRLの有効性： ProRLで訓練されたモデル（Nemotron-Research-Reasoning-Qwen-1.5B）は、数学、コーディング、STEM、論理パズル、指示追従など様々なタスクにおいて、その基盤モデルを大幅に上回り、場合によってはより大規模なモデルや特定領域に特化したモデルの性能に到達またはそれを超えました。

• 推論の向上は初期能力と訓練期間に関連： モデルの推論境界の改善度は、基盤モデルの当該タスクにおける初期能力とRL訓練の継続期間に密接に関連しています。RLは基盤モデルの性能が低い領域でより大きな向上をもたらし、継続的な訓練によりRLは新しい解空間を探索し、埋めることができます。

4 限界

• 計算資源の大きな要求： ProRLが関与する長時間のRL訓練プロセスは大量の計算資源を必要とし、これは予算が限られている小規模な組織や研究者にとっては障害となる可能性があります。

• スケーラビリティの問題： 1.5Bパラメータモデルでの成功はありますが、この手法がより大規模なモデル（例えば、数百億または数千億パラメータ）に効果的にスケールアップできるかはまだ不明であり、大規模モデルでは計算資源の要求がさらに顕著になります。

• 訓練プロセスの複雑さ： ProRLは訓練の安定性を維持するために、参照ポリシーと最適化器の周期的なハードリセットに依存しており、これにより訓練プロセスの複雑さが増し、より安定した訓練手法と比較して結果に一貫性がない可能性があります。

• タスク範囲の限定性： 評価は多様な領域をカバーしていますが、訓練データセットは、あり得るすべての推論タスクのサブセットに過ぎません。モデルは一部の分布外タスクにおいて有望な汎化能力を示していますが、明示的に訓練されていないすべての推論領域で同様の改善が保証されるわけではありません。

II. まとめ

結論1: ProRLはRLがLLMの推論境界を効果的に拡張することを証明した。 長時間かつ安定したRL訓練を通じて、モデルが基盤モデルには存在しなかった新しい推論戦略を発見し、OODタスクにおける強力な汎化能力を含め、複数のタスクで基盤モデルを上回る性能を達成できることが証明されました。

結論2: ProRLは革新的な技術によってRL訓練の安定性と効率を確保した。 RL訓練で頻繁に発生するエントロピー崩壊と不安定性の問題に対処するため、ProRLはKLダイバージェンス制御、参照モデルの周期的なリセット、デカップリングクリッピング、動的サンプリングなどのメカニズムを導入しました。これらの技術により、モデルは長時間の訓練（2000ステップ以上）で継続的に進歩し、計算資源を効果的に活用し、推論タスクにおける長期RLの適用基盤を築きました。

NVIDIA（ProRL）｜RLはLLMの推論上限を本当に引き上げられるのか？

短いURLをシェア