本文の著者は清華大学、北京大学、上海AIラボなどの機関にそれぞれ所属しています。共同第一著者の崔淦渠、張宇臣、陳嘉誠は上海AIラボに所属し、大規模モデルの推論強化を研究しています。共同通信著者は上海AIラボの成宇教授、上海AIラボの周伯文教授、清華大学の丁寧助教です。
Nature never undertakes any change unless her interests are served by an increase in entropy.
自然界のいかなる変化も、エントロピーの増加がその利益にかなう場合にのみ起こるだろう——マックス・プランク
強化学習において、エントロピーの増加をいかにして我々の利益に合致させるべきでしょうか?
最近、上海人工知能研究所、清華大学、北京大学、UIUCなどの研究機関の研究者による研究が、大規模モデルの強化学習におけるエントロピー変化のメカニズムを明らかにしました。研究内容は主に以下の通りです:
強化学習におけるエントロピー崩壊問題を定義し、4つのモデルファミリー、11のモデルでエントロピーと性能間の経験的変換式をまとめ、強化学習における方策エントロピーの重要性を証明しました。
理論的および実践的な観点から、強化学習における方策エントロピー変化の原動力:行動(モデル出力のトークン)の発生確率とその対応する獲得された利点との間の共分散を発見しました。
この観点から、研究ではシンプル(10行のコード変更)でありながら非常に効果的な(AIME24/25で+15%)エントロピー強化学習スキームであるClip-CovとKL-Covを提案し、強化学習訓練プロセスにおけるモデルの継続的な探索を実現しました。
論文タイトル:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
論文リンク:https://huggingface.co/papers/2505.22617
コードリポジトリ:https://github.com/PRIME-RL/Entropy-Mechanism-of-RL
1. 大規模モデル強化学習におけるエントロピー崩壊問題
強化学習の核心的な課題は、利用と探索のトレードオフです。これは、既存の方策を繰り返し検証することと、新しい方策を見つけることのバランスを取ることを意味します。探索に関して、方策の探索能力を測る主要な指標は方策エントロピーであり、これは方策の行動選択プロセスにおける不確実性を反映しています。強化学習の研究では、方策エントロピーの減衰を抑制することが多くのアルゴリズムにとって重要であるとされており、従来の強化学習では、研究者は正則化手段を通じて方策エントロピーを能動的に調整することが一般的でした。
大規模言語モデルにおいて、方策エントロピーの典型的な振る舞いは十分に研究されていませんでしたが、我々は大量の実験において興味深く一貫したパターンを発見しました。方策エントロピーは、わずか数ステップの訓練で急速にゼロに近づき、方策が極めて決定論的になることを示しています。この探索能力の喪失は直接的に性能の停滞を招き、検証セットのパフォーマンスも同時にボトルネックに陥ります。定量分析により、エントロピー介入(エントロピー損失やKL正則化など)がない場合、下流性能(R)は方策エントロピー(H)によって完全に決定され、その適合曲線は単純な指数関数R = -a exp (H)+ bに従うことがさらに明らかになりました(下図参照)。本質的に、方策は不確実性(エントロピー)を予測可能な方法で報酬と交換しています。
図1 大規模モデル強化学習におけるエントロピー崩壊問題を示す
Qwen、Mistral、LLaMA、Deepseekモデルファミリーで、我々はこの点を検証しました:
図2 異なるモデルファミリーにおけるエントロピー崩壊現象
この経験則は2つの重要な推論を導きます。(1) スケーリング則に類似して、利用-探索曲線は、与えられた方策モデルと訓練データによって既に決定されています。これにより、強化学習の初期段階で方策のパフォーマンスを予測し、小規模モデルから大規模モデルの性能を推定することが可能になります。(2) さらに重要なのは、この方程式が、方策エントロピーが枯渇したとき(H = 0, R = −a + b)、方策性能の上限もまた確定することを示している点です。これは、単純に訓練計算能力を増加させても強化学習の利益が極めて限定的である可能性を意味します。したがって、簡潔に言えば、スケーラブルな強化学習を実現するためには、エントロピーのボトルネックを突破する必要があります。
図3 訓練初期におけるモデル最終性能の予測
図4 小規模モデルによる大規模モデルの予測
2. 大規模モデル強化学習におけるエントロピーと共分散の関係
この問題を解決する鍵は、現象の背後にあるメカニズムを理解することです。なぜ方策エントロピーは単調に減少するのでしょうか?このため、我々は理論と実験の両面から方策エントロピーの動的特性を分析しました。核心的な発見は、ソフトマックス方策を採用するLLMにおいて、連続する2ステップ間のエントロピー変化が、行動の対数確率と対応するロジット変化の共分散に比例することを示しています。さらに、方策勾配および自然方策勾配のようなアルゴリズムでは、ロジットの差が行動の優位性に比例します。
直感的に言えば、高い優位度と高い確率を持つ行動は方策エントロピーを減少させ、高い優位度を持つ稀な行動はエントロピーを増加させます。この理論的結論は実験的に検証されました。訓練初期には、方策は訓練データ上で高い共分散を示し、方策の信頼性が良好であることを示唆していました。したがって、高い信頼性を持つ軌跡を安全に利用し、信頼性を強化し、エントロピーを最小化できます(これは、エントロピーを最小化して性能を向上させる最近の研究とも一致します)。訓練が進むにつれて、共分散は徐々に減少しますが、正の値を維持し、方策エントロピーをより低いレベルへと引き下げ続けました。
式1 エントロピーと共分散の理論的分析
図5 エントロピーと共分散の実証分析
3. 共分散に基づくエントロピー強化強化学習スキーム
我々はまず、従来のエンタルピー/KL正則化方法が大規模モデルにおいて効果が低いことを実験的に検証しました。
図6 従来の正則化手段の失敗
エントロピーダイナミクスを分析した結果、高い共分散が強化学習のスケーラビリティを阻害することが示され、これが方策エントロピーを高める方向性を提供しました。すなわち、高共分散トークンの更新ステップサイズを制限することです。これに基づいて、我々は2つのエントロピー制御戦略Clip-CovとKL-Covを設計し、それぞれ損失関数におけるクリップとPPO-KLメソッドを置き換えました。Clip-Covは、少数の高共分散トークンをランダムに選択し、その勾配をデタッチします。
式2 Clip-Cov
KL-Covはよりシンプルで、共分散が最大の部分のトークンに直接KLペナルティを適用します。
式3 KL-Cov
実験により、閾値パラメータを調整することで方策エントロピーを能動的に制御し、モデルが低エントロピーの罠から抜け出せることを証明しました。
図7 Clip-CovとKL-Covによるエントロピー制御
実験結果は、数学的推論などのタスクでより優れた性能を達成し、Qwen2.5-32Bでは6.4%の改善、特にAIME24/25のような挑戦的なデータセットでは15%もの改善が見られました。
図8 Clip-CovとKL-Cov手法におけるエントロピー、出力長、性能の訓練ダイナミクス
図9 Clip-CovとKL-Covの性能
本研究は、大規模言語モデルの推論タスクにおける強化学習の方策エントロピー崩壊問題の解決に焦点を当てています。実証分析を通じて、性能向上が探索能力の犠牲を伴う傾向があること、そしてこのトレードオフ関係がモデル改善に予測可能な性能上限を設定していることを発見しました。この現象を深く理解するため、我々はエントロピーの動的変化法則を理論的に解析し、高共分散トークンを直接制御することでエントロピー崩壊を効果的に抑制する2つのシンプルな正則化技術——Clip-CovとKL-Covを提案しました。
将来を見据えると、訓練計算能力はプリトレーニング段階からポストトレーニング段階、特に強化学習へと徐々に移行するでしょう。計算能力の増加を通じて強化学習を拡張する道のりにおいて、探索能力を維持し、新しい経路を発見し、継続的な改善を達成することは、計算能力をより効率的に利用するために極めて重要です。しかし、強化学習の規模化を実現するためには、単純なエントロピー最小化の限界を突破する必要があります。本研究がエントロピーの作用メカニズムに新たな知見を提供し、LLM強化学習の根底にあるメカニズムの理解、分析、最適化を促進し、強化学習をより高次の知能へと推進することを期待しています。
© 終了
転載については、本公式アカウントにご連絡の上、許可を得てください。
寄稿または報道に関するお問い合わせ:liyazhou@jiqizhixin.com