最近、数え切れないほどの論文で以下の発見が報告されています:
• RLには上限がある
• SFTは本質的に特殊なRLの一形態である
• 確率分布の採用と最適化によりRLの効果を実現できる
今日、また一篇の論文を見つけました。理論的視点からRLとSFTによるLLMパラメータ更新の違いを区別したものです。記録しておきます。
The Path Not Taken: RLVR Provably Learns Off the Principals https://arxiv.org/pdf/2511.08567
「RLVRは新しい知識を学んでいるのではなく、知識をどのように使って推論するかを学んでいる」
数学的背景補足
Transformerモデルでは、各層に複数の重み行列(例: Q, K, V, O行列)があります。d x dの重み行列Wを、d次元入力ベクトルをd次元出力ベクトルに変換する関数と見なせます。
任意の行列Wは3つの行列の積に分解可能です:W = U * Σ * V^T。
• UとVは「方向」行列で、その列ベクトルは一組の直交する「入力方向」と「出力方向」を定義します。
• Σは対角行列で、対角成分を特異値と呼びます。これらは非負で、大から小へ並んでいます。
主方向とは:特異値の大きさが対応する方向の重要性を示します。最大の特異値に対応するUとVの方向が主方向です。これらは重み行列の変換時に最大の伸長と情報担持容量を持ち、モデルの核心機能を格納しています。
論文が解決する問題とは?なぜ重要か?どのような価値をもたらすか?
解決する問題:論文は「RLVRパラドックス」と呼ばれる現象を解決することを目指します。RLVR(検証可能報酬付き強化学習)は計算資源を大量消費するが、大規模モデルの推論能力を大幅に向上させる訓練法です。しかし、モデルパラメータの変更は驚くほど「疎」で、ごく一部の重みしか変わりません。
一方、より単純な監督微調整(SFT)は「密」でグローバルなパラメータ更新を引き起こします。本論文の核心問題は:
この高コスト・高リターンな訓練プロセスで、なぜ基底のパラメータ変化がこれほど小さく規則正しいのか?この疎性の背後メカニズムは何か?
重要性:
• 核心技術の理解:RLVRは現在最先端の推論モデル(例: DeepSeek-R1)を駆動する鍵技術です。これがどう働くかを理解しなければ、高性能スポーツカーをエンジン原理を知らずに運転するようなもので、最適化・改良ができません。
• 将来研究の指針:現在、RL微調整の高効率アルゴリズム(LoRAなどのPEFT法)はSFT時代から借用したものです。RLとSFTのパラメータ更新メカニズムの根本差を理解しなければ、「ハンマー用ツールでネジを回す」ような非効率・不安定が生じます。
もたらす価値:
• 「ホワイトボックス」説明の提供:論文は初めてパラメータレベルでRLVRの訓練ダイナミクスを明らかにし、「ブラックボックス」を透明化しました。
• 新アルゴリズム設計:RLVRの内在的嗜好を理解し、RLに適した「幾何認識型」パラメータ効率微調整(PEFT)法を設計可能。少ない計算資源でより良い効果。
• モデル訓練効率・安定性向上:SFT時代法がRLで失敗・崩壊する理由を説明。将来的RL訓練の貴重な実践指針。
この問題は以前解決されたか?従来の不足と本論文の違いは?
以前に体系的に解決されていません。従来研究の不足:
現象観察者:先行研究(Mukherjee et al., 2025)はRLVR更新疎性を観察したが、原因説明せず、梯度ゼロの推測のみ。「何が」には答えず、「なぜ」「どこで」なし。
ポリシーレベル重視、パラメータレベル無視:他研究はポリシー(Policy)レベル分析が多く、RL後モデルが元モデルと行動的に近い(KL散度)を発見したが、パラメータ変化は説明せず。
本論文の違い:
• 観察からメカニズムへ:現象からメカニズムへ初めて深掘り、完全な説明フレームを提供。単なる記述でない。
• 核心概念提案:「モデル条件付き最適化バイアス」(model-conditioned optimization bias)を創造的に提案。パラメータ更新パターンは事前訓練モデルの「幾何構造」による、データやRLアルゴリズムではない。
• パラメータ空間・幾何視点:核心はパラメータ空間(weight space)と最適化幾何(optimization geometry)で分析。RLVRとSFTの重み更新「経路」差を直接比較。
著者の思考プロセスシミュレーション
1.異常発見:「え、RL更新が疎らしい、変だ。ランダム疎か?」
2.一貫性検証:「同一モデルで5回の別RL実験(別データ・アルゴ)。(Fig. 2参照)驚き!更新位置高度一致、ストライプ状!ランダム・データ・アルゴでない、モデル固有。」→「モデル条件付き最適化バイアス」提案。
3.原因探求:「なぜモデルが特定領域へ更新誘導?事前訓練パラメータ空間は混沌でなく内在構造あり。地形図如く、山(高曲率・主機能、「主方向」Principal Directions)と平野(低曲率・副領域)。RLのKL制約は「ゴム紐」、大動作禁止。最小コスト(構造安定)で最大報酬:平野歩行、山撼動避け。」→「幾何構造誘導」提案。
4.理論構築:「プロセスを理論化。まず「ゴム紐」(Gate I: KL Anchor)が歩幅制限。次、地形(Gate II: Model Geometry)が方向決定—平坦・非主方向。最後に「疎」なぜ?平野の微小ステップ多すぎ、bfloat16精度で記録不能(Gate III: Precision)、動かず見え。三門共同作用で観察現象。」→「三門理論」提案。
Pipeline解説(RLVRでQwen3-8Bを数学問題解決微調整例)
• 入力:事前訓練済Qwen3-8Bモデル、数学問題バッチ、対応解答検証器(報酬信号)。
• 処理フロー(1訓練ステップ):
Gate I: KL Anchor
モデルが数学問題の解法ステップ生成試行。RLアルゴ(PPO等)が正解報酬最大化目標。
だがKL散度罰項(明示・暗黙)あり:「更新可、だが更新後行動が前と大差ならず。」
パラメータ更新ΔW大きさに上限。モデルは小幅「シフト」のみ。
Gate II: Model Geometry
今、小幅「シフト」方向は?Qwen3-8B重みはランダムでなく、SVDで少数大「特異値」明らか、主方向(Principal Directions)が核心知識・機能(言語構造・基本算術)格納。変更で行動劇変—「山」如し。
核心構造破壊なく性能向上のため、最適化器「主方向」避け、小特異値方向(非主、Off-Principal、「平野」)修正。全体安定影響小、解法戦略有効調整。
結果:ΔWが「非主方向」対応重みに集中。
Gate III: Precision
「非主方向」更新多く極微小(例1e-7)。
bfloat16精度有限。重み1.0に対し1e-7更新が最小表現単位(ULP)未満で「飲み込まれ」、保存値1.0。
結果:「非主」十分蓄積更新のみ記録。他微小「ゼロ化」。
出力:
• 微調整後Qwen3-8Bモデル。
• 前後重み比較:少数視認変化、位置規則(ストライプ状)、主に核心「主方向」外。全体「スペクトル構造」(特異値分布)ほぼ不変。
この論文に方法が機能する理論基盤はあるか?
あり、極めて堅固。三門理論各環に数学証明:
Gate I理論基盤:
命題3.1 & 3.2:単一步政策勾配更新が政策KL散度上界を生み、これをパラメータ更新||ΔW||上界へ変換証明。簡而言、数学的にRL更新が「見えぬ縄」で縛られる証明。
Gate II理論基盤:
定理3.3 (Wedin定理基) & 系3.4,3.5:古典行列擾動論由来。||ΔW||小さい時:
1.特異子空間(機能方向)回転極小。
2.特異値(重要度)変化極小。
3.最重要top-kエネルギーほぼ不変。
簡而言、小更新が自然にスペクトル構造保持、主方向避け証明。
Gate III理論基盤:
系3.6 & Lemma E.2:浮動小数点基本原理。bfloat16で重み変化は更新量が自数値級ULP超否かによる。微小更新濾過説明。
論文の実験検証結論は?
実験巧妙、理論強力検証。
結論1:RLVRスペクトル幾何保持、SFT破壊 (Fig. 4)
比較でRLVR訓練後各層重み特異値分布・主方向が事前訓練とほぼ一致。SFT劇変。「スペクトル保持」平坦経路確認。
結論2:RLVR主重み回避、SFT主重み攻撃 (Fig. 5)
「主重み」(Principal Weights)を核心機能代理定義。RLVR更新重みと主重み重複がランダム以下、主動回避示唆。
結論3:幾何破壊でバイアス消失 (Fig. 6)
秀逸因果実験。特定層重み「回転」(関数不変、幾何基底変)で事前幾何擾乱。擾乱層で一貫更新消失、ランダム化。事前幾何がバイアス源強証明。
結論4:SFT時代PEFTがRL不適 (Sec. 5)
疎微調整実験 (Fig. 9):「非主重み」のみ更新で性能・軌跡が全量微調整並。 「主重み」(SFT好み)のみで惨敗。
LoRA vs. PiSSA (Fig. 10):PiSSAはSFT設計、主方向特化LoRA変種。RLVRで通常LoRAより劣り、「山」経路強制で崩壊易。
私の考察
1.RLVRはモデルの「宣言的知識」(Declarative Knowledge、「何が」)非修正傾向、「手続き的知識」(Procedural Knowledge、「どうやる」)最適化。
2.訓練疎性善悪?
中性的現象。本論文視点で「善」特性:効率・安全。苦労して得た知識体系破壊なく(事前幾何保持)、新複雑スキル(推論)習得。優雅「低侵襲手術」。
3.RL疎性が能力上限制限?
「上限」定義次第。
• 知識上限:是、RLVRは事前語料不存在新知識習得不可。例モデルが「Aurelle」未見、RLVRで私誰か空想不可。
• スキル/推論上限:逆、RLVR大突破。大半複雑問題(数学・プログラミング)は新知識不要、既存知識の柔軟多步組合要。RLVR手続き知識最適化で推論1→100。図書館蔵書増えず、検索・統合系を未来科技へアップ。
4.SFTは原知識突破可?
SFT優位は「注入」新知識。2025最新事象・新領域習得にSFT(特蒸留)が最直接有効。核心知識主重み直改—図書館「強制蔵書交換」。
だがSFT高リスク。「暴力」改易く旧知識忘却(破滅的忘却)、微調データ表面模倣のみ真論理未学(過剰適合)。