ソース | PaperWeekly
大規模モデルの規模が拡大するにつれ、後訓練(post-training)がモデルの最終性能に影響を与える重要な段階となっています。これによりモデルは人間の好みに適合しますが、頑固な副作用——忘却——を引き起こします。モデルは会話でより自然になりますが、推論や知識タスクで性能が低下します。
この現象は研究者によってalignment taxと呼ばれています:対話が徹底するほど、記憶が脆弱になります。さまざまな後訓練手法の中で、監督微調(SFT)と強化学習(RL)が最も一般的なルートです。SFTは高品質なラベル付きデータに依存し、安定性が高いです。RLは報酬を通じて生成戦略を最適化し、適応性が高いです。
理論的な直感から、SFTはより堅牢で、RLの目標はより積極的で忘却しやすいと考えられます。しかし、近年の実際の結果は逆で——RLが長期間訓練後により多くの原有能力を保持します。
この現象がプリンストン陳丹琦チームの興味を引きました。彼らは核心的な質問を提起しました:
「RLとSFTが同じ条件で訓練された時、何がその『記憶保持』に系統的な違いを生むのか?」
この質問に答えるため、研究チームは厳格な対照実験を設計し、忘却の根源を分析する理論モデルを構築しました。最終的に、問題はアルゴリズム形式ではなく、データ分布とモデル行動のずれに起因すると発見しました。
この研究は2つの後訓練パラダイムの違いを比較するだけでなく、記憶保持の背後にあるメカニズムを明らかにしました。以下では、理論と実証の2つの線から、なぜRLが「より長く学び、より確実に記憶する」のかを説明します。
論文タイトル:
Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
論文リンク:
https://arxiv.org/pdf/2510.18874
研究背景
言語モデルの発展過程で、「対話」は標準プロセスとなっています。モデルは海量の無監督コーパスから言語構造を学びますが、人間意図を真に理解するには、後訓練段階が必要です:SFTやRLHFを通じて、出力が人間の期待に適合します。
しかし、対話の副作用も顕著です——壊滅的忘却(catastrophic forgetting)。モデルは新タスクで良くなりますが、旧タスクで性能が低下します。
この現象を体系的に研究するため、プリンストン陳丹琦チームは代表的な後訓練手法——SFT と RL——を選択し、Llama-3 と Qwen-2.5シリーズモデルで、同じ計算力とデータ予算で対照訓練を行い、指令遵守、一般推論、算術推論の3類型タスクをカバーしました。
この研究の目標は、どちらの手法が優れているかを判断するのではなく、より深いメカニズムを探求することです:
モデルが新目標を学習する時、なぜ旧知識が失われるのか?何が一部の手法で学習中に記憶を保持できるのか?
この問題の駆動の下、論文は理論から実証への完全な分析パスを構築——記憶の保持はアルゴリズムではなく、データ分布に関連。
2種類のKLから「記憶保持」の鍵メカニズムへ
大規模言語モデル(LLM)の後訓練段階では、通常SFT(監督微調)とRL(強化学習)の2主流手法を使用します。表面上は最適化目標が異なりますが、著者によると、核心の違いはモデル「記憶」の処理方法にあります。
2.1 KLから出発:2つの全く異なる学習方向
SFTとRLの関係は、同じ数学フレームワークで統一できます。前者は正向KL散度(forward KL)を最小化し、モデルが目標分布の全領域を「カバー」;後者は反向KL散度(reverse KL)を最小化し、目標分布で最も確率の高い部分を「選択」。
▲ 図1. Forward KL vs Reverse KLの核心違い
前者は「すべての山峰を包む」、後者は「最高峰に登る」——「mode-covering」と「mode-seeking」のイメージです。
従来の直感では、反向KLのRLが「旧モードを捨てる」ため忘却しやすい。しかし、実際のLLM分布実験で逆の現象を発見。
2.2 小モデル推演:なぜ現実でRLが逆に「記憶しやすい」のか
この反転を理解するため、研究チームは極簡混合分布実験を設計。「旧タスク」と「新タスク」を2つの確率峰としてモデル化。
訓練目標は、モデル分布が新タスク学習時に旧峰の質量を保持。重複度(overlap area)で「記憶保持」を測定。
▲ 図2. 単峰分布:SFTがわずかに優位
単純タスクでは、SFTのforward KLが新峰を向上させ旧峰を維持。
▲ 図3. 多峰分布:RLが逆転
タスクが複雑で出力多様時、SFTのforward KLが新目標を「カバー」するため確率質量を引き、旧峰が減衰。逆にRLのreverse KLは新峰を直接「移動」させ旧峰に触れず。
つまり、旧タスク忘却の真因はKL方向ではなく、データ分布の一貫性。SFTはオフポリシー静的データで過去を向く;RLはオンラインポリシーで現在を向く。
著者チームの核心洞察——忘却はアルゴリズムではなく、分布ずれの問題。
2.3 消融分析:鍵は正則ではなくon-policy
これを検証するため、RL目標から成分を除去:KL正則()、利点推定(REINFORCEでGRPO代替)。結果、抗忘却性能ほぼ不変。
▲ 図4. KL正則除去でもRLは低忘却保持
上図はGRPOのβ=0(無正則)とβ=0.05(有正則)を比較。除LlamaのIFEvalでわず差、その他gain-dropバランスほぼ一致。KL正則が鍵でない。
つまり、KL正則有無に関わらず、on-policy分布データなら旧知識保持。後続実験で、この安定性は特定アルゴ成分ではなくon-policyサンプリング自体に起因。
この発見は「反向KLが忘却原因」の従来理解を改写。
実験結果
手法の直感は大規模実証で支持。Llama-3とQwen-2.5でSFT、Self-SFT、REINFORCE、GRPOを比較。IFEval(指令)、MMLU(通識)、Countdown(算術)の3タスク。
各タスクで目標タスク向上(Gain)と非目標下降(Drop)を記録。
▲ 図5. RLが多数タスクで安定
実心柱:目標Gain、斜線影柱:非目標Drop。多数モデル・データセットでRL(GRPO)が目標向上し、非目標下降小。
つまり、RLは「新を学び旧を保持」。SFTは高Gainで大忘却代償。
3.1 学習率の「記憶代償」
SFT訓練で学習率(LR)と忘却が典型跷跷板関係。
▲ 図6. SFT学習率高く忘却重
高LRでIFEval急向上、MMLU・Countdown大幅下降。低LRで忘却緩和も目標停滞。小モデル結論印証:SFT問題は「過時データ」更新。
3.2 定量結果:RL忘却ほぼゼロ
表1で3タスク定量:SFTは明降(Drop≈-3~-7)、REINFORCE・GRPOはDrop≈0、部分正Gain。
▲ 表1. 3タスク性能比較
RL全タスク「無忘却」、SFT明退化。
3.3 SFTに「RL風学習」をさせる
RL安定がon-policy由来なら、SFTに動的更新をシミュレート可能?
2方案:Iterative-SFT(各epochで現モデル再生成サンプル)、RL-to-SFT(RLサンプリング後SFT)。
▲ 図7. Iterative-SFTがRL抗忘却再現
Qwen 2.5 1.5B・7BでIFEval・MMLUの3 SFT変体比較。Iterative-SFT目標相当、非目標下降軽減。近似on-policyでRL特性再現。
まとめ:忘却の本質は分布ずれ
言語モデルの「記憶」はアルゴリズム複雑度ではなく、学習方式に関連。自己生成データ継続訓練で能力連貫維持;訓練・行動脱節で忘却発生。
「後訓練」に新視点:対話に必ず代償なし、鍵は理解中学習・行動中固化。RL優位は報酬ではなく、モデル自身に近い学習リズム。
未来大モデル訓練に示唆——安定記憶はパラ凍結ではなく、「自己学習参加」。