ソース | PaperWeekly

大規模モデルの規模が拡大するにつれ、後訓練（post-training）がモデルの最終性能に影響を与える重要な段階となっています。これによりモデルは人間の好みに適合しますが、頑固な副作用——忘却——を引き起こします。モデルは会話でより自然になりますが、推論や知識タスクで性能が低下します。

この現象は研究者によってalignment taxと呼ばれています：対話が徹底するほど、記憶が脆弱になります。さまざまな後訓練手法の中で、監督微調（SFT）と強化学習（RL）が最も一般的なルートです。SFTは高品質なラベル付きデータに依存し、安定性が高いです。RLは報酬を通じて生成戦略を最適化し、適応性が高いです。

理論的な直感から、SFTはより堅牢で、RLの目標はより積極的で忘却しやすいと考えられます。しかし、近年の実際の結果は逆で——RLが長期間訓練後により多くの原有能力を保持します。

この現象がプリンストン陳丹琦チームの興味を引きました。彼らは核心的な質問を提起しました：

「RLとSFTが同じ条件で訓練された時、何がその『記憶保持』に系統的な違いを生むのか？」

この質問に答えるため、研究チームは厳格な対照実験を設計し、忘却の根源を分析する理論モデルを構築しました。最終的に、問題はアルゴリズム形式ではなく、データ分布とモデル行動のずれに起因すると発見しました。

この研究は2つの後訓練パラダイムの違いを比較するだけでなく、記憶保持の背後にあるメカニズムを明らかにしました。以下では、理論と実証の2つの線から、なぜRLが「より長く学び、より確実に記憶する」のかを説明します。

論文タイトル：

Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

論文リンク：

https://arxiv.org/pdf/2510.18874

研究背景

言語モデルの発展過程で、「対話」は標準プロセスとなっています。モデルは海量の無監督コーパスから言語構造を学びますが、人間意図を真に理解するには、後訓練段階が必要です：SFTやRLHFを通じて、出力が人間の期待に適合します。

しかし、対話の副作用も顕著です——壊滅的忘却（catastrophic forgetting）。モデルは新タスクで良くなりますが、旧タスクで性能が低下します。

この現象を体系的に研究するため、プリンストン陳丹琦チームは代表的な後訓練手法——SFT と RL——を選択し、Llama-3 と Qwen-2.5シリーズモデルで、同じ計算力とデータ予算で対照訓練を行い、指令遵守、一般推論、算術推論の3類型タスクをカバーしました。

この研究の目標は、どちらの手法が優れているかを判断するのではなく、より深いメカニズムを探求することです：

モデルが新目標を学習する時、なぜ旧知識が失われるのか？何が一部の手法で学習中に記憶を保持できるのか？

この問題の駆動の下、論文は理論から実証への完全な分析パスを構築——記憶の保持はアルゴリズムではなく、データ分布に関連。

2種類のKLから「記憶保持」の鍵メカニズムへ

大規模言語モデル（LLM）の後訓練段階では、通常SFT（監督微調）とRL（強化学習）の2主流手法を使用します。表面上は最適化目標が異なりますが、著者によると、核心の違いはモデル「記憶」の処理方法にあります。

2.1 KLから出発：2つの全く異なる学習方向

SFTとRLの関係は、同じ数学フレームワークで統一できます。前者は正向KL散度（forward KL）を最小化し、モデルが目標分布の全領域を「カバー」；後者は反向KL散度（reverse KL）を最小化し、目標分布で最も確率の高い部分を「選択」。

▲ 図1. Forward KL vs Reverse KLの核心違い

前者は「すべての山峰を包む」、後者は「最高峰に登る」——「mode-covering」と「mode-seeking」のイメージです。

従来の直感では、反向KLのRLが「旧モードを捨てる」ため忘却しやすい。しかし、実際のLLM分布実験で逆の現象を発見。

2.2 小モデル推演：なぜ現実でRLが逆に「記憶しやすい」のか

この反転を理解するため、研究チームは極簡混合分布実験を設計。「旧タスク」と「新タスク」を2つの確率峰としてモデル化。

訓練目標は、モデル分布が新タスク学習時に旧峰の質量を保持。重複度（overlap area）で「記憶保持」を測定。

▲ 図2. 単峰分布：SFTがわずかに優位

単純タスクでは、SFTのforward KLが新峰を向上させ旧峰を維持。

▲ 図3. 多峰分布：RLが逆転

タスクが複雑で出力多様時、SFTのforward KLが新目標を「カバー」するため確率質量を引き、旧峰が減衰。逆にRLのreverse KLは新峰を直接「移動」させ旧峰に触れず。

つまり、旧タスク忘却の真因はKL方向ではなく、データ分布の一貫性。SFTはオフポリシー静的データで過去を向く；RLはオンラインポリシーで現在を向く。

著者チームの核心洞察——忘却はアルゴリズムではなく、分布ずれの問題。

2.3 消融分析：鍵は正則ではなくon-policy

これを検証するため、RL目標から成分を除去：KL正則（）、利点推定（REINFORCEでGRPO代替）。結果、抗忘却性能ほぼ不変。

▲ 図4. KL正則除去でもRLは低忘却保持

上図はGRPOのβ=0（無正則）とβ=0.05（有正則）を比較。除LlamaのIFEvalでわず差、その他gain-dropバランスほぼ一致。KL正則が鍵でない。

つまり、KL正則有無に関わらず、on-policy分布データなら旧知識保持。後続実験で、この安定性は特定アルゴ成分ではなくon-policyサンプリング自体に起因。

この発見は「反向KLが忘却原因」の従来理解を改写。

実験結果

手法の直感は大規模実証で支持。Llama-3とQwen-2.5でSFT、Self-SFT、REINFORCE、GRPOを比較。IFEval（指令）、MMLU（通識）、Countdown（算術）の3タスク。

各タスクで目標タスク向上（Gain）と非目標下降（Drop）を記録。

▲ 図5. RLが多数タスクで安定

実心柱：目標Gain、斜線影柱：非目標Drop。多数モデル・データセットでRL（GRPO）が目標向上し、非目標下降小。

つまり、RLは「新を学び旧を保持」。SFTは高Gainで大忘却代償。

3.1 学習率の「記憶代償」

SFT訓練で学習率（LR）と忘却が典型跷跷板関係。

▲ 図6. SFT学習率高く忘却重

高LRでIFEval急向上、MMLU・Countdown大幅下降。低LRで忘却緩和も目標停滞。小モデル結論印証：SFT問題は「過時データ」更新。

3.2 定量結果：RL忘却ほぼゼロ

表1で3タスク定量：SFTは明降（Drop≈-3~-7）、REINFORCE・GRPOはDrop≈0、部分正Gain。

▲ 表1. 3タスク性能比較

RL全タスク「無忘却」、SFT明退化。

3.3 SFTに「RL風学習」をさせる

RL安定がon-policy由来なら、SFTに動的更新をシミュレート可能？

2方案：Iterative-SFT（各epochで現モデル再生成サンプル）、RL-to-SFT（RLサンプリング後SFT）。

▲ 図7. Iterative-SFTがRL抗忘却再現

Qwen 2.5 1.5B・7BでIFEval・MMLUの3 SFT変体比較。Iterative-SFT目標相当、非目標下降軽減。近似on-policyでRL特性再現。

まとめ：忘却の本質は分布ずれ

言語モデルの「記憶」はアルゴリズム複雑度ではなく、学習方式に関連。自己生成データ継続訓練で能力連貫維持；訓練・行動脱節で忘却発生。

「後訓練」に新視点：対話に必ず代償なし、鍵は理解中学習・行動中固化。RL優位は報酬ではなく、モデル自身に近い学習リズム。

未来大モデル訓練に示唆——安定記憶はパラ凍結ではなく、「自己学習参加」。

RLはより記憶を保持、SFTは忘れやすい？プリンストン陳丹琦チームが後訓練の認知を書き換え

研究背景

短いURLをシェア