強化學習（RL）記憶更牢固，監督微調（SFT）更容易遺忘？普林斯頓陳丹琦團隊改寫後訓練認知

來源 | PaperWeekly

隨著大型模型規模的持續擴大，後訓練（post-training）已成為影響模型最終表現的關鍵階段。它讓模型更符合人類偏好，但也帶來了一個難以擺脫的副作用——遺忘。模型在交流上更自然，卻往往在推理與知識任務上表現下滑。

這種現象被研究者稱為「對齊稅」（alignment tax）：對齊越徹底，記憶越脆弱。在各種後訓練方法中，監督微調（SFT）和強化學習（RL）是兩條最常見的路線。SFT 依賴高品質標註數據，穩定可靠；RL 則透過獎勵最佳化生成策略，更具適應性。

從理論直覺來看，SFT 被認為更穩健，而 RL 的目標更激進，似乎更容易遺忘。然而近年來的實際結果卻適得其反——RL 在長週期訓練後反而保留了更多原有能力。

這一現象引起了普林斯頓陳丹琦團隊的興趣。他們提出了一個核心問題：

「當 RL 和 SFT 在相同條件下訓練時，是什麼讓它們的『記憶保留』出現系統差異？」

為回答這個問題，研究團隊設計了嚴格的對照實驗，並建立理論模型來分析遺忘的根源。他們最終發現，問題並非源自演算法形式，而是源自數據分佈與模型行為之間的錯位。

這項研究不僅比較了兩種後訓練範式的差異，更揭示了記憶保留背後的機制。接下來的部分，將從理論與實證兩條路線展開，解釋為何 RL 能「學得更久，也記得更牢」。

論文標題：Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

論文連結：https://arxiv.org/pdf/2510.18874

研究背景

在語言模型的發展過程中，「對齊」早已成為標準流程。模型從海量無監督語料中學習語言結構，但要真正理解人類意圖，還需要經歷後訓練階段：透過 SFT 或 RLHF，讓模型輸出符合人類期望。

然而，對齊帶來的副作用同樣顯著——災難性遺忘（catastrophic forgetting）。模型在新任務上表現更好，卻在舊任務上出現性能下滑。

為系統研究這種現象，普林斯頓陳丹琦團隊選擇了兩種最具代表性的後訓練方法——SFT 與 RL，並在 Llama-3 與 Qwen-2.5 系列模型上，以相同算力與數據預算進行對照訓練，涵蓋三類典型任務：指令遵循、通識推理、算術推理。

這項研究的目標，不是評判哪種方法更強，而是探究更深層的機制：

當模型在學習新目標時，它的舊知識為何會流失？又是什麼讓某些方法能讓模型在學習中保留記憶？

正是在這個問題的驅動下，論文建構了從理論到實證的完整分析路徑——逐步揭示出：記憶的保持，與演算法無關，與數據分佈息息相關。

從兩種 KL 到「記憶保留」的關鍵機制

在大型語言模型（LLM）的後訓練階段，我們通常使用兩類主流方法：SFT（監督微調）和 RL（強化學習）。表面上，它們只是優化目標不同；但在作者看來，這兩種方法的核心差別，其實在於它們如何處理模型的「記憶」。

2.1 從 KL 出發：兩種截然不同的學習方向

SFT 與 RL 的關係，可以統一在同一個數學框架下。前者最小化的是正向 KL 散度（forward KL），意味著模型要「覆蓋」目標分佈的全部區域；後者最小化的是反向 KL 散度（reverse KL），則傾向「選擇」目標分佈中最可能的那部分。

圖1. Forward KL vs Reverse KL 的核心差異

前者像是「盡量包住所有山峰」，後者則專注「爬到最高的那座峰」，即「mode-covering」與「mode-seeking」的形象寫照。

按照以往直覺，反向 KL 的 RL 會「捨棄舊模式」，似乎更容易遺忘。然而，當研究者在真實 LLM 分佈上做實驗時，卻發現了完全相反的現象。

2.2 小模型推演：為什麼現實中 RL 反而更「記得住」

為了理解這種反轉，研究團隊設計了一個極簡的混合分佈實驗，將「舊任務」與「新任務」分別建模成兩座機率峰：

訓練的目標是，讓模型分佈在學習新任務時，盡可能保留舊峰的品質。研究者透過定義重疊度（overlap area）來衡量這種「記憶保留」：

圖2. 單峰分佈：SFT 稍佔優勢

在簡單任務下，SFT 的 forward KL 確實能同時提升新峰並維持舊峰。

圖3. 多峰分佈：RL 反超

當任務複雜、輸出多樣時，SFT 的 forward KL 為了「覆蓋」新目標，會拉扯機率質量，使舊峰衰減明顯；反之，RL 的 reverse KL 直接「平移新峰」貼近目標，而不動舊峰。

這意味著，真正讓模型忘記舊任務的，不是 KL 的方向，而是數據分佈是否一致。SFT 在離線靜態數據（off-policy）上訓練，始終面對過去；RL 在模型當前策略（on-policy）下取樣，始終面向當下。

作者團隊由此給出核心洞見——遺忘不是演算法的問題，而是分佈錯位的問題。

2.3 消融分析：關鍵不在正則，而在 on-policy

為了進一步驗證這一點，作者在 RL 目標中系統地移除了各個組成部分：去掉 KL 正則項（），去掉優勢估計（REINFORCE 替代 GRPO），結果發現——模型的抗遺忘性能幾乎不變。

圖4. 去掉 KL 正則，RL 依然保持低遺忘

上圖對比了 GRPO 在 β = 0（無正則）與 β = 0.05 （有正則）下的表現。除 Llama 系列在 IFEval 任務上略有差異外，兩者在 gain-drop 平衡上幾乎一致，說明 KL 正則並非關鍵因素。

換言之，無論是否添加 KL 正則，只要訓練數據來自 on-policy 分佈，模型都能穩定保留舊知識。後續實驗進一步表明，這種穩定性並不依賴特定演算法成分，而主要源於 on-policy 取樣機制本身。

這一發現，直接改寫了過去「反向 KL 導致遺忘」的主流理解。

實驗結果

方法上的直覺得到了大規模實證的支持。作者在 Llama-3 與 Qwen-2.5 系列模型上，對比了 SFT、Self-SFT、REINFORCE 與 GRPO 四種方案，涵蓋三個典型任務：IFEval（指令）、MMLU（通識）、Countdown（算術）。

在每個任務中，他們分別記錄目標任務的提升（Gain）與非目標任務的下降（Drop）。

圖5. RL 在多數任務上表現更穩

實心柱表示目標任務 Gain，斜線陰影柱表示非目標任務 Drop。在多數模型與數據集上，RL（GRPO）在提升目標任務的同時，非目標任務的下降更小。

換句話說，RL 不僅能「學會新東西」，還能「記得住舊東西」。相比之下，SFT 往往在高增益的同時付出較大的遺忘代價。

3.1 學習率的「記憶代價」

研究者還觀察到一個極具工程意義的現象：在 SFT 訓練中，學習率（LR）與遺忘呈現典型蹺蹺板關係。

圖6. SFT 學習率越高，遺忘越重

高 LR 能迅速提高 IFEval 指標，卻導致 MMLU、Countdown 顯著下降；降低 LR 雖能緩解遺忘，但目標任務幾乎停滯不前。這進一步印證了方法部分的小模型結論：SFT 的問題不是學習率選不好，而是它始終在「過時的數據」上更新。

3.2 定量結果：RL 的遺忘幾乎為零

論文在表 1 中列出了不同方法在三個任務上的定量結果：SFT 通常會出現明顯的性能下降（Drop≈-3~-7），而 REINFORCE 與 GRPO 的 Drop 幾乎為 0，甚至在部分任務中呈現輕微正增益。

表1. 不同方法在三任務上的性能對比

RL 在所有任務上都展現出穩定的「無遺忘」特性，SFT 則存在明顯退化。

3.3 讓 SFT 學會「像 RL 一樣學習」

論文最後探討了一個務實問題：既然 RL 的穩定性來自 on-policy 數據，能否讓 SFT 模擬這種「動態更新」機制？

於是作者提出了兩種方案：Iterative-SFT（每個 epoch 用當前模型重新生成訓練樣本）與 RL-to-SFT（先用 RL 取樣，再用這些數據做 SFT）。

圖7. Iterative-SFT 成功重現 RL 的抗遺忘特性

圖中比較了 Qwen 2.5 1.5B 與 7B 模型在 IFEval 與 MMLU 任務上的三種 SFT 變體：Iterative-SFT、Self-SFT 與傳統 SFT。

結果顯示，Iterative-SFT 的目標任務表現與 RL (GRPO) 相當，非目標任務的性能下降也顯著減輕，證明使用近似 on-policy 數據即可重現 RL 的抗遺忘特性。

總結：遺忘的本質，是分佈錯位

從這項研究可以看出，語言模型的「記憶」並非由演算法複雜度決定，而與它學習的方式密切相關。當模型持續在自己生成的數據上訓練，它會自然維持能力的連貫；而當訓練與行為脫節，遺忘就悄然發生。

這讓「後訓練」問題有了新的視角：對齊並非一定伴隨代價，關鍵是讓模型在理解中學習、在行動中鞏固。這項工作提醒我們，強化學習的優勢或許並不在於獎勵訊號，而是在於它提供了一種更貼近模型自身的學習節奏。

對於未來的大型模型訓練而言，這可能意味著一個更樸素卻深遠的啟示——模型的穩定記憶，不靠凍結參數，而靠它是否真正「參與了自己的學習過程」。

強化學習（RL）記憶更牢固，監督微調（SFT）更容易遺忘？普林斯頓陳丹琦團隊改寫後訓練認知

分享短網址