來源 | PaperWeekly
隨著大型模型規模的持續擴大,後訓練(post-training)已成為影響模型最終表現的關鍵階段。它讓模型更符合人類偏好,但也帶來了一個難以擺脫的副作用——遺忘。模型在交流上更自然,卻往往在推理與知識任務上表現下滑。
這種現象被研究者稱為「對齊稅」(alignment tax):對齊越徹底,記憶越脆弱。在各種後訓練方法中,監督微調(SFT)和強化學習(RL)是兩條最常見的路線。SFT 依賴高品質標註數據,穩定可靠;RL 則透過獎勵最佳化生成策略,更具適應性。
從理論直覺來看,SFT 被認為更穩健,而 RL 的目標更激進,似乎更容易遺忘。然而近年來的實際結果卻適得其反——RL 在長週期訓練後反而保留了更多原有能力。
這一現象引起了普林斯頓陳丹琦團隊的興趣。他們提出了一個核心問題:
「當 RL 和 SFT 在相同條件下訓練時,是什麼讓它們的『記憶保留』出現系統差異?」
為回答這個問題,研究團隊設計了嚴格的對照實驗,並建立理論模型來分析遺忘的根源。他們最終發現,問題並非源自演算法形式,而是源自數據分佈與模型行為之間的錯位。
這項研究不僅比較了兩種後訓練範式的差異,更揭示了記憶保留背後的機制。接下來的部分,將從理論與實證兩條路線展開,解釋為何 RL 能「學得更久,也記得更牢」。
論文標題:Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
論文連結:https://arxiv.org/pdf/2510.18874
研究背景
在語言模型的發展過程中,「對齊」早已成為標準流程。模型從海量無監督語料中學習語言結構,但要真正理解人類意圖,還需要經歷後訓練階段:透過 SFT 或 RLHF,讓模型輸出符合人類期望。
然而,對齊帶來的副作用同樣顯著——災難性遺忘(catastrophic forgetting)。模型在新任務上表現更好,卻在舊任務上出現性能下滑。
為系統研究這種現象,普林斯頓陳丹琦團隊選擇了兩種最具代表性的後訓練方法——SFT 與 RL,並在 Llama-3 與 Qwen-2.5 系列模型上,以相同算力與數據預算進行對照訓練,涵蓋三類典型任務:指令遵循、通識推理、算術推理。
這項研究的目標,不是評判哪種方法更強,而是探究更深層的機制:
當模型在學習新目標時,它的舊知識為何會流失?又是什麼讓某些方法能讓模型在學習中保留記憶?
正是在這個問題的驅動下,論文建構了從理論到實證的完整分析路徑——逐步揭示出:記憶的保持,與演算法無關,與數據分佈息息相關。
從兩種 KL 到「記憶保留」的關鍵機制
在大型語言模型(LLM)的後訓練階段,我們通常使用兩類主流方法:SFT(監督微調)和 RL(強化學習)。表面上,它們只是優化目標不同;但在作者看來,這兩種方法的核心差別,其實在於它們如何處理模型的「記憶」。
2.1 從 KL 出發:兩種截然不同的學習方向
SFT 與 RL 的關係,可以統一在同一個數學框架下。前者最小化的是正向 KL 散度(forward KL),意味著模型要「覆蓋」目標分佈的全部區域;後者最小化的是反向 KL 散度(reverse KL),則傾向「選擇」目標分佈中最可能的那部分。
圖1. Forward KL vs Reverse KL 的核心差異
前者像是「盡量包住所有山峰」,後者則專注「爬到最高的那座峰」,即「mode-covering」與「mode-seeking」的形象寫照。
按照以往直覺,反向 KL 的 RL 會「捨棄舊模式」,似乎更容易遺忘。然而,當研究者在真實 LLM 分佈上做實驗時,卻發現了完全相反的現象。
2.2 小模型推演:為什麼現實中 RL 反而更「記得住」
為了理解這種反轉,研究團隊設計了一個極簡的混合分佈實驗,將「舊任務」與「新任務」分別建模成兩座機率峰:
訓練的目標是,讓模型分佈在學習新任務時,盡可能保留舊峰的品質。研究者透過定義重疊度(overlap area)來衡量這種「記憶保留」:
圖2. 單峰分佈:SFT 稍佔優勢
在簡單任務下,SFT 的 forward KL 確實能同時提升新峰並維持舊峰。
圖3. 多峰分佈:RL 反超
當任務複雜、輸出多樣時,SFT 的 forward KL 為了「覆蓋」新目標,會拉扯機率質量,使舊峰衰減明顯;反之,RL 的 reverse KL 直接「平移新峰」貼近目標,而不動舊峰。
這意味著,真正讓模型忘記舊任務的,不是 KL 的方向,而是數據分佈是否一致。SFT 在離線靜態數據(off-policy)上訓練,始終面對過去;RL 在模型當前策略(on-policy)下取樣,始終面向當下。
作者團隊由此給出核心洞見——遺忘不是演算法的問題,而是分佈錯位的問題。
2.3 消融分析:關鍵不在正則,而在 on-policy
為了進一步驗證這一點,作者在 RL 目標中系統地移除了各個組成部分:去掉 KL 正則項(),去掉優勢估計(REINFORCE 替代 GRPO),結果發現——模型的抗遺忘性能幾乎不變。
圖4. 去掉 KL 正則,RL 依然保持低遺忘
上圖對比了 GRPO 在 β = 0(無正則)與 β = 0.05 (有正則)下的表現。除 Llama 系列在 IFEval 任務上略有差異外,兩者在 gain-drop 平衡上幾乎一致,說明 KL 正則並非關鍵因素。
換言之,無論是否添加 KL 正則,只要訓練數據來自 on-policy 分佈,模型都能穩定保留舊知識。後續實驗進一步表明,這種穩定性並不依賴特定演算法成分,而主要源於 on-policy 取樣機制本身。
這一發現,直接改寫了過去「反向 KL 導致遺忘」的主流理解。
實驗結果
方法上的直覺得到了大規模實證的支持。作者在 Llama-3 與 Qwen-2.5 系列模型上,對比了 SFT、Self-SFT、REINFORCE 與 GRPO 四種方案,涵蓋三個典型任務:IFEval(指令)、MMLU(通識)、Countdown(算術)。
在每個任務中,他們分別記錄目標任務的提升(Gain)與非目標任務的下降(Drop)。
圖5. RL 在多數任務上表現更穩
實心柱表示目標任務 Gain,斜線陰影柱表示非目標任務 Drop。在多數模型與數據集上,RL(GRPO)在提升目標任務的同時,非目標任務的下降更小。
換句話說,RL 不僅能「學會新東西」,還能「記得住舊東西」。相比之下,SFT 往往在高增益的同時付出較大的遺忘代價。
3.1 學習率的「記憶代價」
研究者還觀察到一個極具工程意義的現象:在 SFT 訓練中,學習率(LR)與遺忘呈現典型蹺蹺板關係。
圖6. SFT 學習率越高,遺忘越重
高 LR 能迅速提高 IFEval 指標,卻導致 MMLU、Countdown 顯著下降;降低 LR 雖能緩解遺忘,但目標任務幾乎停滯不前。這進一步印證了方法部分的小模型結論:SFT 的問題不是學習率選不好,而是它始終在「過時的數據」上更新。
3.2 定量結果:RL 的遺忘幾乎為零
論文在表 1 中列出了不同方法在三個任務上的定量結果:SFT 通常會出現明顯的性能下降(Drop≈-3~-7),而 REINFORCE 與 GRPO 的 Drop 幾乎為 0,甚至在部分任務中呈現輕微正增益。
表1. 不同方法在三任務上的性能對比
RL 在所有任務上都展現出穩定的「無遺忘」特性,SFT 則存在明顯退化。
3.3 讓 SFT 學會「像 RL 一樣學習」
論文最後探討了一個務實問題:既然 RL 的穩定性來自 on-policy 數據,能否讓 SFT 模擬這種「動態更新」機制?
於是作者提出了兩種方案:Iterative-SFT(每個 epoch 用當前模型重新生成訓練樣本)與 RL-to-SFT(先用 RL 取樣,再用這些數據做 SFT)。
圖7. Iterative-SFT 成功重現 RL 的抗遺忘特性
圖中比較了 Qwen 2.5 1.5B 與 7B 模型在 IFEval 與 MMLU 任務上的三種 SFT 變體:Iterative-SFT、Self-SFT 與傳統 SFT。
結果顯示,Iterative-SFT 的目標任務表現與 RL (GRPO) 相當,非目標任務的性能下降也顯著減輕,證明使用近似 on-policy 數據即可重現 RL 的抗遺忘特性。
總結:遺忘的本質,是分佈錯位
從這項研究可以看出,語言模型的「記憶」並非由演算法複雜度決定,而與它學習的方式密切相關。當模型持續在自己生成的數據上訓練,它會自然維持能力的連貫;而當訓練與行為脫節,遺忘就悄然發生。
這讓「後訓練」問題有了新的視角:對齊並非一定伴隨代價,關鍵是讓模型在理解中學習、在行動中鞏固。這項工作提醒我們,強化學習的優勢或許並不在於獎勵訊號,而是在於它提供了一種更貼近模型自身的學習節奏。
對於未來的大型模型訓練而言,這可能意味著一個更樸素卻深遠的啟示——模型的穩定記憶,不靠凍結參數,而靠它是否真正「參與了自己的學習過程」。