什麼?RLVR 竟然不是在學習新知識?而是在學習如何使用知識進行推理!

最近看到無數篇論文研究發現:

• RL有上限

• SFT 本質上是一種特殊的 RL

• 透過採用+優化機率分布可以實現 RL 的效果

今天又刷到一篇論文,從理論的視角區分了 RL 和 SFT 對 LLM 參數更新的差異,記錄一下。

The Path Not Taken: RLVR Provably Learns Off the Principals https://arxiv.org/pdf/2511.08567

「RLVR不是在學習新知識,而是在學習如何使用知識進行推理」

數學背景補充

在 Transformer 模型中,每一層都有多個權重矩陣(比如 Q, K, V, O 矩陣)。你可以把一個 d x d 的權重矩陣 W 看作一個函數,它將一個 d 維的輸入向量轉換成一個 d 維的輸出向量。

任何矩陣 W 都可以被分解為三個矩陣的乘積:W = U * Σ * V^T。

• U 和 V 是「方向」矩陣,它們的列向量定義了一組正交的「輸入方向」和「輸出方向」。

• Σ 是一個對角矩陣,對角線上的值叫作奇異值。這些值是非負的,並且從大到小排列。

什麼是主方向:一個奇異值的大小,代表了它對應的那個方向有多麼重要。最大的幾個奇異值對應的 U 和 V 中的方向,就是主方向。它們是這個權重矩陣進行轉換時,拉伸幅度最大、信息承載最多的方向,儲存了模型最核心的功能。

論文解決的問題是什麼?為什麼重要?能帶來什麼價值?

解決的問題:論文旨在解決一個被稱為「RLVR 悖論」的現象。RLVR(帶可驗證獎勵的強化學習)是一種非常消耗計算資源但對提升大模型推理能力效果顯著的訓練方法。然而,它對模型參數的修改卻出奇地「稀疏」,即只改變了非常小一部分的權重。

相比之下,更簡單的監督微調(SFT)反而會帶來「稠密」的、全局性的參數更新。這篇論文的核心問題是:

為什麼 RLVR 這種高成本、高收益的訓練過程,其底層的參數變化如此之小且有規律?這種稀疏性背後的機制是什麼?

為什麼重要:

• 理解核心技術:RLVR 是驅動目前最先進的推理模型(如 DeepSeek-R1)的關鍵技術。如果我們不理解它是如何運作的,就如同開著一輛高性能跑車卻不知道引擎原理,無法對其進行優化和改進。

• 指導未來研究:目前,很多用於 RL 微調的高效演算法(如 LoRA 等 PEFT 方法)都是直接從 SFT 時代借鑒過來的。如果不理解 RL 與 SFT 在參數更新機制上的根本區別,我們可能一直在用「為錘子設計的技術去擰螺絲」,導致效率低下甚至不穩定。

帶來的價值:

• 提供「白盒」解釋:論文首次在參數層面揭示了 RLVR 的訓練動態,將一個「黑盒」過程變得透明。

• 設計新演算法:透過理解 RLVR 的內在偏好,可以啟發研究者設計出更適合 RL 的、「幾何感知」的參數高效微調(PEFT)方法,從而用更少的計算資源達到更好的效果。

• 提升模型訓練效率與穩定性:解釋了為什麼某些 SFT 時代的方法在 RL 中會失效或導致訓練崩潰,為未來的 RL 訓練提供了寶貴的實踐指導。

這個問題之前被解決了嗎?之前的不足和這篇論文的不同是什麼?

這個問題之前沒有被系統性地解決。之前的研究與不足:

現象的觀察者:先前的研究(如 Mukherjee et al., 2025)觀察到了 RLVR 更新稀疏這一現象,但未能解釋其背後的原因,只是猜測可能與梯度為零有關。他們只回答了「是什麼」,沒有回答「為什麼」和「在哪裡」。

關注策略層而非參數層:其他一些工作主要從策略(Policy)層面進行分析,發現 RL 訓練後的模型與原始模型在行為上(KL 散度)很接近,但這依然沒有解釋參數層面發生了什麼。

這篇論文的不同之處:

• 從觀察到機制:本文首次從現象深入到機制,提出了一個完整的解釋框架,而不僅僅是描述現象。

• 提出核心概念:創造性地提出了「模型制约的優化偏置」(model-conditioned optimization bias)這一核心概念,指出參數更新的模式是由預訓練模型自身的「幾何結構」決定的,而不是由資料或 RL 演算法決定的。

• 參數空間與幾何視角:論文的核心區別在於,它是在參數空間(weight space)和幾何視角(optimization geometry)下分析問題,直接對比了 RLVR 和 SFT 在更新權重時的「路徑」差異。

作者的思路模擬

1、發現異常:「咦,大家發現 RL 更新很稀疏,這太奇怪了。難道是隨機稀疏的嗎?」

2、驗證一致性:「我們用同一個模型,跑五次不同的 RL 實驗(不同資料、不同演算法)。(見 Fig. 2)天啊!更新的位置竟然高度一致,像條紋一樣!這絕對不是隨機的,也不是資料或演算法導致的,一定是模型本身有什麼名堂。」→ 提出「模型制约的優化偏置」。

3、尋找原因:「為什麼模型會引導更新走向特定區域?預訓練好的模型,其參數空間不是一片混沌,而是有其內在結構的。就像地形圖,有高山(高曲率、主要功能區,論文稱為「主方向」Principal Directions),也有平原(低曲率、次要區域)。RL 的 KL 約束就像一根『皮筋』,不讓你做大動作。那麼,最小的代價(保持模型結構穩定)實現最大的獎勵,自然就是走平原,而不是去撼動大山。」→ 提出「幾何結構引導」。

4、建構理論:「我們可以把這個過程總結成一個理論。首先,得有根『皮筋』(Gate I: KL 錨定),它限制了每一步能走多遠。然後,地形(Gate II: 模型幾何)決定了你會朝哪個方向走——平坦的、非主要的方向。最後,為什麼我們看到的是『稀疏』?因為你在平原上走的很多小碎步太小了,以至於 bfloat16 這種低精度格式都記錄不下來(Gate III: 精度),所以看起來就像你沒動一樣。這三個門共同作用,導致了我們觀察到的現象。」→ 提出「三門理論」。

Pipeline 講解(以用 RLVR 微調 Qwen3-8B 模型解決數學題為例)

• 輸入:一個預訓練好的 Qwen3-8B 模型、一批數學題和對應的答案驗證器(獎勵訊號)。

• 處理流程(一個訓練步):

Gate I: KL 錨定 (KL Anchor)

模型嘗試生成一個數學題的解題步驟。RL 演算法(如 PPO)的目標是最大化獲得正確答案的獎勵。

但演算法中有一個 KL 散度懲罰項(無論是顯式還是隱式的),它會說:「你可以更新,但更新後的模型在行為上不能和更新前的模型差太遠。」

這相當於給參數更新 ΔW 的大小設定了一個上限。模型只能進行一次小幅度的「挪動」。

Gate II: 模型幾何 (Model Geometry)

現在,這次小幅度的「挪動」應該朝哪個方向?Qwen3-8B 的權重矩陣不是隨機的,它透過 SVD 分解後,會發現有少數幾個「奇異值」特別大,這些方向(主方向, Principal Directions)儲存了模型最核心的知識和功能(比如語言結構、基本算術規則)。改變這些權重會引起模型行為的劇烈變化,像是「高山」。

為了在不破壞核心結構的前提下提升性能,優化器會選擇避開這些「主方向」,而去修改那些奇異值較小的方向(非主方向, Off-Principal Directions)。這些方向像是「平原」,修改它們對模型整體穩定性的影響小,但又能有效地調整解題策略。

結果:ΔW 主要集中在這些「非主方向」對應的權重上。

Gate III: 精度 (Precision)

在「非主方向」上發生的很多更新,其數值非常微小(比如 1e-7)。

訓練時使用的 bfloat16 資料格式精度有限。對於一個值為 1.0 的權重,一次 1e-7 的更新可能因為小於其能表示的最小精度單位(ULP)而被「吞掉」,最終儲存到硬體上的值還是 1.0。

結果:只有那些在「非主方向」上累積得足夠大的更新才會被真正記錄下來。其他地方的微小更新都「被歸零」了。

輸出:

• 一個微調後的 Qwen3-8B 模型。

• 當我們對比微調前後的權重時,會發現只有一小部分權重發生了肉眼可見的變化,且這些變化的位置非常有規律(呈條紋狀),並且它們大多不在模型的核心「主方向」上。模型的整體「譜結構」(奇異值分布)幾乎沒有改變。

這篇論文有理論基礎解釋為什麼這個方法 work 嗎?

有,而且非常扎實。論文為「三門理論」的每一環都提供了數學證明:

Gate I 的理論基礎:

命題 3.1 & 3.2:證明了單步的策略梯度更新會導致策略的 KL 散度有一個上界,並且這個策略上的 KL 上界可以轉化為參數更新量 ||ΔW|| 的上界。簡單說,數學上證明了 RL 更新確實被一根「無形的繩子」拴住了。

Gate II 的理論基礎:

定理 3.3 (基於 Wedin 定理) & 推論 3.4, 3.5:這些都來自經典的矩陣擾動理論。它們證明了,當參數更新量 ||ΔW|| 很小時:

1、權重矩陣的奇異子空間(代表功能方向)的旋轉角度會非常小。

2、奇異值(代表功能方向的重要性)本身的变化也非常小。

3、模型最重要的 top-k 能量幾乎不變。

簡單說,數學上證明了小的參數更新會自然地傾向於保持模型的譜結構穩定,從而避開「主方向」。

Gate III 的理論基礎:

推論 3.6 & Lemma E.2:基於浮點數表示法的基本原理。證明了 bfloat16 格式下,一個權重是否發生改變,取決於更新量的大小是否超過了該權重自身數量級所對應的最小可表示單位(ULP)。這解釋了為什麼微小更新會被「過濾」掉。

這篇論文的實驗驗證結論是什麼?

實驗設計得非常巧妙,有力地驗證了理論。

結論1:RLVR 保持譜幾何,SFT 破壞譜幾何 (Fig. 4)

透過對比發現,RLVR 訓練後的模型,其各層權重的奇異值分布和主方向與預訓練模型幾乎一致。而 SFT 則會劇烈地改變它們。這證實了 RLVR 走的是「譜保持」的平坦路徑。

結論2:RLVR 避開主權重,SFT 攻擊主權重 (Fig. 5)

定義了「主權重」(Principal Weights)作為模型核心功能的代理。實驗發現,RLVR 實際更新的權重與這些主權重的重合度低於隨機水平,說明它在主動避開這些區域。

結論3:破壞幾何結構,優化偏置消失 (Fig. 6)

這是一個精彩的因果實驗。作者透過對某些層的權重矩陣進行「旋轉」(函數不變,但幾何基底改變),「擾亂」了其預訓練幾何結構。結果發現,在這些被擾亂的層裡,原本一致的更新模式消失了,變成了隨機更新。這強有力地證明了預訓練幾何結構是優化偏置的根源。

結論4:SFT 時代的 PEFT 方法在 RL 中水土不服 (Sec. 5)

稀疏微調實驗 (Fig. 9):只更新「非主權重」時,模型性能和訓練軌跡幾乎與全量微調一樣好。而只更新「主權重」(SFT 喜歡的方式)時,效果慘不忍睹。

LoRA vs. PiSSA (Fig. 10):PiSSA 是為 SFT 設計的、專門攻擊主方向的 LoRA 變體。實驗證明,它在 RLVR 中不僅沒有比普通 LoRA 更好,反而因為強制模型走「高山」路徑而更容易訓練崩潰。

我的思考

1、RLVR 傾向於不修改模型的「陳述性知識」(Declarative Knowledge,即「是什麼」),而是去優化模型的「程序性知識」(Procedural Knowledge,即「如何做」)。

2、訓練稀疏性是好是壞?

我認為它本身是中性的,是一種現象。但從這篇論文的角度看,它反映出一種「好」的特性:高效且安全。模型在不破壞自己辛苦學來的龐大知識體系(保持預訓練幾何)的前提下,學會了新的、複雜的技能(推理)。這是一種非常優雅的「微創手術」。

3、RL 的稀疏性是否限制了能力上限?

這取決於我們如何定義「能力上限」。

• 知識上限:是的,RLVR 可能無法讓模型學會它預訓練語料中完全不存在的新知識。比如,如果一個模型從未見過關於「Aurelle」這個詞的信息,RLVR 很難憑空讓它學會我是誰。

• 技能上限/推理上限:恰恰相反,RLVR 極大地突破了模型的技能上限。大多數複雜問題(數學、程式設計)並不需要新知識,而是需要對已有知識進行靈活、多步的組合運用。RLVR 透過優化「程序性知識」,讓模型的推理能力從 1 提升到了 100。它沒有增加圖書館的藏書,但把圖書館的檢索和整合系統升級到了未來科技水平。

4、SFT 可以突破原有知識嗎?

我認為 SFT 的優勢在於「灌輸」新知識。如果你想讓模型學會 2025 年的最新事件,或者一個全新的領域知識,SFT(特別是透過蒸餾)是目前最直接有效的方法。因為它直接修改代表「核心知識」的主權重,相當於在圖書館裡強行「換書」。

但 SFT 的風險也很高。這種「暴力」修改很容易導致模型忘記舊知識(災難性遺忘),或者只會模仿微調資料的表面風格而沒有學到真正的邏輯(過擬合)。

主標籤:RLVR

次標籤:強化學習推理能力參數更新大語言模型


上一篇:一人搞定整個劇組!北大哲學博士打造AI神器,20萬人排隊搶用

下一篇:比文生影片更實用!!這個「用程式碼生成影片」的開源工具火了,我嗅到了商機。

分享短網址