橫掃數學榜的LLM,卻忘了如何聊天?CMU等揭示SFT與RL的驚人差異!

近年來,我們見證了大語言模型(LLM)在數學推理能力上的飛速發展。各大模型在MATH、AIME等高難度數學基準上不斷刷新紀錄,甚至超越了人類專家的平均水平,每週的排行榜都充滿了火藥味 🔥。

數學,作為科學的基石,其問題明確、答案唯一、評估簡單,自然成為衡量LLM推理能力的「黃金標準」。然而,當我們將目光從純粹的數學競賽投向更廣闊的現實世界應用時,一個關鍵問題浮出水面:這些在數學上取得的驚人成就,能否真正轉化為通用的問題解決能力?一個數學天才LLM,在科學問答、程式碼生成、對話交流、指令遵循等其他領域,是會變得更強,還是僅僅「偏科」了?

為了回答這個核心問題,來自卡內基美隆大學(CMU)、華盛頓大學、賓夕法尼亞大學、M-A-P以及香港理工大學的研究團隊,進行了一項深入且全面的研究。他們不僅評估了20多個開源的推理調整模型,更透過精密的對照實驗和深入的機理分析,揭示了不同訓練範式對模型能力遷移性的巨大影響。

論文連結:https://hf.co/papers/2507.00432


🧐 驚人發現:並非所有數學高手都是通才

研究團隊首先對20多個在數學領域表現出色的開源模型進行了「大摸底」,測試它們在數學之外的其他推理任務(如科學QA、程式碼生成、智能體規劃)和非推理任務(如對話問答、指令遵循)上的表現。

為了量化模型的能力遷移效果,他們提出了一個新穎的度量標準——遷移指數(Transferability Index, TI)。簡單來說,正值的TI表示模型在數學上獲得的增益成功地「遷移」到了其他領域;而負值則意味著模型在提升數學能力的同時,犧牲了在其他領域的性能,出現了能力退化。

結果令人驚訝:

圖片

圖1:不同模型的數學能力遷移指數

該圖展示了多種模型從數學到其他領域的能力遷移情況。橫軸代表不同參數的基座模型,縱軸是遷移指數(使用符號對數變換以便視覺化)。我們可以清晰地看到,透過強化學習(RL)調整的模型(橙色點)幾乎都表現出正向遷移,而透過監督式微調(SFT)訓練的模型(藍色點)則大量出現了負遷移,尤其是在非推理任務上,表明它們在學好數學的同時,通用能力反而下降了。

這一現象揭示了一個關鍵分歧點:模型的微調範式。無論模型大小、架構或訓練資料如何,強化學習(RL)調整的模型普遍表現出更強的泛化能力,而監督式微調(SFT)的模型則常常遭遇「災難性遺忘」,在非數學任務上表現不佳。


🔬 受控實驗:SFT 與 RL 的正面交鋒

為了驗證「微調範式是關鍵」這一猜想,研究團隊進行了一項嚴格的受控實驗。他們選擇了強大的 Qwen3-14B 作為基礎模型,並使用了完全相同的、高品質的數學資料集進行訓練。

• SFT 路徑:研究人員首先讓一個更強的「教師模型」(Qwen3-32B)生成詳細的解題步驟(即CoT,思維鏈),然後用這些「標準答案」對 Qwen3-14B 進行監督式微調,教它一步步模仿。

• RL 路徑:研究人員不提供解題步驟,只告訴 Qwen3-14B 最終答案的對錯,並以此作為獎勵訊號,讓模型在探索中自己學習如何得到正確答案。

實驗結果完美印證了之前的發現:

圖片

圖2:SFT與RL對模型通用能力的影響

該圖展示了在僅使用數學資料進行訓練後,SFT和RL對同一基礎模型(Qwen3-14B-Base)性能的影響(相對基準的提升)。RL訓練的模型(左側)不僅在數學和其他推理任務上取得進步,在非推理任務上也表現出廣泛的泛化能力。相比之下,SFT訓練的模型(右側)雖然在推理任務上有所泛化,但在非推理任務上的遷移能力非常有限,甚至出現了性能下降。

這個結果有力地證明了,即使只用數學資料進行訓練,RL也能夠有效地提升模型的推理能力,同時不損害甚至提升其通用能力。而SFT則更容易讓模型「死記硬背」,導致其在面對訓練領域之外的任務時變得「僵化」。


🧠 深入探究:為何RL的泛化性更強?

為了揭開這兩種訓練範式背後更深層次的機制差異,研究團隊動用了兩大「神器」來窺探模型的「內心世界」:潛在空間表徵分析 和 詞元空間分布偏移分析。

1. 潛在空間:SFT的「大拆大建」 vs. RL的「精準微調」

透過主成分分析(PCA),研究者可以觀察模型內部對資訊的表徵方式在訓練後發生了多大變化。他們發現:

• SFT 會引起劇烈的表徵和輸出漂移。這意味著SFT訓練像一場「大拆大建」,為了適配數學任務,大幅改變了模型原有的知識結構,導致在處理非推理任務時水土不服。

• RL 則能更好地保留通用領域的結構。RL的訓練更像是一次「精準微調」,它在不破壞模型原有通用知識框架的基礎上,針對性地強化了推理相關的通路。

2. 詞元空間:SFT的「胡子眉毛一把抓」 vs. RL的「抓大放小」

透過分析模型在生成文本時對每個詞元(token)的選擇概率變化,研究者發現了更有趣的現象。

圖片

圖3:RL與SFT模型在數學任務中顯著變化的詞元

這張詞雲圖展示了RL模型(左)和SFT模型(右)在處理數學任務時,哪些詞元的輸出概率發生了顯著變化。可以發現,RL模型主要改變了與邏輯結構相關的詞(紅色高亮,如 But, So。藍色高亮則表示特定內容相關的詞),實現了高效的推理能力提升。而SFT模型則改變了大量詞元,既有相關的,也有許多與任務無關的詞,顯示出其學習方式更為粗放和表面化。


🔥 結論與啟示

這項研究為我們揭示了提升LLM推理能力背後一個容易被忽視的關鍵點:訓練方法比我們想像的更重要。

• 強化學習(RL)是實現能力遷移的關鍵:RL調整的模型能在提升數學等特定推理能力的同時,保持甚至增強其在其他領域的通用能力,實現了「專才」與「通才」的平衡。

• 監督式微調(SFT)需警惕「偏科陷阱」:尤其是在使用由強模型蒸餾出的「完美」資料進行SFT時,雖然能快速提升榜單分數,但極有可能損害模型的通用性,導致「災難性遺忘」。

• 深入機理,方得始終:透過對模型內部表徵和輸出分佈的分析,我們理解了RL的優勢在於其「精準」和「微創」的最佳化方式,而SFT則可能過於「暴力」,破壞了模型寶貴的預訓練知識。

這項工作無疑為未來如何構建更強大、更通用的AI推理模型指明了方向。或許,社群應該重新思考對SFT蒸餾資料的依賴,並更多地探索和應用RL,以推動LLM從「解題高手」向真正的「通用問題解決者」邁進。🚀

主標籤:大語言模型

次標籤:強化學習模型訓練研究論文機器學習飢餓遊戲人工智慧監督式微調


上一篇:獎勵模型新革命!SWIFT不讀文本讀「心聲」,打造又快又強又省錢的AI裁判

下一篇:MCP堆疊工具是個大坑!開發者大佬:命令列的「脆弱」讓AI慘敗!不如砍掉變成一個程式碼執行器:7輪呼叫秒變1輪!網友:早該放棄黑箱工具了!

分享短網址