RL反直覺研究：直接給大型語言模型餵答案比提供詳細步驟更有用！

一句话概括：大型語言模型學習數學時，強化學習並非教它刷題，而是教它如何「領悟訣竅」和查詢資料，有時給它標準答案的中間步驟，還不如讓它自己摸索。（原論文題目見文末，發布於2025年6月5日，由University of Wisconsin-Madison、Salesforce AI Research聯合發表在arXiv上）

第一階段：識別核心概念

論文的動機分析

目前，我們都知道運用強化學習（Reinforcement Learning, RL）來「訓練」大型語言模型（LLM）進行數學推理，效果非常好，模型在各種數學競賽榜單上取得了驚人的高分。然而，這裡存在一個「知其然，而不知其所以然」的問題。

論文作者的動機正源於此。他們發現，大部分研究只是簡單地報告模型在某個數據集上的準確率提升了多少，例如從50%提升到了80%。這就像我們看到一個學生學業成績變好了，但我們並不知道他究竟是解題思路更清晰了、基礎知識更紮實了，還是審題能力變強了。這種只看最終分數的「黑箱式」評估，無法告訴我們RL到底在哪個環節、以何種方式增強了模型的推理能力。

因此，這篇論文的核心動機是：打開強化學習提升LLM推理能力的「黑箱」，精細化地、可度量地分析出RL到底在哪些具體能力維度上帶來了提升，以及這些提升是如何發生的。

論文主要貢獻點分析

• 提出SPARKLE分析框架：這是論文最核心的貢獻。它不再滿足於單一的準確率指標，而是從三個關鍵維度來「剖析」模型的推理過程：

• 規劃遵循與執行（Plan-following and execution）：模型是擅長自己規劃解題步驟，還是更擅長執行別人給定的計畫？

• 知識運用（Knowledge utilization）：模型是自己記憶的知識庫不全，還是有了知識（例如公式、定理）卻不知道如何應用？

• 問題分解（Problem decomposition）：模型能將一個複雜的大問題拆解成一系列小問題，並逐一解決嗎？

• 建構SPARKLE基準測試集：為了讓SPARKLE框架能落地，作者們對現有的數學問題數據集進行了「增強」，為每個問題都人工標註了上述三個維度的輔助資訊：高層解題計畫、所需的背景知識、以及分解後的子問題序列。這創建了一個獨一無二的、可用於精細化分析的「試煉場」。

• 提出多階段RL訓練策略：基於對問題難度的分析，作者設計了一種更高效的RL訓練流程。它首先在大量不同難度的問題上進行普適性訓練（第一階段），然後在精選出的「難題」上進行專項攻堅訓練（第二階段），並且在訓練難題時，會給模型一些「提示」（部分解題步驟），以幫助模型從這些難題中有效學習。

• 支撐創新的關鍵技術/方法：

• SPARKLE框架：透過設計三種不同的測試模式（給計畫/不給計畫，給知識/不給知識，解完整問題/解子問題）來隔離和評估模型在三個維度上的能力。

• 多階段RL訓練：採用了GRPO（Group Relative Policy Optimization）演算法，並結合了課程學習（Curriculum Learning）的思想，先易後難，並對難題進行「增強」處理（提供部分解題方案作為上下文）。

• 顯著性的結果與意義：這篇論文最重要的結果是一些反直覺但極具啟發性的發現，這些發現比單純的SOTA（State-of-the-Art）分數更有價值：

• 「好心卻幫倒忙」的外部計畫：對於基礎模型而言，給它一個詳細的解題計畫，反而會降低它的表現。這表明模型有自己的一套「思維定式」，強行讓它遵循外部邏輯會適得其反。而經過RL訓練的模型則能更好地適應外部計畫，甚至從中受益，展現出更高的「靈活性」。

• RL的核心是「學會如何學習」：RL訓練後的模型，在得到外部知識（如公式）時，性能提升非常顯著。這說明RL不僅是讓模型「記住」更多知識，更是教會了模型一種「如何整合並運用新資訊」的能力。

• 「眼高手低」的子問題解決能力：即使是強大的RL模型，雖然能解決複雜的整體問題，但在被要求按部就班地解決所有分解後的子問題時，成功率卻急劇下降。這揭示了當前模型推理能力的瓶頸：它們可能依賴一種「直覺式」的整體性推理，而非嚴謹的、步步為營的邏輯推演。

理解難點識別

• 核心概念：SPARKLE分析框架的設計思想是理解整篇論文的鑰匙。讀者需要明白為什麼這三個軸（規劃、知識、分解）是關鍵，以及作者是如何透過實驗設計來獨立評估每一個軸的。

• 最具挑戰性的部分：最具挑戰性的不是某個複雜的數學公式，而是理解實驗設計背後的邏輯。例如，如何理解「給模型提供計畫反而性能下降」這一現象背後的含義，並將其與RL的作用聯繫起來。此外，GRPO演算法作為訓練的核心，其目標函數也需要一定的理解。

• 需重點解釋的核心概念：我們將重點解釋SPARKLE框架的三個分析維度，並透過一個生動的比喻來闡釋它們。同時，我們將深入解析GRPO演算法，因為它是在幕後驅動模型進化的「引擎」。

概念依賴關係

1. 切入點：最佳的切入點是解釋為什麼需要SPARKLE框架（即傳統準確率評估的局限性）。

2. 依賴關係：

• 理解了SPARKLE框架，才能明白論文中各種圖表（如Figure 3, 4, 5）的意義。

• SPARKLE框架揭示了模型的特定弱點（如知識整合、難題處理）。

• 這些發現又啟發了多階段RL訓練策略的設計，該策略旨在有針對性地解決這些弱點。

• GRPO演算法是實現這個訓練策略的具體技術手段。因此，我們的解釋順序將是：SPARKLE框架 -> GRPO演算法 -> 多階段訓練流程。

第二階段：深入解釋核心概念

設計生活化比喻

想像一下，我們正在訓練一位實習廚師（Base LLM），目標是讓他成長為一位能獨立製作頂級法式大餐（如「惠靈頓牛排」）的米其林大廚（RL-tuned LLM）。而我們，就是那位經驗豐富的烹飪教練（RL訓練過程）。

傳統的評估方法就像是只品嚐最終的成品牛排，然後打一個「好吃」或「不好吃」的分數（對應準確率）。但作為教練，我們想知道實習廚師到底在哪方面有欠缺，以便因材施教。

這時，我們就引入了SPARKLE烹飪分析法，從三個維度來「剖析」他的廚藝：

1. 規劃與執行能力（Plan-following）：

• 測試A：給他一張非常詳細的菜譜（外部計畫），讓他嚴格照做。

• 測試B：只告訴他要做惠靈頓牛排，讓他憑藉自己的理解和記憶去發揮（內部計畫）。

• 對比分析：如果他照著菜譜反而手忙腳亂，成品更差，說明他還不適應或者不理解菜譜的邏輯，更習慣於自己那套不成熟的流程。如果他能很好地執行菜譜，說明他執行力強但缺乏規劃能力。

2. 知識運用能力（Knowledge utilization）：

• 在旁邊放一本《烹飪術語大全》（外部知識），裡面解釋了什麼是「美拉德反應」、「酥皮起酥原理」等。

• 測試：觀察他在烹飪時，是否會主動查閱、理解並應用這些知識來改進自己的操作。例如，他是否理解了要高溫快煎才能鎖住肉汁（美拉德反應）。

• 分析：如果他有了這本書但做出來的牛排還是很柴，說明他知識整合能力差。如果他能用好這本書，說明他「會學習」。

3. 問題分解能力（Problem decomposition）：

• 我們將製作惠靈頓牛排這道大菜，分解成幾個獨立的子任務（Subproblems）：1）準備蘑菇醬，2）煎牛里脊，3）擀酥皮，4）包裹並烘烤。

• 測試：讓他分別完成這四個子任務，我們對每個半成品都進行品嚐和打分。

• 分析：可能他蘑菇醬炒得完美，牛排也煎得恰到好處，但最後包裹時酥皮破了，或者烘烤的火候不對。這說明他單個步驟可能沒問題，但將它們無縫銜接並完成最終目標的能力有欠缺。

建立比喻與實際技術的對應關係

• 比喻中的元素：實習廚師；實際技術概念：基礎大型語言模型 (Base LLM)；合理性解釋：初始狀態，能力有限，需要訓練和指導。

• 比喻中的元素：米其林大廚；實際技術概念：經RL微調的模型 (RL-tuned LLM)；合理性解釋：經過大量實踐和回饋，能力得到顯著提升。

• 比喻中的元素：烹飪教練；實際技術概念：強化學習 (RL) 訓練過程；合理性解釋：透過獎勵（好吃）和懲罰（難吃）來指導模型優化。

• 比喻中的元素：最終菜品味道；實際技術概念：最終答案的準確率；合理性解釋：這是最直接、但也是最粗糙的評價指標。

• 比喻中的元素：詳細菜譜；實際技術概念：外部規劃 (Planning Skeleton)；合理性解釋：提供了解決問題的宏觀步驟。

• 比喻中的元素：《烹飪術語大全》；實際技術概念：外部知識 (Knowledge Components)；合理性解釋：提供了解決問題所需的定理、公式等背景知識。

• 比喻中的元素：分步製作任務；實際技術概念：子問題鏈 (Chain of Subproblems)；合理性解釋：將一個複雜問題分解成多個可獨立解決的小問題。

• 比喻中的元素：教練的指導方法；實際技術概念：GRPO 演算法；合理性解釋：這是教練用來指導廚師進步的具體、量化的方法論。

深入技術細節：GRPO演算法

現在，我們來看看「烹飪教練」具體是如何指導「實習廚師」的。他用的方法就是GRPO。教練會讓廚師對一個菜品（一個數學問題）做好幾次嘗試（生成多個解法），然後根據這些嘗試的好壞來調整教學策略。

其核心是優化以下目標函數。具體的數學形式因格式限制無法展示，但可以概括為：

符號替換版：對模型進行優化的總目標 = 綜合考慮所有問題和所有嘗試（單個問題上所有嘗試的平均提升）

單個問題上所有嘗試的平均提升 = 對每一次嘗試的每一個步驟進行評估（取以下兩個值中較小的一個（「新模型的傾向性」 × 「這個步驟的優勢」 , 「被限制在小範圍內的傾向性」 × 「這個步驟的優勢」）） - 防止模型跑偏的懲罰項

逐一解釋：

• π_θ(...) / π_{θ_old}(...) (新模型的傾向性)：

• 數學含義：新模型 π_θ 生成某個步驟的機率，與舊模型生成該步驟的機率之比。

• 廚師比喻：教練觀察到實習廚師在某次嘗試中「先放鹽後放油」，如果這個做法帶來了很好的效果，教練希望新一代的你（新模型）更傾向於「先放鹽後放油」（機率比值 > 1）。

• Â_{i,t} (這個步驟的優勢)：

• 數學含義：Advantage estimate，衡量在目前狀態下，採取某個動作（生成某個詞）比平均水準好多少。如果一個解法最終得分很高，那麼它包含的每個步驟都會獲得正向的「優勢」分數。

• 廚師比喻：對於一次成功的烹飪，其中「高溫快煎」這個步驟被認為是關鍵。那麼「高溫快煎」這個操作就獲得了很高的優勢值。教練會重點表揚和強化這個行為。

• clip(...) (被限制在小範圍內的傾向性)：

• 數學含義：將機率比值限制在一個小區間內。

• 廚師比喻：教練雖然鼓勵創新，但也怕實習廚師步子邁得太大扯著蛋。如果廚師某次嘗試突然從法餐跳到分子料理，即使效果驚豔，教練也會說：「很好，但我們現在別變得那麼激進，慢慢來。」這可以防止模型更新過快導致性能崩潰。min(...) 的作用就是採取保守策略，當你想大步前進時，clip項會把你拉回來，讓你走得更穩。

• β * D_KL[...] (防止模型跑偏的懲罰項)：

• 數學含義：KL散度，衡量新模型 π_θ 的整體策略與一個可靠的參考模型（通常是訓練前的SFT模型）之間的差異。差異越大，懲罰越大。

• 廚師比喻：教練允許廚師發展自己的風格，但不能完全脫離法餐的基本法度。這個懲罰項就像是在說：「你可以自由發揮，但你做的菜必須還能被認出是惠靈頓牛排，不能變成一個完全不相干的東西。」

將技術細節與比喻相互映射

• 技術步驟在比喻中的體現：整個GRPO過程，就像教練（RL演算法）讓廚師（LLM）針對一個菜譜（問題）做多次嘗試。然後，教練品嚐每一份成品（計算Reward），並分析出哪些步驟是「神來之筆」。

• 比喻如何幫助理解技術細節：比喻將抽象的數學符號，如機率比、優勢函數、KL散度，轉化為具體的、有動機的行為，如「鼓勵好操作」、「防止跑偏」、「保持基本功」。這使得演算法背後的設計哲學變得直觀易懂。

總結

• 核心聯繫：SPARKLE框架就像一套精密的診斷工具，用來找出實習廚師的「能力短板」；而GRPO演算法則是教練手中那套行之有效的教學方法，用來彌補這些短板，並最終將實習廚師培養成米其林大廚。

• 關鍵數學原理總結：GRPO的精髓在於在鼓勵探索（基於優勢 Advantage）和保持穩定（基於 clip 和 KL 散度）之間找到一個最佳平衡點。它透過比較一組嘗試的好壞來產生學習訊號，這比單一樣本學習更穩定、更高效。

第三階段：詳細說明流程步驟

流程一：使用SPARKLE框架進行模型能力剖析

這個流程的目標是評估一個已經存在的LLM。首先，向模型輸入一個來自SPARKLE基準測試集的問題（包含問題本身、標準答案、規劃、知識、子問題）。

處理流程：

• 基準測試（無輔助資訊）：輸入僅有問題描述，讓LLM生成解題思路和最終答案，得到模型的原始解題性能作為基線。

• 軸1評估：規劃遵循與執行能力：輸入問題描述和規劃骨架，讓LLM在指引下解決問題。對比基線，若性能提升則執行能力強，若下降則外部計畫有干擾。

• 軸2評估：知識運用能力：輸入問題描述和相關知識點。對比基線，若性能大幅提升，則瓶頸在知識，否則在於應用能力。

• 軸3評估：問題分解能力：這是一個序貫過程，逐一輸入子問題及其前序答案，讓模型逐步求解。最終計算子問題成功率（SSR）。對比基線，若SSR遠低於整體解決率，說明模型不擅長分步式邏輯推理。

最終輸出：一個關於該LLM在規劃、知識、分解三個維度上的詳細能力畫像。

流程二：多階段RL訓練流程

這個流程的目標是訓練出一個更強大的推理模型。

• 輸入：一個基礎LLM（如Qwen-2.5-Math-7B），一個包含40K數學問題的大型訓練集，一個包含5.7K難題的增強訓練集。

• 處理流程：分為兩個階段。

• 階段一：通用能力RL微調：在40K通用問題上進行訓練。對每個問題，模型生成多個解法，透過獎勵函數打分，並使用GRPO演算法更新模型。此階段旨在建立強大的基礎推理能力，輸出模型 SparkleRL-Stage 1。

• 階段二：難題攻堅RL微調：在5.7K難題上繼續訓練 SparkleRL-Stage 1 模型。這些難題被增強處理，即輸入時會隨機附帶0到4個解題「提示塊」。訓練過程與階段一類似，但會用更大的KL散度懲罰來防止模型「忘記」通用能力。此階段旨在特別強化對高難度問題的解決能力，輸出最終模型 SparkleRL-Stage 2-aug。

第四階段：實驗設計與驗證分析

主實驗設計解讀：核心論點的驗證

核心主張驗證：論文的核心主張是：1）他們提出的多階段RL訓練是有效的，能顯著提升模型推理能力；2）專門針對難題的增強訓練（SparkleRL-Stage 2-aug）能帶來額外的性能提升。

實驗設計分析：

• 數據集：作者選擇了AIME24, AMC23, MATH500, GSM8K, OlympiadBench。這個選擇非常合理，因為這些數據集涵蓋了從小學到國際奧賽的完整難度梯度，這對於驗證關於「難題」的假設至關重要。

• 評估指標：Avg@8。即模型生成8個答案，只要其中有一個是正確的，就算通過。這個指標比單次嘗試（pass@1）更能衡量模型的核心推理能力，是當前領域的公認標準。

• 基線方法：實驗設置了Qwen-2.5-Math-7B-Base（未經訓練）作為外部基線，以及SparkleRL-Stage 1（僅通用訓練）作為內部基線。這種設計可以非常清晰地剝離出每個訓練階段帶來的具體性能增益。

結果與結論：

• Table 1 的結果清晰地支撐了核心主張。SparkleRL-Stage 1 相比 Base 模型在所有數據集上都有巨大提升（平均從35.23%提升到65.01%），證明了通用RL訓練的有效性。

• 更關鍵的是，SparkleRL-Stage 2-aug 模型在所有模型中取得了最佳的平均性能（67.03%），尤其是在最難的AIME24上達到了50.42%的驚人分數。這直接證明了論文的第二個核心主張：使用帶有部分解題提示的難題進行專項訓練，可以進一步壓榨模型的性能潛力。

消融實驗分析：內部組件的貢獻

這裡的「消融實驗」非常巧妙，它是透過SPARKLE框架的三個分析軸來實現的，可以稱之為「分析性消融」，即透過控制輸入資訊，來「消融」模型在某個能力維度上的需求。

• 消融組件1：自主規劃能力 (Figure 3)

• 如何消融：透過向模型提供一個完整的規劃骨架，來「移除」模型自己進行宏觀規劃的需要。

• 結果與證明：實驗發現，對於Base模型，提供規劃後性能反而普遍下降。這證明了自主規劃是其固有推理路徑的一部分，外部干擾是有害的。而RL模型性能穩定，說明RL訓練出的模型規劃能力更靈活、更強大，能兼容甚至利用外部規劃。這定量地證明了RL在「規劃靈活性」上的巨大貢獻。

• 消融組件2：知識檢索能力 (Figure 4)

• 如何消融：透過向模型提供解題所需的全部知識點，來「移除」模型自己回憶或檢索知識的需要。

• 結果與證明：Base模型在獲得知識後性能依然下降（平均-5.4%），而RL模型則性能顯著提升（平均+4.2%）。這個鮮明的對比有力地證明了，RL訓練的關鍵貢獻之一，是賦予了模型整合和應用外部知識的能力，而不僅僅是記憶知識。這個模組（知識整合能力）是RL模型獨有的、不可替代的優勢。

• 消融組件3：整體推理能力 vs. 分步推理 (Figure 5)

• 如何消融：將問題分解成子問題鏈，迫使模型一步一步解決，從而「移除」其進行跳躍式、整體性推理的可能性。

• 結果與證明：所有模型（包括最強的RL模型）在解決所有子問題上的成功率（SSR）都遠低於解決原始問題的成功率。這證明了模型的成功並非建立在完美的、可分解的邏輯鏈上。這揭示了模型能力的一個重要局限性，證明了模型的「高層整合推理」是一個不可或缺的、但目前還很神秘的組件。

深度/創新性實驗剖析：洞察方法的內在特性

最巧妙的實驗：按難度分層的性能增益分析 (Figure 6)

• 實驗目的：這個實驗旨在回答一個更深層次的問題：提供「規劃」和「知識」這兩種幫助，在哪種難度的問題上最有效？這能揭示模型在不同挑戰水平下的核心瓶頸。

• 實驗設計：作者將測試集按難度分為10個等級。然後，對每個等級，分別計算提供「規劃」和「知識」後，相較於無幫助時的性能變化（pass@1的增益或損失）。這就像對不同水平的病人使用兩種藥物，觀察療效。

• 實驗結論與價值：

• 規劃的影響（Figure 6a）：提供規劃的幫助（或傷害）與問題難度關係不大，曲線比較平坦。

• 知識的影響（Figure 6b）：提供知識的幫助隨著問題難度的增加而急劇增大。在難度為10的問題上，給RL模型提供知識能帶來高達100%的性能增益！

• 深刻洞見：這個結果揭示了一個至關重要的內在特性：對於簡單問題，模型可能什麼都知道；但對於真正困難的問題，模型的瓶頸不是「不知道怎麼做（規劃）」，而是「缺少必要的知識」。這個發現對於未來的研究方向有極強的指導意義，例如，對於難題，與其優化模型的規劃能力，不如為其配備一個強大的知識檢索系統（如RAG）來得更有效。這個實驗堪稱神來之筆，它將論文的分析從「是什麼」提升到了「為什麼」和「該怎麼辦」的層面。

本文題目：Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning

RL反直覺研究：直接給大型語言模型餵答案比提供詳細步驟更有用！

分享短網址