LLM 結合 RL 遭質疑：刻意使用錯誤獎勵，數學基準竟也顯著提升，AI 圈為之震驚

內容來源：機器之心

編輯：澤南、+0

我們訓練了這麼久，到底訓練了什麼？

這是今年最「荒謬」的一篇論文。

這篇論文一發表，所有大型語言模型（LLM）結合強化學習（RL）的訓練方式都將受到質疑其意義何在。

這週二，一篇來自華盛頓大學、艾倫人工智慧實驗室、柏克萊的論文引爆了 AI 界。

論文：https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

專案連結：https://github.com/ruixin31/Rethink_RLVR/tree/main

作者們駁斥了近期大型模型領域盛行的強化學習方式，他們發現：

即使使用虛假獎勵來訓練 Qwen2.5-Math-7B 模型，也能提升 MATH-500 的分數；如果是隨機獎勵，分數可提升 21%；如果是錯誤獎勵，分數可提升 25%（真實獎勵則能提升 28.8%）。

這究竟是怎麼一回事？大型模型的訓練技巧真的有效嗎？這項研究的作者撰寫了一篇部落格進行說明：

質疑 RLVR 傳統觀點

近來，可驗證獎勵強化學習（RLVR）已成為增強大型語言模型（LLM）推理能力的標準方法。傳統觀點認為，高品質的監督訊號對於有效的 RLVR 訓練至關重要。然而，近期研究挑戰了這一假設，顯示即使使用 RLVR 對單一樣本或無監督樣本進行訓練，Qwen-Math 模型仍然能取得顯著進展。

然而，我們不禁要問：單一樣本或無監督 RLVR 中的訓練訊號究竟從何而來？為了提供有意義的 RLVR 訓練訊號，獎勵的最低要求是什麼？

我們的發現令人震驚。

虛假獎勵，即使是隨機或錯誤的，也能顯著提升 Qwen-Math 的表現

我們發現，RLVR 可以透過所謂的「虛假獎勵」—— 這些訊號提供極少甚至誤導性的指引，大幅提升數學推理能力。

以下是我們嘗試過的一些有趣的獎勵類型：

格式獎勵：僅因答案包含 \boxed { } 而給予獎勵——因答案包含 \boxed {} 運算式而給予獎勵。此格式也是系統提供給模型的提示中指定的格式，因而提供了一種「提示遵循」的概念。
隨機獎勵：完全任意的回饋——字面上的意思：1 if (random.random () < rate) else 0
錯誤獎勵：刻意設定錯誤的監督訊號——獲取錯誤但看似可信標籤的步驟：

依頻率對模型的推演結果進行排序
取最常見的答案
如果答案正確，則丟棄樣本
在模型最常見答案錯誤的子集上進行訓練，並將該特定答案作為訓練標籤。

我們也與文獻中研究過的其他一些弱獎勵進行了比較：

多數決獎勵：將多數決答案作為標籤。
單樣本強化學習：在單一語料上進行標準強化學習虛擬學習 (RLVR)。

RLVR 在不同訓練訊號上進行 150 步訓練後的 MATH-500 準確度。我們證明，即使是「虛假獎勵」也能在 Qwen 模型上帶來顯著的 MATH-500 提升。需要注意的是，這些獎勵訊號不適用於其他模型，例如 Llama3 和 OLMo2，因為它們的推理先驗有所不同。

從 AI 社群廣泛用於強化學習的模型 Qwen2.5-Math-7B 開始，我們在多個數學推理基準測試中取得了與基於真實值監督模型相當的效能提升。

這項發現直接挑戰了強化學習在提升 AI 推理能力方面所扮演角色的現有理解。

有反轉：虛假獎勵並非對所有模型都有效

當我們將實驗擴展到其他未專門針對數學推理進行最佳化的模型系列（包括 Qwen2.5-Base、Olmo2 和 Llama3 變體）時，觀察到了一些有趣的現象：

與 Qwen-Math 不同，其他模型在「虛假獎勵」方面的表現非常有限。

（我們主要討論 MATH-500 上的表現，有關 AMC、AIME 2024，尤其是訓練資料截止日期之後的 AIME 2025 測試集的更多結果，請參閱完整論文。）

首先對真實標籤進行健全性檢查。它提升了所有模型的效能。在使用真實標籤進行簡單的 GRPO 時，我們觀察到所有模型系列都獲得了改進，其中 Qwen 和 Qwen-Math 的改進幅度大於 Llama 和 OLMo 模型。
多數決結果如何？先前的研究已提出提升模型一致性的方法。我們發現，這確實對大多數模型有益，但對 OLMo 卻無益。
如果我們只在回應包含 \boxed {} 時才給予獎勵會怎麼樣？實驗發現，僅僅訓練模型生成可解析的結果，就能在 Qwen 模型上獲得巨大的效能提升——Qwen2.5-1.5B 的絕對提升高達 49.9%。但這種獎勵會損害 Llama3.2-3B-Instruct 和 OLMo2-SFT-7B 的效能，分別降低 7.3% 和 5.3%。有趣的是，效能在達到峰值後開始逐漸下降。我們假設這是因為模型已經「學習」了格式，因此進一步的訓練並不能為其提供更多資訊。
錯誤的獎勵——事情開始變得有趣起來。我們發現，它仍然顯著地提升了 Qwen 模型的效能，但對 Llama 模型沒有影響，並且損害了 OLMo-Base 和 OLMo-SFT 模型。
最後，如果我們不觀察模型本身，直接隨機地將獎勵 0 或 1 分配給模型，結果會怎麼樣？這仍然有效嗎？你猜對了，對於 Qwen 模型有效，但對於其他模型無效。

請注意，隨機獎勵在 Qwen2.5-1.5B 中不起作用，並且僅在約 120 步後才在 Qwen2.5-7B 中開始起作用。基於這一觀察，我們對其進行了更長時間的訓練（300 步），發現與其他帶訊號的獎勵相比，這些模型的收斂水準較低。

這種依賴於架構的行為表明，RLVR 的有效性更多地取決於預先存在的模型能力，而不是監督訊號的品質。

對未來研究的實踐性警示

Qwen 模型憑藉其開源權重和在推理任務上的高效能，已成為開源社群中 RLVR 研究實際上首選的模型——近期一系列關於 RLVR 的研究都是基於以 Qwen 為中心的實驗得出結論的（請參閱原論文以獲取列表）。

然而，我們發現近期有兩項研究指出，使用弱監督的 RLVR 在 Qwen 模型上表現良好，但這些結論無法推廣到其他模型家族。

測試時強化學習：該論文提出在測試樣本上進行 RLVR，並使用同策略 (on-policy) 下多數決 (majority-voted) 的答案來計算獎勵。
單樣本強化學習：這篇論文指出，僅用一個樣本進行 RLVR 就可以達到與在標準訓練集上進行 RLVR 相當的效能。

我們在多種基礎模型上評估了近期提出的兩種弱監督 RL 方法——TTRL 和單樣本 RL。我們發現，這些提出的訓練獎勵在 Qwen 模型上能夠持續發揮作用。然而，除了少數例外，這些相同的訊號在其他模型家族上通常無法帶來效益，這與我們使用虛假獎勵進行訓練時觀察到的有限泛化能力相呼應。

因此，我們建議未來的 RLVR 研究應該在其他模型上進行驗證。

是什麼讓帶有虛假獎勵的 RLVR 生效？

現在，你可能會好奇——為什麼會發生這種情況？為什麼所有這些虛假獎勵對 Qwen-Math 模型都有效？魔法究竟在哪裡？

總體而言，我們假設 RLVR 訓練結果的差異是源於每個模型在預訓練過程中學到的特定推理策略不同所致。特別是，某些策略可能很容易被 RLVR 引出（elicited），而其他策略則可能更難顯現，或者根本不存在。

我們識別出了一種這樣的預存策略：生成程式碼以輔助數學推理，Qwen-Math 能夠有效利用它，而其他模型家族則利用得較少。我們將程式碼推理作為一項具啟發性的案例研究來進行調查，但這並非完整的解釋：我們觀察到其他一些行為也很容易被引出，並且經常與效能相關，例如「不重複」。更多詳情請參閱論文。

一個具啟發性的案例研究：程式碼推理

透過仔細分析，我們發現了一個關鍵洞察：即使在進行 RLVR 訓練之前，Qwen-Math 也有 65.0% 的時間會生成 Python 程式碼來解決數學問題。更令人驚訝的是，在沒有程式碼執行器的情況下，它經常能生成正確的程式碼輸出以及問題的正確答案。

然而，這種頻繁且高品質的程式碼推理能力在其他模型中並不存在。

以下是一個 Qwen-Math-7B 如何能精確預測到小數點後 15 位——比 iPhone 計算機還多一位的例子。

Qwen2.5-Math-7B 的程式碼推理回應範例。該問題從 MATH-500 測試集中隨機選取。請注意，程式碼及其執行結果均由 Qwen2.5-Math-7B 自回歸生成。並未向模型提供外部程式碼解釋器。

在應用 RLVR 之後，無論獎勵品質如何，這種程式碼推理的頻率平均增加到 90% 以上。

這種推理策略的轉變——而非獲取新的推理技能——似乎是驅動效能提升的原因。Qwen 模型透過 RLVR 訓練學會了使用更多的程式碼推理。從語言推理到程式碼推理的轉變有效地提升了效能。

對於 Qwen-Math 和 Qwen 模型而言，程式碼頻率與效能高度相關。程式碼越多→正確答案越多，反之亦然。然而，在那些能產生程式碼但無法產生優質程式碼的模型（例如 OLMo2-7B-SFT）中，這種相關性是相反的。

細粒度準確度追蹤——我們僅從選擇正確的推理策略中能獲益多少？

更有趣的是，我們追蹤了那些在 RLVR 前後推理策略發生改變的問題，並分析了效能增益究竟從何而來。我們發現：

虛假獎勵在將模型行為轉換為程式碼推理方面更為積極，並且極少將原本是程式碼推理的行為轉變為自然語言推理。令人印象深刻的是，看起來基於虛假獎勵的 RLVR 做出了正確的選擇——對於那些從自然語言推理切換到程式碼推理的問題，效能急劇提升了約 55%。另一方面，真實標籤獎勵則將自然語言推理的效能提升了 60.2%！下面的流程圖包含了更詳細的說明。

我們進一步量化了每種策略轉換行為對每個模型效能增益的貢獻。看到這一點非常酷：如果一個模型擅長程式碼推理（程式碼準確度 > 語言準確度），RLVR 的增益主要來自於從語言到程式碼推理的轉換；如果一個模型不擅長程式碼推理（程式碼準確度 < 語言準確度），RLVR 的增益則主要來自於從程式碼到語言推理的轉換。

在成功引導模型推理策略的獎勵上平均計算，對整體效能增益的部分貢獻。

基於我們初步觀察到的這些強相關性，我們假設程式碼推理是 Qwen 模型中導致良好數學效能的推理行為之一。

為了驗證我們的假設，我們透過提示和強化學習明確地約束模型生成程式碼推理。我們觀察到，在所有測試的模型中，程式碼推理的頻率與基準效能之間存在強相關性。（相關性的方向取決於特定模型的程式碼品質）。

透過提示誘導程式碼推理

我們僅僅透過提示模型，讓它以「讓我們用 Python 來解決這個問題。」 (Let's solve this using Python) 這句話來開始其回應。這個簡單的做法顯著提升了 Qwen-math 模型的效能，但卻降低了 Llama 和 OLMo 模型的效能。

透過強化學習 (RL) 誘導程式碼推理

鑑於提示實驗的成功，我們設計了一種額外的虛假獎勵：只要模型的回應中包含字串 python，就給予獎勵。這極大地鼓勵了所有模型去使用程式碼推理（在訓練 50 步之後，超過 99% 的回應包含程式碼）。

在下方的圖表中，我們展示了類似的趨勢，但如果我們使用強化學習來訓練模型更多地使用 Python 程式碼，效果會更加顯著。Qwen-Math 和 Qwen2.5-7B 模型的效能得到了提升，而其他模型的效能則有所下降。

但為什麼要隨機？

當我們看到訓練曲線隨著 random.random () < 0.5 產生的獎勵而攀升時，我們感到困惑。完全無意義、毫無資訊的獎勵，又怎能真正促進模型學習呢？

這個悖論促使我們去尋找人工智慧領域的「倫敦色散力」——就像電中性的原子之間仍然神秘地相互吸引一樣。在深入研究 GRPO 後，我們發現裁剪項可能是關鍵。我們透過三種方法對裁剪因子進行了消融研究：

(a) 在損失計算中直接禁用裁剪。
(b) 調整訓練和推演的批量大小，使推演模型與策略保持一致。
(c) 減小推演批量大小以維持等效條件。

方法 (b) 和 (c) 確保每個推演步驟只有一個梯度更新，從而自然地避免了裁剪約束。

在 Qwen2.5-Math-7B 模型上，對 GRPO 中的裁剪項進行消融研究時的效能和程式碼推理頻率。使用帶有裁剪的隨機獎勵進行訓練，會增加程式碼推理模式並提高效能。

在使用標準 GRPO 裁剪的情況下，隨機獎勵為 Qwen2.5-Math-7B 帶來了約 21% 的效能提升，並增加了程式碼推理模式。但是，當我們透過上述三種方法中的任何一種消除裁剪效應時，隨機獎勵並未帶來任何改善。

我們推測這是由於 GRPO 公式本身存在的偏差，我們將在下面詳細說明。在裁剪的作用下，隨機獎勵並非教導模型任務的品質——相反，它們觸發了一種集中效應，使模型專注於其現有的推理模式分佈。當禁用裁剪時，這種集中機制就完全消失了。

啟示與未來工作

虛假獎勵透過放大現有能力起作用：帶有虛假獎勵的 RLVR 可以作為一種機制，來放大和凸顯在預訓練過程中學到的有用推理表示。當提出新的 RLVR 方法時，它們應該審視其帶來的益處是否超越了揭示這些表面模式的層面，以研究真正學習發生的程度。
在更多模型家族上測試關於 RL 方法的主張：鑑於不同的模型家族具有不同的預存能力，我們建議未來的 RLVR 研究或許應該在多樣化的模型上進行驗證，而不是僅僅依賴於單一的「事實標準」選擇，因為我們已經證明，即使使用完全虛假的獎勵訊號，也很容易在 Qwen 模型上獲得明顯的效能增益。
首先了解你的模型：我們應該更加意識到，在預訓練期間學到的推理模式會嚴重影響下游的 RLVR 訓練行為——無論是在設計預訓練方法時，還是在使用預訓練模型進行 RLVR 時，都應如此。

參考內容：

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

LLM 結合 RL 遭質疑：刻意使用錯誤獎勵，數學基準竟也顯著提升，AI 圈為之震驚

分享短網址