普林斯頓陳丹琦組新作:RLHF難支撐,RLVR有邊界?RLMT開闢第三條路

圖片

在大型語言模型的演進史上,RLHF(Reinforcement Learning with Human Feedback,人類回饋強化學習)無疑是最具里程碑意義的典範之一:它讓模型從「機械對話機」蛻變為「人類偏好的鏡子」。但 RLHF 也有致命的弱點——它並沒有要求模型真正去推理。因此,我們常常看到模型給出的答案「似是而非」,表面上令人滿意,實質上邏輯空洞。

另一方面,近兩年興起的 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵強化學習)在數學、程式碼等可驗證任務上展現了驚人的威力。它要求模型必須先寫出明確的推理軌跡,再用規則判定答案對錯。這讓模型在「解題」上表現優異,卻難以推廣到開放式任務,因為這些情境裡並沒有唯一的「對錯」標準。

那麼,能否將 RLHF 的「神」與 RLVR 的「形」結合起來?讓模型既學會明確思考,又能生成符合人類偏好的回答?

普林斯頓大學陳丹琦團隊的最新論文給出了答案:RLMT(Reinforcement Learning with Model-rewarded Thinking,模型獎勵思考強化學習)。它強制模型在回答前「寫下長鏈推理」,再用偏好獎勵模型來評斷最終答案。

實驗結果顯示:一個 8B 模型,憑藉 RLMT,就能在聊天和創作任務上逼近甚至超越 GPT-4o 和 Claude-3.7 Sonnet。

圖片

論文題目:

Language Models that Think, Chat Better

論文連結:

https://arxiv.org/pdf/2509.20357

程式碼連結:

https://github.com/princeton-pli/RLMT

這不僅是技術上的突破,更是典範上的轉折。接下來,我們將沿著論文的邏輯主線,逐步解析 RLMT 的核心思想與實驗發現。

圖片

RLMT的形與神

如果將 RLHF 看作「人類偏好的鏡子」,RLVR 看作「可驗證推理的鋼尺」,那麼 RLMT 就是試圖將兩者合一:既要模型學會明確地思考,又要它的回答能符合人類的期望。

在 RLMT 中,模型被強制先寫下一段思考軌跡 z,然後再產出最終回答 y。不同於 RLVR 那種用嚴格校驗器來判定「對錯」,這裡的評估者是一個偏好獎勵模型 r。因此,訓練目標就變成了:

圖片

為了更好理解,我們先回顧兩條「父路線」:

RLHF 的目標函數:

圖片

RLVR 的目標函數:

圖片

對比可見:RLMT 延續了 RLVR 的「先想後答」生成方式,但最終獎勵機制不是硬性的對錯判準,而是 RLHF 風格的人類偏好模型。這使得模型必須生成推理鏈條,但又能在開放域情境裡保持靈活。

圖 1 呈現了三者的結構差異:RLHF 直接使用偏好獎勵,RLVR 強調嚴格驗證,而 RLMT 則將「明確思考」與「偏好評分」結合在一起。

圖片

▲ 圖1. RLMT框架結合了RLVR的顯式思考流程與RLHF的偏好獎勵機制。

圖 2 提供了 RLMT 的案例:面對開放式問題,模型會先寫下一段核對清單或草稿式規劃,再生成最終回答。

圖片

▲ 圖2. RLMT讓模型在回答前顯式生成推理軌跡,思維風格從checklist向迭代修訂轉變。

有效成分拆解

論文的消融實驗表明,RLMT 的成功並非單一創新,而是多重因素疊加的結果:

  • 獎勵模型的強度是關鍵基石。作者使用了 Skywork 系列獎勵模型,並發現當獎勵模型更強時,RLMT 的表現顯著更好;反之,弱獎勵模型會導致整體效能下滑。

  • 提示分佈比資料規模更重要。相比堆砌大規模指令資料,選擇更貼近真實聊天語境的 WildChat-IF 子集(約 7.5k 樣本)反而帶來了更穩定的收益。

  • 演算法選擇並非唯一要素。在 GRPO、PPO、DPO 三種最佳化器下,RLMT 都能有效運行,且 GRPO 效果最佳,但整體差異並非決定性。

這些因素共同確保了 RLMT 不僅在數學公式上「看起來合理」,更在工程實踐中「跑得順暢」。

圖片

從驗證到突破

明確思考,是否真的有用?

論文的第一個問題是:如果強制模型「先思考再回答」,到底有沒有效益?

答案寫在表 1 的上半部分。同樣是 8B 模型,RLMT 在幾乎所有開放域基準上都比 RLHF 高出 1.5–4 分。尤其是 WildBench 和 AlpacaEval2,提升最為明顯。這證明「明確思考」不是負擔,而是助力。

圖片

▲ 表1. 上半部分中,RLMT在WB、AE2、CWv3等任務上明顯超越RLHF。

從「小模型」到「大對手」

表 2 呈現了 RLMT 8B 模型與 GPT-4o、Claude-3.7 Sonnet 的對比。在 WB 和 AE2 上,8B-RLMT 不僅超越 GPT-4o,還短暫反超 Claude。雖然在 AH2 和 CWv3 上仍有差距,但整體平均分 54.1,已比 GPT-4o(53.2)更高。

這說明,RLMT 讓小模型第一次具備了與旗艦商用模型「一較高下」的可能性。

圖片

▲ 表2. 8B-RLMT在部分任務上實現對GPT-4o、Claude的超越。

數學邏輯 ≠ 通用推理

圖 3 揭示:僅在數學領域訓練出來的 RLVR 模型,遷移到開放域時效果幾乎失效;而 RLMT 在 WildBench 等任務上表現穩定。

邏輯很清楚:推理鏈條需要配合適當的獎勵訊號。單純可驗證的「對錯」無法推廣到開放式情境。

圖片

▲ 圖3. 數學域RLVR模型在WildBench上表現不佳,而RLMT保持優勢。

如果連SFT都跳過?

表 1 的下半部分給出答案:Zero-RLMT。

  • 在 Qwen-2.5-7B 上,Zero-RLMT 平均分 36.4,超過 Instruct 的 35.0。

  • 在 Llama-3.1-8B 上,總分略低(28.7 vs 30.8),但在聊天能力(AvgChat)上反超 5.5 分。

這說明 RLMT 的關鍵並不依賴繁重的 SFT,即使從零開始,它依然能成功運行。

圖片

▲ 表1. 下半部分中,Zero-RLMT在Qwen上全面超越Instruct,在Llama上聊天能力更強。

演算法選擇只是細節

表 3 顯示:無論是 DPO、PPO 還是 GRPO,RLMT 都能穩定超越 RLHF。差異在於 GRPO 最佳,比 PPO 高 1–3 分,比 DPO 高約 5 分。但核心增益來自「明確思考 + 偏好獎勵」,而不是具體最佳化器。

圖片

▲ 表3. GRPO效果最佳,但RLMT在不同最佳化器下都成立。

消融實驗:驗證哪些因素真正關鍵

在方法部分,作者曾提出「有效成分假設」:獎勵模型的強弱、訓練提示分佈的品質,以及暖啟動的來源,可能決定最終效能。

表 4 的消融實驗正好從三個角度驗證:

  • Prompt mixture(提示混合):結果顯示,WildChat-IF 子集效果最佳,比 UltraFeedback 或隨機混合更能提升效能。這印證了前文的觀點:相比資料規模,訓練分佈的「貼合度」更關鍵。

  • Warm-start source(暖啟動來源):這裡作者沒有使用 Gemini-2.5,而是採用 GPT-4.1-mini 生成的 SFT 資料來做預熱。結果表明,即使換成 GPT-4.1-mini,RLMT 依然能成功運行,並保持與原始設定類似的趨勢。這說明暖啟動的來源並不是決定性因素。

  • Reward model 強弱(獎勵模型強弱):Skywork-V2 顯著優於 V1 和 ArmoRM。強獎勵模型不僅提升聊天任務分數,還能減少在非聊天任務上的效能下滑。

換句話說,表 4 提供了對前文「有效成分拆解」的一次 實證檢驗:獎勵模型和提示分佈才是最重要的槓桿,而暖啟動來源和最佳化演算法只是細節。

圖片

▲ 表4. 消融實驗印證獎勵模型和提示分佈才是RLMT的真正槓桿。

思維風格的蛻變

圖 4 顯示:RLMT 模型逐漸學會「設定約束—區分主題—迭代修訂」的推理風格,而非核對清單式羅列。

圖片

▲ 圖4. RLMT讓模型從「線性checklist」遷移到「迭代規劃+修訂」的思維風格。

圖 5 則揭示:隨著訓練步驟增加,思考與回答的長度同步增長,這並非灌水,而是推理鏈條逐漸固化為習慣。

圖片

▲ 圖5. RLMT訓練過程中,思考與回答長度同步增長,體現出更系統的推理習慣。

圖片

從公式到風格:RLMT真正改變了什麼?

RLMT 的價值並不僅僅體現在分數提升上。它真正改變的,是模型在公式層面風格層面的雙重屬性。

在公式層面,RLMT 巧妙地將 RLHF 的人類偏好獎勵與 RLVR 的明確思考軌跡統一到一個目標函數中。這意味著「邏輯」與「偏好」不再分割,而是被綁定在一次訓練裡。

在風格層面,RLMT 重塑了模型的生成習慣。實驗中的圖 4 與圖 5 清楚表明:模型從核對清單式的平鋪直敘,進化為更像人類的迭代式規劃。它不再滿足於「先寫幾個要點」,而是學會了「設定約束—區分主題—不斷修訂」。

因此,RLMT 的貢獻不只是「漲分技巧」,而是為小模型注入了「大智慧」的萌芽。

圖片

從「鏡子」與「鋼尺」到「第三條路」

RLMT 的提出不僅延續了 RLHF 的「神」與 RLVR 的「形」,更開闢出了一條「第三條路」。它回答了一個長久的困境:如何讓模型既能合邏輯,又能合人意。

這條新路的潛力至少體現在兩個方向:

  • 獎勵模型的精細化:隨著更強的偏好模型出現,RLMT 的效果還會持續增強。

  • 多模態與工具調用:如果未來 RLMT 驅動的思維不止是文本,還包括圖像、程式碼執行、搜尋規劃,它可能真正成為「通用推理基座」。

在 RLHF 難以支撐、RLVR 又有邊界的當下,RLMT 讓我們看到了新的可能性:小模型透過後訓練典範,也能逼近甚至對標最強商用模型。

這不僅是一次實驗上的突破,更是一種典範的轉折。從「鏡子」與「鋼尺」到「第三條路」,RLMT 可能正是通往更通用智慧的重要節點。

主標籤:大型語言模型

次標籤:強化學習模型訓練推理能力人類回饋


上一篇:Agentic Coding表現創新高,全新KAT系列模型強力稱霸SWE-Bench

下一篇:「零和學習」理論橫空出世,揭示大型語言模型縮放定律的真相!

分享短網址