AI僅憑「自信」學會推理，浙大校友復刻DeepSeek長思維鏈湧現，強化學習無需外部獎勵訊號

MLNLP社區是國內外知名的機器學習與自然語言處理社區，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社區的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 量子位

作者｜夢晨鷺羽

復刻DeepSeek-R1的長思維鏈推理，大模型強化學習新範式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為：

大模型無需接觸真實答案，僅透過優化自己的信心，就能學會複雜推理。

具體來說，新方法完全不需要外部獎勵訊號或標註資料，只需使用模型自身的置信程度作為內在獎勵訊號。

與使用外部獎勵訊號GRPO相比，新方法在數學任務上不需要標準答案也能提升基礎模型性能，在程式碼任務上表現得更好。

幾乎同一時間，另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結論。

作者表示兩者的主要區別在於使用KL散度和最小化熵衡量自信程度。

Dropbox工程副總裁看後表示：Confidence is all you need。

「自信」驅動的強化學習

長期以來，訓練大模型主要依賴兩種方式：

要麼需要大量人工標註（如ChatGPT的RLHF），要麼需要可驗證的標準答案（如DeepSeek的RLVR）。

前者成本高昂且可能引入偏見，後者則侷限於數學、程式設計等有明確答案的領域。

那麼當AI能力逐漸接近甚至超越人類時，能否讓模型僅憑自身產生的內在訊號，擺脫對外部監督的依賴？

針對這個問題，UC Berkeley團隊提出新訓練方法Intuitor，計算模型預測分佈與均勻分佈之間的KL散度作為「自信程度」。

相當於人類做題時，如果對答案有把握思路也會更清晰，當自信不足的時候往往需要重新思考。

透過優化這個內在訊號，INTUITOR鼓勵模型生成它自己”更有把握”的回答，也能促使模型生成更結構化的推理過程。

在實驗中，1.5B和3B的小模型也湧現出與DeepSeek-R1類似的長思維鏈推理行為。

論文還指出，內在獎勵訊號還獲得一個額外的好處：從機制上降低了「獎勵駭客」的風險。

傳統外部獎勵訊號的強化學習容易被「鑽空子」，如模型可能生成語法正確但邏輯錯誤的程式碼來匹配測試用例，或在數學題中直接背答案而非推理。

在INTUITOR中，團隊發現如果使用離線學習，在訓練約100步的時候模型也學會了作弊：在回答中附加一個已經解決的簡單問題來提高自信度分數。

但使用在線學習就可以避免這個問題，評估標準隨著模型能力一起進化，作弊策略變得無效。

實驗結果：不僅會做題，還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數學推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎模型，使用自我確定度作為唯一的獎勵訊號，並將其分別置於INTUITOR和兩個基線方法（GRPO、GRPO-PV）在MATH資料集的預訓練中。

使用對話提示，每次處理128道題目並各生成7個候選解決方案，KL懲罰係數設置為0.005。

在數學推理、程式碼生成、指令遵循的基準測試中進行性能評估，結果如圖所示：

實驗表明，在透過INTUITOR進行微調後，Qwen2.5-1.5B從最初只會輸出重複的無意義內容且對話任務得分均低於10%，轉變為無效輸出大幅減少、響應長度有效增加。

在結構化推理能力上，團隊還發現INTUITOR早期學習速度更快，如Qwen2.5-3B在GSM8K基準測試上INTUITOR（0.811）始終優於GRPO（0.758）。

此外，INTUITOR在多任務泛化上也表現優秀，例如當Qwen2.5-3B在程式碼生成任務上，雖然相對滯後但持續增長，最終性能比GRPO高8%，相對提升65%。

同時團隊還觀察到，在進行長鏈推理時，INTUITOR模型在生成完整程式碼前，都會添加自然語言推理（如「為解決X問題，需先執行Y步驟」），據推測也許這就是INTUITOR能夠在測試中始終表現出色的原因之一。

它的演進過程大概可以描述為三個階段：

1. 模型學會生成程式碼，實現準確率提升和無效響應減少。

2. 進行程式碼前推理以促進自我理解。

3. 逐步細化生成帶詳細推理的有效程式碼。

為了評估自我確定度作為獎勵的魯棒性，研究人員還將離線自我確定度（來自固定基礎模型的獎勵）與在線自我確定度（來自不斷進化的策略模型的獎勵）進行了比較。

另外為進一步評估自我確定度作為獎勵訊號的質量，研究人員還分析了模型在MATH500響應中生成的自我確定度分數分佈。

值得注意的是，INTUITOR模型對正確答案的self-certainty顯著更高，而GRPO雖提升了模型自評能力，但區分度明顯低於INTUITOR。

由於受計算資源限制，實驗只在相對較小的無監督語料庫上進行訓練，未來可在更大規模的基礎模型和更多樣化的真實世界資料集上進一步研究INTUITOR的優勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊，作者一共有五位，分別是第一作者博士後研究員Xuandong Zhao、共同一作大學生Zhewei Kang、來自耶魯大學的Aosong Feng，以及Sergey Levine和Dawn Song。

2019年，Xuandong Zhao從浙江大學畢業後，就進入了加州大學聖塔芭芭拉分校攻讀電腦科學博士學位，期間還曾在阿里巴巴、Microsoft和Google等公司實習。

自2024年他進入UC Berkeley後，除本次的新成果外，至今一共還發表過十多篇論文，並先後被ICLR 2025、ICML 2025等接收。

另外在今年2月，Xuandong Zhao和Zhewei Kang還合作發表了一篇論文，描述了基於自我確定性的LLMs推理能力提升新策略Best-of-N，可以看作是本篇論文的一次先驗嘗試。

論文連結：https://arxiv.org/abs/2505.19590

程式碼連結：https://github.com/sunblaze-ucb/Intuitor

參考連結：[1]https://x.com/joshclemm/status/1927400772817285264

參考連結：[2]https://x.com/xuandongzhao/status/1927270931874910259

參考連結：[3]https://x.com/xuandongzhao/status/192778163679341780

參考連結：[4]https://arxiv.org/abs/2502.18581

技術交流群邀請函

△長按添加小助手

掃描二維碼添加小助手微信

請備註：姓名-學校/公司-研究方向

（如：小張-哈工大-對話系統）

即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP社區是由國內外機器學習與自然語言處理學者聯合構建的民間學術社區，目前已經發展為國內外知名的機器學習與自然語言處理社區，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社區可以為相關從業者的深造、就業及研究等方面提供開放交流平台。歡迎大家關注和加入我們。

AI僅憑「自信」學會推理，浙大校友復刻DeepSeek長思維鏈湧現，強化學習無需外部獎勵訊號

分享短網址