當前語言模型(LM)透過強化學習(RL)生成推理鏈(Chain-of-Thought)已在複雜問答任務中取得突破。然而,主流方法依賴二元獎勵函數(答案正確得1分,錯誤得0分),這導致模型為追求高分而盲目猜測——即使不確定答案也表現出高置信度。這種現象被稱為校準退化:模型置信度與真實正確率嚴重不匹配,在醫療、法律等高風險領域可能引發嚴重後果。
論文:Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty
連結:https://www.arxiv.org/pdf/2507.16806
本文提出的RLCR方法(Reinforcement Learning with Calibration Rewards)首次將概率校準直接融入RL訓練目標。透過要求模型同時輸出答案和數值化置信度,並設計新型獎勵函數(正確性得分 + Brier校準得分),實現了:
- 理論保障:證明模型被激勵同時優化準確性和校準度
- 性能突破:在數學推理(GSM8K)和事實問答(HotPotQA)任務中,校準誤差(ECE)降低85%以上
- 泛化優勢:跨領域任務中保持校準能力,超越傳統RL和後處理分類器
方法論詳解:RLCR的設計與理論
獎勵函數重構
傳統RLVR(Reinforcement Learning with Verifiable Rewards)僅使用二元獎勵,其獎勵函數(R(y, y*))定義為:如果模型輸出y與正確答案y*匹配,則獎勵為1,否則為0。
RLCR的創新獎勵函數引入了Brier評分(概率預測校準度量)。此獎勵函數(R(y, c, y*))結合了正確性得分與Brier校準得分。
- c:模型輸出的置信度(0-1之間的數值)
- 第二項作用:懲罰置信度c與真實正確性I(y=y*)的偏差。例如:
- 若答案正確但c(低置信),則形成懲罰
- 若答案錯誤但c(高置信),則形成更大懲罰
二元獎勵鼓勵猜測 vs. RLCR獎勵平衡正確性與校準
理論保障:定理1的核心思想
定理1:當模型對答案的真實正確概率為p*時:
- 校準激勵:固定p*時,期望獎勵在c=p*時最大化
- 正確性激勵:在所有校準預測中,獎勵在正確性最高時最優
證明關鍵:
- 透過Savage-Dawid表示將Brier評分分解,導出獎勵函數導數
- 當c≤p*(或c≥p*)時,獎勵單調遞增(或遞減),確保高正確率獲得高獎勵
為何不用對數損失?對數損失是嚴格正規可信評分規則,但其值無界。當置信度c趨近於0時,損失趨向於無窮大,無法找到有限的c滿足定理條件,可能激勵模型輸出置信度為0的錯誤答案。
實驗設計與結果分析
資料集創新:強制不確定性推理
- HotPotQA-Modified:
- 原始多跳問答資料集含10段落(2相關+8干擾)
- 修改版隨機移除0/1/2個關鍵段落,製造資訊缺失(1/3樣本無關鍵資訊)
- 目標:迫使模型識別知識缺口並降低置信度
- Big-Math:
- 篩選LLaMA-8B正確率0-70%的數學題(共15,000道)
- 僅保留數值答案,透過math-verify工具精確驗證
基準方法比較
RLVR: 傳統二元獎勵 + CoT - 校準退化嚴重
RLVR+BCE分類器: 額外訓練分類器預測置信度 - 需兩個模型,推斷成本翻倍
RLVR+Brier分類器: 用Brier損失替代BCE訓練分類器 - 校準提升有限
答案概率(AnswerProb): 直接使用<answer>標籤內token平均概率 - 忽略推理過程,置信度高估
核心結果:校準與準確性的雙贏
關鍵數據:HotPotQA上RLCR vs. 基準的校準誤差對比
領域內性能(HotPotQA):
- 準確性:RLCR(62.1%)≈ RLVR(63.0%)
- 校準提升:
- ECE:從0.37→0.03(降低92%)
- Brier評分:從0.37→0.21(降低43%)
- 原因分析:模型在<analysis>標籤中顯式分析不確定性(如:"段落3的結論可能因數據衝突失效")
跨領域泛化(6個外域資料集):
- 準確性:RLCR(56.2%)> RLVR(53.9%)
- 校準優勢更顯著:
- ECE:0.21 vs. RLVR的0.46(優於基準54%)
- AUROC:0.68(置信度區分正負例能力提升36%)
- 關鍵結論:RLCR的泛化能力源於不確定性推理的遷移性
數學推理(GSM8K+Math500):
- SFT預熱的作用:
- 用DeepSeek-R1生成500條不確定性分析微調基礎模型
- 結果:SFT+RLCR的ECE降至0.058(純RLCR為0.119)
- 典型錯誤:
原始RLCR輸出:"71部電影"(置信度0.6)SFT+RLCR輸出:"76部電影"(置信度0.3 → 實際正確答案為63)<分析>標籤指出:"添加組內電影時未考慮與全集的重疊"
創新發現與技術延伸
置信度的自洽性驗證
相同答案的置信度穩定性:
- 固定答案,採樣5條分析鏈獲取置信度
- 結果:標準差<0.1的樣本佔比82%
互斥答案的置信度守恆:
- 理想要求:若答案集互斥,則總置信度接近1
- 實測結果:
- 領域內(HotPotQA):RLCR置信度和≈0.98
- 領域外:仍存在過信(總和≈1.2),但顯著優於RLVR(總和≈1.8)
測試時置信度加權縮放
核心思路:將置信度c作為無需訓練的信度代理
- 最大置信選擇(Max-Confidence):從N個樣本選最高者
- 置信加權投票(Weighted Majority):按c加權投票
圖示:置信加權投票的準確率隨樣本數增長曲線
關鍵優勢:
- 在N=5時,置信加權投票準確率超普通投票3.2%
- 分析鏈集成(採樣K條<analysis>)可進一步降低Brier評分
模型規模與校準能力的關聯
小模型更依賴顯式不確定性推理鏈提升校準
- 實驗設計:對比0.5B/1.5B/7B模型上兩種分類器:
- 基準分類器:僅輸入問題和答案
- 分析分類器:額外輸入RLCR的<analysis>內容
- 結果:
- 0.5B模型:分析分類器Brier評分低37%
- 7B模型:兩者差距消失
- 結論:小模型需顯式推理鏈補償表徵能力不足
結論
RLCR透過重構獎勵函數這一簡潔而深刻的創新,首次在強化學習框架下統一了語言模型的準確性與校準性優化。其核心貢獻可總結為:
- 理論嚴謹性:證明Brier評分與正確性獎勵的組合可同時激勵最優答案選擇與真實置信度表達;
- 實證優越性:在12個資料集上顯著降低校準誤差(最大降幅92%),且不損失準確性;
- 系統擴展性:置信度輸出支援測試時加權投票等輕量級提升方法。
這項工作標誌著語言模型從"只求正確答案"走向"理解自身認知邊界"的關鍵一步,為醫療診斷、法律諮詢等高風險場景的可靠AI部署奠定基礎。未來研究需進一步解決跨領域校準泛化與複雜推理中的不確定性傳播問題。
注:標題參考自格魯AI@xhs