推論模型常展現類似自我反思的行為,但問題是——
這些行為是否真能有效探索新策略呢?
對此,西北大學與Google、Google DeepMind團隊質疑傳統強化學習與反思的關係,並提出貝葉斯自適應強化學習方法,首次解釋為何、如何、以及何時應進行反思並探索新策略。
透過對比分別使用傳統強化學習和新方法訓練的模型,研究人員發現:
在完成「模型需在3步內輸出三個連續相同字元」這一合成任務中,傳統強化學習往往一條路走到黑,而新方法懂得排除無效假設,適時切換新策略。
並且在數學推論任務中,新方法在大部分基準和模型上都取得了更高的準確率,同時為解出題目所耗費的token數量更少。
更有意思的是,團隊發現反思次數並非決定性能的唯一因素,一些基礎模型往往出現許多徒勞的反思,並沒有帶來實質的資訊增益。
下面詳細展開。
貝葉斯自適應強化學習激發反思性探索
直觀來說,測試時試錯的步驟只有當能帶來資訊增益的情況下才有益,然而人們並沒有在強化學習訓練中告訴模型試錯和反思帶來的資訊增益。
事實上,現有的基於馬爾可夫假設的強化學習範式存在天然的局限——探索(exploration)僅發生在訓練階段,代理在部署(測試)時通常只會利用(exploit)訓練中學到的確定性策略。
並且馬爾可夫假設使得強化學習代理只根據當前狀態做決策,歷史資訊(比如試錯並回溯的思考過程)對策略的影響都被只壓縮到當前狀態表示中。
研究者指出,這種傳統範式可能導致模型透過記憶訓練解答就已經拿到高分,而不需要真正學會反思;模型內部思考的試錯也並不能提供資訊增益。
那測試時的反思性探索真的有用嗎?如何才能學到有效的反思性探索策略呢?
為了解答上述問題,研究者研究了與傳統強化學習不同的貝葉斯自適應強化學習框架,簡稱BARL。
它的核心思想是將LLM的反思性探索轉化為貝葉斯自適應強化學習問題來處理,透過引入對環境不確定性的建模,讓模型在推論過程中自適應地進行探索。
簡單來說,BARL不再局限於傳統強化學習的馬爾可夫假設,而是考慮了MDP的不確定性(比如不同策略對一道題的有效性),於是需要把所有歷史的觀察(包括獎勵回饋)納入決策中。
這種框架天然地平衡了獎勵最大化的利用和資訊獲取的探索。
具體而言,在BARL中,團隊假設模型面對的是一個存在未知要素的任務,可以用一組假設的MDP(馬爾可夫決策過程)來描述這些不確定性。
模型對每個假設MDP保持一個後驗機率(belief),隨著推論過程不斷更新。
每當模型選擇一個動作(如生成下一個思維步驟),都會根據觀察到的結果更新對各個假設的信念。
BARL的目標策略並非針對單一確定環境優化,而是直接優化在後驗分佈下的期望累積回報。這意味著模型在決策時,會考慮「我這樣做的收益是多少,同時這樣的行動能多大程度減少不確定性?」。
BARL明確地將測試時的表現納入優化目標,透過最大化後驗下的期望回報鼓勵模型考慮未知情況。
模型明白只有主動探索才能在未知情境下保持高收益,因此反思是為了獲取關鍵資訊,避免一條路走錯到底。
簡而言之,BARL讓模型意識到——
適時反思、多一種嘗試可能帶來更高的回報,這正是反思行為得以湧現的動機。
全新推論模型強化學習演算法
研究者針對推論模型給出了BARL決策的數學形式,其中核心是如何計算後驗的期望值:
該公式針對多個候選答案(比如best-of-N裡的N個答案)計算了預期回報加權求和,權重一方面是模型認為該候選答案的好壞,另一方面還包含了一個「校正項」——用來衡量實際觀察結果與模型預期的偏差。
正是這個校正項充當了反思訊號:如果某個策略原本被模型高度看好,但獎勵回饋結果不盡如人意,那這個差異會迅速降低該假設的權重,提醒模型「也許該換一種思路了」,這正回答了模型應該何時進行反思和探索。
透過這種機制,BARL的決策公式指導模型在每個步驟判斷是否需要反思、何時切換策略。
這也是BARL反思性決策的精髓——讓模型基於貝葉斯後驗來權衡「繼續當前思路」還是「嘗試新思路」。
這種更新過程鼓勵模型拼接和切換不同的推論策略,就像把多條可能的解題思路串聯起來,並在中途發現某條思路行不通時迅速切換到另一條。
BARL透過端到端的強化學習優化自動實現了這一點,可謂以原則化的方式賦予了LLM在推論過程中的「何時反思、如何反思」的指南,達到了以一條長CoT線性化best-of-N的效果。
合成任務案例:更清楚的對比強化學習和BARL
為了直觀展示BARL如何在測試時展現反思探索能力,作者設計了一個合成任務:模型需要在3步內輸出三個連續相同的字元(0/1/2),才能獲得獎勵。
訓練階段,提示(prompt)字元只會是0或1,模型學會了對應輸出000或111來拿到獎勵;但是測試時,提示字元變為了2。
直覺上,訓練時學到的確定性策略在遇到新字元時將不再有效,需要模型即時探索正確的輸出模式。
讓兩個模型來挑戰這個任務:一個用傳統馬爾可夫強化學習訓練,另一個用BARL方法訓練。
馬爾可夫型強化學習很快就最大化了訓練準確率,幾乎將這些答案背了下來。
BARL在訓練中同樣學會了正確輸出模式,但更有趣的是,它同時學會了根據不確定性來調整策略——這一點要等到測試才能看出差別。
測試階段揭示了截然不同的行為。即當提示變為新字元2時,馬爾可夫型強化學習由於在訓練中只記住了固定的輸出(000/111)無法泛化,因此幾乎總是答錯,測試準確率接近於零。
而BARL代理則展現出「反思」能力。它會先嘗試某個策略,如果初步嘗試未獲得獎勵,就迅速反思切換,嘗試另一種可能的序列。
下圖形象說明了馬爾可夫型強化學習和BARL在該合成任務中的決策差異——
馬爾可夫策略一條路走到黑,BARL策略則懂得排除無效假設,適時切換新策略。
可以看到,左圖中馬爾可夫型強化學習模型訓練時成績很快逼近100%但測試時幾乎完全失敗,中圖的BARL模型則不僅訓練表現提升,在測試時也取得了顯著的高準確率。
值得注意的是,右圖顯示如果事先給予BARL一些關於任務結構的先驗知識(例如「獎勵模式就是某個字元重複三次」),它的收斂速度和最終成績還會更好。
這說明了候選策略既要有多樣性以覆蓋未知情況,又要有合理的可信度以不至於無謂浪費精力。
數學推論任務:性能全面提升,顯著節省Token
研究人員還將BARL應用於LLM的數學推論領域,並比對了GRPO和「Progress」獎勵基準(給予正確答案機率的分步獎勵)。
BARL在大部分基準和模型上都取得了更高的準確率。
不僅如此,BARL還展現出更高的效率優勢。
作者特別度量了每種方法為解出題目所耗費的token數量,結果發現在達到同等甚至更高準確率的情況下,BARL生成的內容要短得多。
這意味著,BARL模型並不會為了「多反思幾次」而付出冗長囉嗦的代價,反而因為每次反思都更有針對性、更有效。
作者還觀察到另一個有趣的現象:反思次數本身並非決定性能的唯一因素。
基礎模型往往出現許多徒勞的反思,並沒有帶來實質的資訊增益。相比之下,BARL的反思行為更加「有目的性」。
研究者計算了模型在每一步產生的思維鏈的貝葉斯價值,簡單理解就是綜合考慮了「這一步對最終求解有多大貢獻」和「這一步帶來了多少資訊增益」的一個評分。
結果發現,BARL模型每一步動作的貝葉斯價值始終顯著高於傳統強化學習模型,說明它選的步驟要么就是對解題有幫助的(高回報),要么就是探查了新的可能路徑(高資訊增益),從不盲目浪費步驟。
而反觀基礎模型,儘管某些時候看似也輸出了許多自我檢查的內容,但由於沒有有效利用資訊更新,它這些「反思」步驟的價值評估很低,往往流於表面形式。
最後,作者專門訓練了一個長度受限的GRPO,人為限制它最多只能輸出32個token的解題過程,強制模型傾向於不展開推論,直接給出最終答案。
可以發現模型的訓練準確率最終能收斂到跟正常GRPO相似,而生成的過程長度卻越來越短,幾乎退化為直接背答案。
換言之,馬爾可夫型強化學習在訓練時確實可能透過犧牲思考過程而達到最優,但這樣的策略一旦在測試遇到新題就會碰壁。這更加驗證了傳統強化學習並不能解釋反思探索的好處,也不能包裝自我反思的湧現。
最後,研究人員已經放出了訓練程式碼和論文。
本文一作張申傲是美國西北大學二年級博士生,研究方向涵蓋大型語言模型與強化學習,尤其關注LLM的對齊,推論,以及智能體。其研究旨在建構能夠主動獲取資訊並自我提升以實現超越人類水平的智能系統。
訓練程式碼:https://github.com/shenao-zhang/BARL 論文:https://arxiv.org/abs/2505.20561
— 完 —