近年來,大型語言模型(LLMs)在複雜推論任務上表現驚人,尤其是在測試時生成多條推論鏈並透過「自我一致性」(Self-Consistency)進行多數投票的策略,顯著提升了答案的正確率。然而,這種通常被稱為「平行思考」的方法也帶來了巨大的計算成本:每道題生成數百甚至上千條推論路徑,token消耗量呈線性增長,在實際部署中幾乎不可持續。更糟糕的是,隨著生成路徑的增加,效能提升會逐漸飽和甚至下降,傳統投票法卻對所有路徑一視同仁,無法區分高品質和低品質的推論。
論文:Deep Think with Confidence
連結:https://arxiv.org/pdf/2508.15260
正是在這樣的背景下,Meta AI與UCSD的研究團隊提出了Deep Think with Confidence(DeepConf)——一種簡單卻強大的方法,能夠在測試階段動態識別並過濾低置信度的推論路徑,從而在不增加訓練成本、不調整超參數的前提下,同時提升推論的準確性與效率。本文將對這一方法進行全面解讀,揭示其如何透過「置信度」這一內在訊號,實現更智能、更高效的推論聚合。
為什麼需要「帶置信度的深度思考」?
傳統的自我一致性方法雖然有效,但有兩大痛點:
1. 計算開銷巨大:例如,在AIME 2025數學競賽題上,使用Qwen3-8B模型將準確率從68%提升至82%,需要額外生成511條推論路徑,消耗上億token。
2. 收益遞減:生成更多路徑並不總能帶來效能提升,有時反而會引入雜訊,因為低品質路徑也可能「帶偏」投票結果。
以往也有一些工作嘗試用「全局置信度」(例如整條推論路徑的平均置信度)來篩選路徑,但這種方法有兩個缺陷:
掩蓋局部錯誤:整條路徑的平均值可能掩蓋中間某幾步的嚴重不確定性或錯誤。
無法提前終止:必須生成完整路徑才能計算置信度,無法在生成過程中及時止損。
DeepConf的動機正是要解決這些問題:利用更細粒度的、局部的置信度訊號,在生成過程中或生成後動態過濾低品質路徑,從而實現高效且準確的推論。
DeepConf如何工作?
一、置信度指標的設計與理解
DeepConf的核心在於一系列創新的置信度衡量方式,它們從不同角度捕捉推論路徑的品質。
1. Token級指標:
Token熵(Token Entropy):衡量模型對下一個詞的不確定性。熵越低,模型越確信。
其中 是第i個位置第j個詞的機率。
Token置信度(Token Confidence):作者定義為前k個候選詞的平均負對數機率:
注意:這裡置信度越高,數值反而越低(因為取負號),但論文中實際使用時會更關注相對值——數值低代表置信度高。
2. 軌跡級指標:
平均軌跡置信度(Average Trace Confidence):整條路徑所有token置信度的平均值。雖然常用,但容易掩蓋局部錯誤。
3. 創新指標(關鍵貢獻):
組置信度(Group Confidence):將軌跡分成長度固定的重疊窗口(如每1024個token一組),計算每組內的平均置信度。這提供了更平滑的局部訊號。
底部10%組置信度(Bottom-10% Group Confidence):取所有組中置信度最低的10%組的平均值。這能捕捉推論中最薄弱、最不確定的環節。
最低組置信度(Lowest Group Confidence):所有組中置信度最低的那一組的置信度值。這是最極端的局部品質指標,非常適合線上生成中做提前終止的判斷。
尾部置信度(Tail Confidence):只計算軌跡最後固定數量token(如2048個)的平均置信度。因為推論的結尾部分(得出答案的關鍵步驟)的品質至關重要。
不同置信度衡量下,正確與錯誤推論路徑的置信度分布
二、離線推論模式
離線模式下,所有推論路徑均已生成完畢,DeepConf透過以下兩種策略提升多數投票的效果:
1. 置信度加權投票(Confidence-Weighted Majority Voting): 不再「一人一票」,而是每條路徑的投票權重與其置信度成正比。高置信度的路徑對最終結果有更大影響力。
2. 置信度過濾(Confidence Filtering): 在進行加權投票之前,先根據置信度分數過濾掉一部分路徑。論文主要嘗試了兩種過濾比例:
Top 10% :只保留置信度最高的10%的路徑。激進策略,力求精度,但若模型對錯誤答案過於自信,可能翻車。
Top 90% :保留置信度最高的90%的路徑。保守策略,在保持多樣性的同時過濾掉最差的10%,穩定可靠。
離線模式下,如何計算不同置信度指標並進行過濾與加權投票的過程
三、線上推論模式
線上模式的目標是在生成過程中即時判斷路徑品質,並提前終止那些「注定失敗」的路徑,以節省計算資源。其核心是最低組置信度指標。
線上DeepConf分為兩個步驟:
1. 離線預熱(Offline Warmup): 對於一個新問題,先正常生成一小部分(如16條)完整的推論路徑,計算它們的最低組置信度,然後根據設定的保留比例η(10%或90%),確定一個停止閾值s。例如,DeepConf-low(η=10%)會將閾值s設為預熱集中置信度前10%的路徑的最低值。
2. 自適應取樣(Adaptive Sampling): 開始大規模生成路徑。每生成一個token組(如2048個token),就計算當前組置信度。
如果目前值低於閾值s,立即終止該路徑。
同時,每完成一條路徑,就檢查目前所有已生成路徑的答案共識度是否超過某個閾值τ(如95%)。如果已達成共識,則停止生成,直接輸出結果。
這種方法確保了線上過程近似地重現了離線過濾的效果,同時避免了大量不必要的token生成。
線上生成過程中,如何根據即時計算的組置信度與閾值的比較,來決策是否提前終止一條推論路徑
DeepConf效果如何?
實驗設置
模型:涵蓋了不同規模的先進開源模型,如DeepSeek-8B, Qwen3-8B/32B, GPT-OSS-20B/120B。
基準:多個高難度數學推論資料集,如AIME 2024/2025, HMMT 2025, BRUMO 2025, 以及GPQA-Diamond。
基準線:標準的自我一致性+多數投票(Cons@K)、以及單條路徑精度(Pass@1)。
評估:所有結果均在64次獨立運行上取平均,同時匯報準確率和生成的總token數。
離線評估結果
全面對比在512條路徑下,不同模型、不同資料集上,各種置信度衡量方法配合不同過濾策略的效能
關鍵發現:
置信度加權+過濾幾乎全面優於普通投票。例如,在AIME25上,GPT-OSS-120B使用尾部置信度+Top10%過濾,達到了驚人的99.9%準確率,而普通投票為97.0%。
Top10%過濾策略通常帶來最大提升,但也存在因模型「自信地犯錯」而導致效能下降的風險(如GPT-OSS-120B在部分資料集上)。
Top90%過濾是一個非常安全的選擇,幾乎總能匹配或略微超過普通投票的精度,同時為後續過濾奠定了基礎。
局部置信度訊號(尾部和底部)整體表現不遜於甚至優於全局平均訊號,證實了關注局部品質的必要性。
以DeepSeek-8B為例,展示使用最低組置信度進行過濾時,Top10%和Top90%策略相對於普通投票的準確率優勢
線上評估結果
線上模式下,DeepConf-high和DeepConf-low在預算為512條路徑時,相比普通投票在token消耗和準確率上的表現
關鍵發現:
驚人的效率提升:DeepConf-low平均減少了43-84%的token消耗,最高可達84.7%(GPT-OSS-120B on AIME25)。
精度保持甚至提升:在大多數情況下,DeepConf在大幅節省token的同時,準確率與基準線相當或更高。例如,DeepSeek-8B在AIME24上節省77.9%的token,準確率反而提升了5.8%。
兩種模式的權衡:DeepConf-low(η=10%)追求極致效率,但偶爾會因過濾過於激進導致精度小幅下降;DeepConf-high(η=90%)則更為穩健,以較小的效率提升(節省18-59%token)牢牢守住精度底線。
對比GPT-OSS-120B模型在不同任務上,DeepConf與基準線方法在生成token總量上的差異
以DeepSeek-8B為例,準確率隨生成token數變化的曲線
DeepConf透過巧妙地利用大語言模型內部的置信度訊號,為解決測試時推論的「成本效益」難題提供了一個優雅而有效的解決方案。它證明了並非所有生成路徑都是平等的,也證明了關注推論過程的局部品質遠比只關注最終答案更重要。這項研究不僅顯著提升了先進模型的推論效率,更重要的是,它為未來建構更加「自知之明」、資源高效的人工智慧系統指明了方向——讓AI學會在思考時衡量自己的把握,從而更聰明地分配計算資源。