Meta 提出 Deep Think with Confidence：幾乎無需更動，即可提升推論的準確性與效率

近年來，大型語言模型（LLMs）在複雜推論任務上表現驚人，尤其是在測試時生成多條推論鏈並透過「自我一致性」（Self-Consistency）進行多數投票的策略，顯著提升了答案的正確率。然而，這種通常被稱為「平行思考」的方法也帶來了巨大的計算成本：每道題生成數百甚至上千條推論路徑，token消耗量呈線性增長，在實際部署中幾乎不可持續。更糟糕的是，隨著生成路徑的增加，效能提升會逐漸飽和甚至下降，傳統投票法卻對所有路徑一視同仁，無法區分高品質和低品質的推論。

論文：Deep Think with Confidence

連結：https://arxiv.org/pdf/2508.15260

正是在這樣的背景下，Meta AI與UCSD的研究團隊提出了Deep Think with Confidence（DeepConf）——一種簡單卻強大的方法，能夠在測試階段動態識別並過濾低置信度的推論路徑，從而在不增加訓練成本、不調整超參數的前提下，同時提升推論的準確性與效率。本文將對這一方法進行全面解讀，揭示其如何透過「置信度」這一內在訊號，實現更智能、更高效的推論聚合。

為什麼需要「帶置信度的深度思考」？

傳統的自我一致性方法雖然有效，但有兩大痛點：

1. 計算開銷巨大：例如，在AIME 2025數學競賽題上，使用Qwen3-8B模型將準確率從68%提升至82%，需要額外生成511條推論路徑，消耗上億token。

2. 收益遞減：生成更多路徑並不總能帶來效能提升，有時反而會引入雜訊，因為低品質路徑也可能「帶偏」投票結果。

以往也有一些工作嘗試用「全局置信度」（例如整條推論路徑的平均置信度）來篩選路徑，但這種方法有兩個缺陷：

掩蓋局部錯誤：整條路徑的平均值可能掩蓋中間某幾步的嚴重不確定性或錯誤。

無法提前終止：必須生成完整路徑才能計算置信度，無法在生成過程中及時止損。

DeepConf的動機正是要解決這些問題：利用更細粒度的、局部的置信度訊號，在生成過程中或生成後動態過濾低品質路徑，從而實現高效且準確的推論。

DeepConf如何工作？

一、置信度指標的設計與理解

DeepConf的核心在於一系列創新的置信度衡量方式，它們從不同角度捕捉推論路徑的品質。

1. Token級指標：

Token熵（Token Entropy）：衡量模型對下一個詞的不確定性。熵越低，模型越確信。

其中是第i個位置第j個詞的機率。

Token置信度（Token Confidence）：作者定義為前k個候選詞的平均負對數機率：

注意：這裡置信度越高，數值反而越低（因為取負號），但論文中實際使用時會更關注相對值——數值低代表置信度高。

2. 軌跡級指標：

平均軌跡置信度（Average Trace Confidence）：整條路徑所有token置信度的平均值。雖然常用，但容易掩蓋局部錯誤。

3. 創新指標（關鍵貢獻）：

組置信度（Group Confidence）：將軌跡分成長度固定的重疊窗口（如每1024個token一組），計算每組內的平均置信度。這提供了更平滑的局部訊號。

底部10%組置信度（Bottom-10% Group Confidence）：取所有組中置信度最低的10%組的平均值。這能捕捉推論中最薄弱、最不確定的環節。

最低組置信度（Lowest Group Confidence）：所有組中置信度最低的那一組的置信度值。這是最極端的局部品質指標，非常適合線上生成中做提前終止的判斷。

尾部置信度（Tail Confidence）：只計算軌跡最後固定數量token（如2048個）的平均置信度。因為推論的結尾部分（得出答案的關鍵步驟）的品質至關重要。

不同置信度度量下，正確與錯誤推理路徑的置信度分布

不同置信度衡量下，正確與錯誤推論路徑的置信度分布

二、離線推論模式

離線模式下，所有推論路徑均已生成完畢，DeepConf透過以下兩種策略提升多數投票的效果：

1. 置信度加權投票（Confidence-Weighted Majority Voting）：不再「一人一票」，而是每條路徑的投票權重與其置信度成正比。高置信度的路徑對最終結果有更大影響力。

2. 置信度過濾（Confidence Filtering）：在進行加權投票之前，先根據置信度分數過濾掉一部分路徑。論文主要嘗試了兩種過濾比例：

Top 10% ：只保留置信度最高的10%的路徑。激進策略，力求精度，但若模型對錯誤答案過於自信，可能翻車。

Top 90% ：保留置信度最高的90%的路徑。保守策略，在保持多樣性的同時過濾掉最差的10%，穩定可靠。

離線模式下，如何計算不同置信度指標並進行過濾與加權投票的過程

三、線上推論模式

線上模式的目標是在生成過程中即時判斷路徑品質，並提前終止那些「注定失敗」的路徑，以節省計算資源。其核心是最低組置信度指標。

線上DeepConf分為兩個步驟：

1. 離線預熱（Offline Warmup）：對於一個新問題，先正常生成一小部分（如16條）完整的推論路徑，計算它們的最低組置信度，然後根據設定的保留比例η（10%或90%），確定一個停止閾值s。例如，DeepConf-low（η=10%）會將閾值s設為預熱集中置信度前10%的路徑的最低值。

2. 自適應取樣（Adaptive Sampling）：開始大規模生成路徑。每生成一個token組（如2048個token），就計算當前組置信度。

如果目前值低於閾值s，立即終止該路徑。

同時，每完成一條路徑，就檢查目前所有已生成路徑的答案共識度是否超過某個閾值τ（如95%）。如果已達成共識，則停止生成，直接輸出結果。

這種方法確保了線上過程近似地重現了離線過濾的效果，同時避免了大量不必要的token生成。

線上生成過程中，如何根據即時計算的組置信度與閾值的比較，來決策是否提前終止一條推論路徑

DeepConf效果如何？

實驗設置

模型：涵蓋了不同規模的先進開源模型，如DeepSeek-8B, Qwen3-8B/32B, GPT-OSS-20B/120B。

基準：多個高難度數學推論資料集，如AIME 2024/2025, HMMT 2025, BRUMO 2025, 以及GPQA-Diamond。

基準線：標準的自我一致性+多數投票（Cons@K）、以及單條路徑精度（Pass@1）。

評估：所有結果均在64次獨立運行上取平均，同時匯報準確率和生成的總token數。

離線評估結果

全面對比在512條路徑下，不同模型、不同資料集上，各種置信度衡量方法配合不同過濾策略的效能

關鍵發現：

置信度加權+過濾幾乎全面優於普通投票。例如，在AIME25上，GPT-OSS-120B使用尾部置信度+Top10%過濾，達到了驚人的99.9%準確率，而普通投票為97.0%。

Top10%過濾策略通常帶來最大提升，但也存在因模型「自信地犯錯」而導致效能下降的風險（如GPT-OSS-120B在部分資料集上）。

Top90%過濾是一個非常安全的選擇，幾乎總能匹配或略微超過普通投票的精度，同時為後續過濾奠定了基礎。

局部置信度訊號（尾部和底部）整體表現不遜於甚至優於全局平均訊號，證實了關注局部品質的必要性。

以DeepSeek-8B為例，展示使用最低組置信度進行過濾時，Top10%和Top90%策略相對於普通投票的準確率優勢

線上評估結果

線上模式下，DeepConf-high和DeepConf-low在預算為512條路徑時，相比普通投票在token消耗和準確率上的表現

關鍵發現：

驚人的效率提升：DeepConf-low平均減少了43-84%的token消耗，最高可達84.7%（GPT-OSS-120B on AIME25）。

精度保持甚至提升：在大多數情況下，DeepConf在大幅節省token的同時，準確率與基準線相當或更高。例如，DeepSeek-8B在AIME24上節省77.9%的token，準確率反而提升了5.8%。

兩種模式的權衡：DeepConf-low（η=10%）追求極致效率，但偶爾會因過濾過於激進導致精度小幅下降；DeepConf-high（η=90%）則更為穩健，以較小的效率提升（節省18-59%token）牢牢守住精度底線。

對比GPT-OSS-120B模型在不同任務上，DeepConf與基準線方法在生成token總量上的差異

以DeepSeek-8B為例，準確率隨生成token數變化的曲線

DeepConf透過巧妙地利用大語言模型內部的置信度訊號，為解決測試時推論的「成本效益」難題提供了一個優雅而有效的解決方案。它證明了並非所有生成路徑都是平等的，也證明了關注推論過程的局部品質遠比只關注最終答案更重要。這項研究不僅顯著提升了先進模型的推論效率，更重要的是，它為未來建構更加「自知之明」、資源高效的人工智慧系統指明了方向——讓AI學會在思考時衡量自己的把握，從而更聰明地分配計算資源。

Meta 提出 Deep Think with Confidence：幾乎無需更動，即可提升推論的準確性與效率

分享短網址