不微調，讓LLM推理準確率暴增到99%！試下DeepConf，一個輕量級推理框架｜Meta最新

在大型語言模型（LLM）進行數學題、邏輯推理等複雜任務時，一個非常流行且有效的方法叫做「自洽性」（Self-Consistency），通常也被稱為「平行思考」。它的邏輯很簡單：不要只讓模型想一次，而是讓它用不同的隨機性（temperature > 0）生成多個解答過程（我們稱之為「推理路徑」或「trace」），然後透過「多數投票」（Majority Voting）選出出現次數最多的答案。這就好比讓一個學生把一道題做很多遍，然後選一個他得出次數最多的答案，通常這個答案的正確率會更高。

這個方法雖然一度管用，但問題也挺明顯，存在兩個致命痛點：

* 成本極其高昂：假設為了提升一點點準確率，你需要模型生成512條推理路徑。這意味著你的計算成本（token消耗量）會暴增512倍。這在實際應用中是難以承受的。

* 性能遭遇瓶頸：「多數投票」有一個樸素的假設，每一條推理路徑的「投票權」是平等的。就像一個大型村民大會，每人一票，商討解決一個複雜問題，但在這個大會上，有深思熟慮的專家，也有隨便猜想的門外漢，甚至還有一些理解錯問題的「搗亂者」。由於規則是「人人平等」，如果恰好有足夠多的「門外漢」和「搗亂者」碰巧猜了同一個錯誤答案，他們的票數就會淹沒掉少數專家的正確意見。這就是為什麼路徑越多，準確率有時反而會提升很快飽和甚至下降的原因，引入了太多的「噪音」。

來自Meta和UCSD的研究者們，提出了一套名為Deep Think with Confidence（DeepConf）的輕量級推理框架，有效解決了這個「又貴又沒效率」的窘境，並讓GPT-oss在AIME2025的準確率達到了驚人的99.9%，遠高於標準多數投票的97.0%。https://arxiv.org/abs/2508.15260

DeepConf：模型的「自信心」是個寶藏

DeepConf的出發點非常巧妙：能否在不增加外部裁判的情況下，讓模型自己來判斷哪條推理路徑質量更高呢？

答案是可以的，透過模型的「內部置信度訊號」（Internal Confidence Signals）當模型在生成每一個詞（token）時，它都會對詞彙表裡的所有詞計算一個概率分佈。

* 如果模型非常確定下一個詞應該是什麼，這個概率分佈就會非常「尖銳」，集中在少數幾個詞上（熵低）。

* 如果模型非常不確定，它可能會覺得好幾個詞都有可能，概率分佈就比較「平坦」（熵高）。

DeepConf的核心思想就是：一條高品質的推理路徑，模型在絕大多數步驟中都應該是自信的，其整個生成過程模型的「置信度」應該普遍較高；反之，充滿不確定性和錯誤的路徑，則必然會在某些環節表現出「猶豫」，其置信度會很低。

關鍵概念：怎麼量化AI的「自信」？

為了更精準地「把脈」AI的思考過程，研究者們探討了多種衡量其「自信心」的方法，這是一個從基礎單位到複雜應用的、層層遞進的過程。

第一步：定義最基礎的「詞元置信度」 (Token Confidence)

這是所有「自信」置信度計算的基石，定義了模型在生成每一個詞元（token）時的確定程度。

* Ci：表示在第 i 個位置上生成的詞元的置信度分數。

* Pi(j)：代表在第 i 個位置，模型預測的第 j 個最有可能的候選詞元的概率。

* k：表示我們考慮多少個最可能的候選詞元（例如，k=20）。

* logPi(j)：這是取概率的對數。因為概率值在0到1之間，其對數是負數。

* −k1∑...：Σ是求和符號。整個公式的意思是，將概率最高的k個候選詞元的對數概率加起來，取平均值，最後再取負號。

為什麼要這麼算？這個公式非常巧妙。當模型非常「自信」時，它會給某個詞元非常高的概率（接近1），其他候選詞概率很低。這時logP的值會接近0，所以計算出的置信度 Ci 會是一個較高的正數。反之，如果模型「不確定」，它會給很多候選詞元差不多的低概率，這時logP的值會是較大的負數，最終計算出的置信度 Ci 就會較低。

簡單來說，這個公式將模型的預測概率分佈轉換為了一個直觀的、數值化的「置信度分數」。分數越高，模型越確定

第二步：從「平均追蹤置信度」 (Average Trace Confidence) 說起

有了單個詞元的置信度，最容易想到的一個方法就是計算整條推理路徑的平均分

* 平均追蹤置信度 (Average Trace Confidence)：這是最基礎的方法，將一條完整推理路徑中所有token的置信度取平均值。雖然有效，但它的缺點是會「平均掉」局部的、關鍵性的推理失敗，並且必須等待整條路徑生成完畢才能計算，無法提前中止。

與以往直接計算整個路徑的平均置信度（全局指標）不同，DeepConf認為這種方法會掩蓋問題。比如，一條路徑可能90%的步驟都非常自信，但在一個關鍵步驟上出錯了，平均值依然會很高。因此它提出了一系列更精細化的局部置信度指標。

第三步：局部置信度測量 (Local Confidence Measurements)

這個公式就是計算一小段連續文本（一個「組」）的平均置信度。這樣做的好處是避免了單個詞元的置信度波動過大，能更穩定地反映模型在某個推理階段的整體狀態。

* CGi：表示以第 i 個詞元為結尾的這個「組」（Group）的置信度。

* Gi：代表一個包含 n 個詞元的滑動窗口（例如，n=2048）。

* ∣Gi∣：是這個組裡詞元的數量。

* ∑t∈GiCt：將這個組裡所有詞元的置信度（也就是上面公式1算出的Ct）全部加起來。

* 組置信度 (Group Confidence)：這是一種滑動窗口式的測量。它不看全局，而是計算一小段連續token（比如1024個）的平均置信度，這樣能更好地捕捉推理過程中局部的信心波動。

* 尾部置信度 (Tail Confidence)：這個指標很有針對性，它只關心推理路徑最後一部分（比如最後2048個token）的置信度。因為很多時候，成敗就在於最後的結論步驟，結尾的自信程度至關重要。

* 底部10%組置信度 (Bottom 10% Group Confidence)：

這個指標非常巧妙，它關注的是一條路徑中置信度最低的10%的片段的平均值。這就像尋找「木桶的短板」，一個急劇的置信度下降往往預示著推理鏈條的斷裂。

* 最低組置信度 (Lowest Group Confidence)：

這是最極端的情況，直接使用整條路徑中那個置信度最低的「組」的值，來代表整條路徑的質量。這個指標對「短板」的懲罰是最大的。這些指標就像是給AI的思路裝上了不同焦距的顯微鏡，能從不同維度精準捕捉到它在哪個環節開始犯迷糊。

採用「底部10%」或「尾部」置信度並結合過濾（尤其是保留10%），準確率通常最高

DeepConf的雙軌策略：離線和線上思考

基於這些置信度指標，DeepConf設計了兩種非常實用的工作模式。您可以把它們想像成兩種不同的專案管理風格：一個是等所有方案都交上來再評審的「事後諸葛亮」，另一個則是在專案進行中就隨時叫停不靠譜方案的「即時監督員」。

離線模式：讓最「自信」的思考路徑說了算

離線模式操作起來很簡單，就是在模型把所有N條推理路徑都生成完畢後，我們再來做文章。它主要透過兩個關鍵技術來優化結果：

* 置信度加權多數投票 (Confidence-Weighted Majority Voting)：這改變了傳統「一票一投」的規則。每條推理路徑的投票權重不再是1，而是它的置信度得分。這樣一來，那些高置信度、高品質的路徑在最終決策中的話語權就更重。

* 置信度過濾 (Confidence Filtering)：這個更直接，就是在投票前先搞一輪「海選」。比如，可以直接淘汰掉置信度排名後90%的路徑，只讓最精英的10%參與最終決策，以此來大大減少低質量路徑的噪音干擾。

線上模式：即時叫停那些「不靠譜」的思路

線上模式才是這個工作的精華所在，它真正實現了降本增效，操作相當漂亮。它的工作流程設計得非常嚴謹，可以分解為以下幾個步驟：

* 離線預熱 (Offline Warmup)：對於一個新問題，系統會先完整地生成一小批（比如16條）推理路徑。這批「先鋒部隊」的作用是：摸底。

* 設定停止閾值 (Stopping Threshold)：系統會分析這16條預熱路徑的「最低組置信度」，並據此設定一個動態的「及格線」（即停止閾值s）。比如，可以取這批路徑中置信度排名前90%裡最低的那個值作為閾值。

* 動態生成與提前終止 (Online Generation with Early Stopping)：接下來，系統開始生成新的推理路徑。在生成過程中，它會即時監控其局部的「組置信度」，一旦發現自信心跌破了剛才設定的閾值s，系統就果斷地直接掐斷這條路徑，不再讓它往下浪費一個token！

* 自適應採樣 (Adaptive Sampling)：這還有一個錦上添花！系統會持續統計已完成路徑的答案共識度，如果發現大多數路徑已經指向同一個答案（比如共識度超過95%），它就會停止生成更多的路徑，因為答案已經很明確了。

實驗結果：數據不會說謊

論文在多個高難度數學和科學推理基準（如AIME、HMMT、GPQA）上，對多種先進的開源模型（如DeepSeek-8B, Qwen3-32B, GPT-OSS-120B）進行了詳盡的實驗，這次的結果真的非常驚人：

* 準確率大幅提升：在離線模式下，以AIME 2025測試集和GPT-OSS-120B模型為例，標準的多數投票（Cons@512）準確率為97.0%，而使用DeepConf（Tail Conf@512 + top 10%過濾）後，準確率達到了99.9%，幾乎完美解決了這個基準測試。

* 成本顯著降低：在線上模式下，與生成完整路徑的多數投票相比，DeepConf-low（激進過濾策略）在保持或提升準確率的同時，最多可以減少84.7%的token消耗。這意味著原來需要花費100塊錢的計算資源，現在可能只需要15塊錢就能達到甚至更好的效果。

實踐：DeepConf客戶流失預測

為了驗證DeepConf在實際業務場景中的效果，我基於研究者開源的原始碼搭建了一個基於DeepConf的客戶流失預測示例Agent，並用Kaggle上的客戶資料集上進行了測試。

技術棧與環境要求

DeepConf的部署相對簡單，但有幾個關鍵的技術要求您需要了解：

* vLLM推理引擎：這是運行DeepConf的核心依賴，用於高效的批量推理和獲取token級別的log probabilities（logprobs），這是計算置信度的基礎資料。

* 支持logprobs的模型：不是所有模型API都支持返回詳細的token概率，DeepSeek-R1、Qwen等開源模型透過vLLM可以完美支持。

* 合理的計算資源：雖然比傳統自洽性方法節省很多，但多路徑推理仍需要足夠的GPU/CPU資源。

實際運行效果

我使用DeepSeek-R1-8B模型，針對客戶流失預測任務設計了8個不同的"專家視角"（信用評分分析師、客戶行為專家、財務狀況分析師等），每個視角生成4輪推理，共計32條推理路徑。

從實際運行結果可以看到

* 多角度分析：32條推理路徑從不同專業角度分析同一客戶，生成的流失概率預測從10%到60%不等，體現了推理的多樣性。

* 置信度量化：每條路徑都有明確的置信度評分（4.049-8.262範圍），為後續的智能篩選提供依據。

* 智能投票機制：透過線性加權、指數加權和softmax三種方式進行置信度加權投票，最終預測結果為49.9%（分類為"留存"），與實際情況完全吻合。

* 高效執行：整個分析過程僅用時162秒，平均每軌跡生成63.2個token，吞吐量達到12.5 tokens/秒。

在3個隨機客戶的測試中，預測準確率達到66.7%，考慮到這是一個複雜的業務預測任務，這個結果相當令人鼓舞。

關鍵發現

這次實踐讓我看到了DeepConf在實際業務場景中的三個突出優勢：

* 業務洞察豐富性：透過多專家視角，我們不僅得到了預測結果，更重要的是獲得了32種不同的分析思路，為業務決策提供了豐富的參考。

* 結果可解釋性強：每條推理路徑都有完整的分析過程和明確的置信度，讓預測結果不再是「黑盒」。

* 計算效率可控：相比傳統需要數百條路徑的方法，32條路徑就能獲得穩定可靠的結果。

這對我們開發AI產品意味著什麼？

過去，我們試圖透過「人海戰術」（生成海量路徑）來暴力破解推理難題，不僅成本高昂，還常常被噪音淹沒。DeepConf證明，透過智能化的篩選和引導，我們可以透過少量高品質路徑精準地達成目標。這是一種從追求計算的廣度到挖掘智能的深度的轉變。因此DeepConf的價值遠不止於一個降本增效的「秘密武器」。對於身處一線的AI工程師和產品經理而言，它帶來的啟發是戰略性的，標誌著我們與大模型協作方式的一次重要進化。

建議還沒試過的朋友可以去試一下，並不要忘了為作者點一個star！https://github.com/facebookresearch/deepconf/tree/main

未來已來，有緣一起同行！

本文完結

轉載請與本喵聯繫，私自抓取轉載將被起訴

不微調，讓LLM推理準確率暴增到99%！試下DeepConf，一個輕量級推理框架｜Meta最新

分享短網址