不微調,讓LLM推理準確率暴增到99%!試下DeepConf,一個輕量級推理框架|Meta最新

在大型語言模型(LLM)進行數學題、邏輯推理等複雜任務時,一個非常流行且有效的方法叫做「自洽性」(Self-Consistency),通常也被稱為「平行思考」。它的邏輯很簡單:不要只讓模型想一次,而是讓它用不同的隨機性(temperature > 0)生成多個解答過程(我們稱之為「推理路徑」或「trace」),然後透過「多數投票」(Majority Voting)選出出現次數最多的答案。這就好比讓一個學生把一道題做很多遍,然後選一個他得出次數最多的答案,通常這個答案的正確率會更高。

這個方法雖然一度管用,但問題也挺明顯,存在兩個致命痛點:

* 成本極其高昂:假設為了提升一點點準確率,你需要模型生成512條推理路徑。這意味著你的計算成本(token消耗量)會暴增512倍。這在實際應用中是難以承受的。

* 性能遭遇瓶頸:「多數投票」有一個樸素的假設,每一條推理路徑的「投票權」是平等的。就像一個大型村民大會,每人一票,商討解決一個複雜問題,但在這個大會上,有深思熟慮的專家,也有隨便猜想的門外漢,甚至還有一些理解錯問題的「搗亂者」。由於規則是「人人平等」,如果恰好有足夠多的「門外漢」和「搗亂者」碰巧猜了同一個錯誤答案,他們的票數就會淹沒掉少數專家的正確意見。這就是為什麼路徑越多,準確率有時反而會提升很快飽和甚至下降的原因,引入了太多的「噪音」。

圖片

圖片

來自Meta和UCSD的研究者們,提出了一套名為Deep Think with Confidence(DeepConf)的輕量級推理框架,有效解決了這個「又貴又沒效率」的窘境,並讓GPT-oss在AIME2025的準確率達到了驚人的99.9%,遠高於標準多數投票的97.0%。https://arxiv.org/abs/2508.15260

DeepConf:模型的「自信心」是個寶藏

DeepConf的出發點非常巧妙:能否在不增加外部裁判的情況下,讓模型自己來判斷哪條推理路徑質量更高呢?

圖片

答案是可以的,透過模型的「內部置信度訊號」(Internal Confidence Signals)當模型在生成每一個詞(token)時,它都會對詞彙表裡的所有詞計算一個概率分佈。

* 如果模型非常確定下一個詞應該是什麼,這個概率分佈就會非常「尖銳」,集中在少數幾個詞上(熵低)。

* 如果模型非常不確定,它可能會覺得好幾個詞都有可能,概率分佈就比較「平坦」(熵高)。

DeepConf的核心思想就是:一條高品質的推理路徑,模型在絕大多數步驟中都應該是自信的,其整個生成過程模型的「置信度」應該普遍較高;反之,充滿不確定性和錯誤的路徑,則必然會在某些環節表現出「猶豫」,其置信度會很低。

關鍵概念:怎麼量化AI的「自信」?

為了更精準地「把脈」AI的思考過程,研究者們探討了多種衡量其「自信心」的方法,這是一個從基礎單位到複雜應用的、層層遞進的過程。

第一步:定義最基礎的「詞元置信度」 (Token Confidence)

圖片

這是所有「自信」置信度計算的基石,定義了模型在生成每一個詞元(token)時的確定程度。

* Ci:表示在第 i 個位置上生成的詞元的置信度分數。

* Pi(j):代表在第 i 個位置,模型預測的第 j 個最有可能的候選詞元的概率。

* k:表示我們考慮多少個最可能的候選詞元(例如,k=20)。

* logPi(j):這是取概率的對數。因為概率值在0到1之間,其對數是負數。

* −k1∑...:Σ是求和符號。整個公式的意思是,將概率最高的k個候選詞元的對數概率加起來,取平均值,最後再取負號。

為什麼要這麼算?這個公式非常巧妙。當模型非常「自信」時,它會給某個詞元非常高的概率(接近1),其他候選詞概率很低。這時logP的值會接近0,所以計算出的置信度 Ci 會是一個較高的正數。反之,如果模型「不確定」,它會給很多候選詞元差不多的低概率,這時logP的值會是較大的負數,最終計算出的置信度 Ci 就會較低。

簡單來說,這個公式將模型的預測概率分佈轉換為了一個直觀的、數值化的「置信度分數」。分數越高,模型越確定

第二步:從「平均追蹤置信度」 (Average Trace Confidence) 說起

有了單個詞元的置信度,最容易想到的一個方法就是計算整條推理路徑的平均分

* 平均追蹤置信度 (Average Trace Confidence):這是最基礎的方法,將一條完整推理路徑中所有token的置信度取平均值。雖然有效,但它的缺點是會「平均掉」局部的、關鍵性的推理失敗,並且必須等待整條路徑生成完畢才能計算,無法提前中止。

與以往直接計算整個路徑的平均置信度(全局指標)不同,DeepConf認為這種方法會掩蓋問題。比如,一條路徑可能90%的步驟都非常自信,但在一個關鍵步驟上出錯了,平均值依然會很高。因此它提出了一系列更精細化的局部置信度指標。

第三步:局部置信度測量 (Local Confidence Measurements)

圖片

這個公式就是計算一小段連續文本(一個「組」)的平均置信度。這樣做的好處是避免了單個詞元的置信度波動過大,能更穩定地反映模型在某個推理階段的整體狀態。

* CGi:表示以第 i 個詞元為結尾的這個「組」(Group)的置信度。

* Gi:代表一個包含 n 個詞元的滑動窗口(例如,n=2048)。

* ∣Gi∣:是這個組裡詞元的數量。

* ∑t∈GiCt:將這個組裡所有詞元的置信度(也就是上面公式1算出的Ct)全部加起來。

* 組置信度 (Group Confidence):這是一種滑動窗口式的測量。它不看全局,而是計算一小段連續token(比如1024個)的平均置信度,這樣能更好地捕捉推理過程中局部的信心波動。

* 尾部置信度 (Tail Confidence):這個指標很有針對性,它只關心推理路徑最後一部分(比如最後2048個token)的置信度。因為很多時候,成敗就在於最後的結論步驟,結尾的自信程度至關重要。

* 底部10%組置信度 (Bottom 10% Group Confidence):

圖片

這個指標非常巧妙,它關注的是一條路徑中置信度最低的10%的片段的平均值。這就像尋找「木桶的短板」,一個急劇的置信度下降往往預示著推理鏈條的斷裂。

* 最低組置信度 (Lowest Group Confidence):

圖片

這是最極端的情況,直接使用整條路徑中那個置信度最低的「組」的值,來代表整條路徑的質量。這個指標對「短板」的懲罰是最大的。這些指標就像是給AI的思路裝上了不同焦距的顯微鏡,能從不同維度精準捕捉到它在哪個環節開始犯迷糊。

圖片

採用「底部10%」或「尾部」置信度並結合過濾(尤其是保留10%),準確率通常最高

DeepConf的雙軌策略:離線和線上思考

基於這些置信度指標,DeepConf設計了兩種非常實用的工作模式。您可以把它們想像成兩種不同的專案管理風格:一個是等所有方案都交上來再評審的「事後諸葛亮」,另一個則是在專案進行中就隨時叫停不靠譜方案的「即時監督員」。

圖片

離線模式:讓最「自信」的思考路徑說了算

離線模式操作起來很簡單,就是在模型把所有N條推理路徑都生成完畢後,我們再來做文章。它主要透過兩個關鍵技術來優化結果:

* 置信度加權多數投票 (Confidence-Weighted Majority Voting):這改變了傳統「一票一投」的規則。每條推理路徑的投票權重不再是1,而是它的置信度得分。這樣一來,那些高置信度、高品質的路徑在最終決策中的話語權就更重。

* 置信度過濾 (Confidence Filtering):這個更直接,就是在投票前先搞一輪「海選」。比如,可以直接淘汰掉置信度排名後90%的路徑,只讓最精英的10%參與最終決策,以此來大大減少低質量路徑的噪音干擾。

線上模式:即時叫停那些「不靠譜」的思路

圖片

線上模式才是這個工作的精華所在,它真正實現了降本增效,操作相當漂亮。它的工作流程設計得非常嚴謹,可以分解為以下幾個步驟:

* 離線預熱 (Offline Warmup):對於一個新問題,系統會先完整地生成一小批(比如16條)推理路徑。這批「先鋒部隊」的作用是:摸底。

* 設定停止閾值 (Stopping Threshold):系統會分析這16條預熱路徑的「最低組置信度」,並據此設定一個動態的「及格線」(即停止閾值s)。比如,可以取這批路徑中置信度排名前90%裡最低的那個值作為閾值。

* 動態生成與提前終止 (Online Generation with Early Stopping):接下來,系統開始生成新的推理路徑。在生成過程中,它會即時監控其局部的「組置信度」,一旦發現自信心跌破了剛才設定的閾值s,系統就果斷地直接掐斷這條路徑,不再讓它往下浪費一個token!

* 自適應採樣 (Adaptive Sampling):這還有一個錦上添花!系統會持續統計已完成路徑的答案共識度,如果發現大多數路徑已經指向同一個答案(比如共識度超過95%),它就會停止生成更多的路徑,因為答案已經很明確了。

實驗結果:數據不會說謊

論文在多個高難度數學和科學推理基準(如AIME、HMMT、GPQA)上,對多種先進的開源模型(如DeepSeek-8B, Qwen3-32B, GPT-OSS-120B)進行了詳盡的實驗,這次的結果真的非常驚人:

圖片

* 準確率大幅提升:在離線模式下,以AIME 2025測試集和GPT-OSS-120B模型為例,標準的多數投票(Cons@512)準確率為97.0%,而使用DeepConf(Tail Conf@512 + top 10%過濾)後,準確率達到了99.9%,幾乎完美解決了這個基準測試。

* 成本顯著降低:在線上模式下,與生成完整路徑的多數投票相比,DeepConf-low(激進過濾策略)在保持或提升準確率的同時,最多可以減少84.7%的token消耗。這意味著原來需要花費100塊錢的計算資源,現在可能只需要15塊錢就能達到甚至更好的效果。

實踐:DeepConf客戶流失預測

為了驗證DeepConf在實際業務場景中的效果,我基於研究者開源的原始碼搭建了一個基於DeepConf的客戶流失預測示例Agent,並用Kaggle上的客戶資料集上進行了測試。

圖片

技術棧與環境要求

DeepConf的部署相對簡單,但有幾個關鍵的技術要求您需要了解:

* vLLM推理引擎:這是運行DeepConf的核心依賴,用於高效的批量推理和獲取token級別的log probabilities(logprobs),這是計算置信度的基礎資料。

* 支持logprobs的模型:不是所有模型API都支持返回詳細的token概率,DeepSeek-R1、Qwen等開源模型透過vLLM可以完美支持。

* 合理的計算資源:雖然比傳統自洽性方法節省很多,但多路徑推理仍需要足夠的GPU/CPU資源。

實際運行效果

我使用DeepSeek-R1-8B模型,針對客戶流失預測任務設計了8個不同的"專家視角"(信用評分分析師、客戶行為專家、財務狀況分析師等),每個視角生成4輪推理,共計32條推理路徑。

圖片

圖片

從實際運行結果可以看到

* 多角度分析:32條推理路徑從不同專業角度分析同一客戶,生成的流失概率預測從10%到60%不等,體現了推理的多樣性。

* 置信度量化:每條路徑都有明確的置信度評分(4.049-8.262範圍),為後續的智能篩選提供依據。

* 智能投票機制:透過線性加權、指數加權和softmax三種方式進行置信度加權投票,最終預測結果為49.9%(分類為"留存"),與實際情況完全吻合。

* 高效執行:整個分析過程僅用時162秒,平均每軌跡生成63.2個token,吞吐量達到12.5 tokens/秒。

在3個隨機客戶的測試中,預測準確率達到66.7%,考慮到這是一個複雜的業務預測任務,這個結果相當令人鼓舞。

關鍵發現

這次實踐讓我看到了DeepConf在實際業務場景中的三個突出優勢:

* 業務洞察豐富性:透過多專家視角,我們不僅得到了預測結果,更重要的是獲得了32種不同的分析思路,為業務決策提供了豐富的參考。

* 結果可解釋性強:每條推理路徑都有完整的分析過程和明確的置信度,讓預測結果不再是「黑盒」。

* 計算效率可控:相比傳統需要數百條路徑的方法,32條路徑就能獲得穩定可靠的結果。

這對我們開發AI產品意味著什麼?

過去,我們試圖透過「人海戰術」(生成海量路徑)來暴力破解推理難題,不僅成本高昂,還常常被噪音淹沒。DeepConf證明,透過智能化的篩選和引導,我們可以透過少量高品質路徑精準地達成目標。這是一種從追求計算的廣度到挖掘智能的深度的轉變。因此DeepConf的價值遠不止於一個降本增效的「秘密武器」。對於身處一線的AI工程師和產品經理而言,它帶來的啟發是戰略性的,標誌著我們與大模型協作方式的一次重要進化。

圖片

建議還沒試過的朋友可以去試一下,並不要忘了為作者點一個star!https://github.com/facebookresearch/deepconf/tree/main

未來已來,有緣一起同行!

本文完結

轉載請與本喵聯繫,私自抓取轉載將被起訴

主標籤:大型語言模型

次標籤:深度學習效率優化置信度推理框架


上一篇:史丹佛提出新強化學習範式,讓3B模型智能體超越Claude、GPT-4

下一篇:AI 推論效能飆升 7.5 倍!NVIDIA Rubin CPX 重塑 AI 獲利效率,投資 1 億回報 50 億

分享短網址