長推理≠高精準度！自適應切換「即時回答」與「深度思考」：節省 Token 與提升精準度的雙贏哲學

引言

推論能力的進步極大提升了大型語言模型（LLMs）和多模態大型語言模型（MLLMs）在各類任務中的表現。但過度依賴思維鏈（CoT）推論會降低模型性能，產生冗長輸出，影響效率。

研究發現，長 CoT 推論並非總能提升精準度，甚至會削弱模型處理簡單任務的能力。為此，我們提出基於置信度的自適應推論框架（CAR），它能根據模型困惑度動態選擇簡短回答或詳細的長文本推論：首先生成簡短回答並評估困惑度，僅在模型置信度低（困惑度高）時觸發推論。

在多模態視覺問答、關鍵資訊提取及文本推論等多個基準測試中，CAR 超越了單純的簡短回答與長推論方法，實現了準確性與效率的最佳平衡。

論文標題：

Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning

論文地址：

https://arxiv.org/abs/2505.15154

相關工作

CAR 是第一個自動化切換長短推論的方案。和 CAR 最相關的領域，應該是縮減推論過程中 Token 數量的方案，旨在解決推論過程中 Token 過多帶來的計算損耗增加的問題。

Concise Thoughts [1] 採用固定的全局 Token 預算限制 Token 的生成數量，而 Token-Budget-Aware 的 LLM 推論方式（TALE）[2] 則根據問題複雜度動態調整 Token 的數量預算。

然而，這些方法可能會引入額外的 LLM 呼叫，或面臨不切實際的 Token 數目限制。此外，Chain of Draft（CoD）[3] 透過生成最少中間步驟來減少冗長性，在不影響精準度的前提下顯著降低輸出 Token 的數量。

近期，也有工作提出平行化推論的方法 [4] 以及犧牲可解釋性完成預測 Token 數目縮減的方法 [5,6]。

先導實驗

先導實驗設定

我們在文本密集型視覺問答（VQA）和關鍵資訊抽取（KIE）領域展開先導實驗，選取 8 個代表性資料集用於實驗。其中包含 VQA 資料集：DocVQA、InfoVQA、ChartQA、VisualMRC（涵蓋文件、圖表、資訊圖等多類型視覺文本）；KIE 資料集：SROIE、CORD、FUNSD、POIE（聚焦票據、表格等結構化資訊抽取）。

基於上述資料，我們對 Qwen2.5-0.5B 進行微調，在域內（DocVQA、ChartQA 等）和域外（POIE、InfoVQA 等）資料集上評估性能，要求模型生成兩種回應：簡短答案（提示詞：“Please directly output the answer”）和長文本推論 + 答案（提示詞：“Please output the reasoning process before outputting the answer”）。

評估完成後，我們統計了對應資料集的精準度（Accuracy）和相應回答的困惑度（PPL），其中 PPL 越低表示模型對答案的置信度越高。

▲ 圖1 資料集 PPL scores vs. accuracy

▲ 圖2 各資料集上 PPL 與回答對錯的分布圖

實驗發現：PPL 與精準度存在強負相關性。透過分析資料集級別的精準度與 PPL 關係，我們發現二者呈現顯著逆相關（如圖 1 所示）：精準度越高的資料集，平均 PPL 越低。

此外如圖 2 所示，我們發現資料集內部，預測正確的 examples 的平均 PPL score 也是低於預測錯誤的 examples 的平均 PPL score。

上述實驗揭示了 PPL 作為模型置信度指標的潛力。因此，我們首先提出一個基礎的基於 PPL 的動態推論決策，即低置信度場景（PPL 超過閾值）下觸發長文本推論，避免草率決策；在高置信度場景，直接輸出簡短答案，提升推論效率。

具體地，我們以測試集 PPL 分佈的 75% 分位數作為閾值來評估性能（如表 1 所示）。實驗發現模型在絕大多數資料集上均有明顯性能提升。

▲ 表1 PPL 取 75% 分位數為閾值下的性能對比

方法（Certainty-based Adaptive Reasoning）

基於上述探索性的發現，本文將利用它們作為基礎，開發一個使用困惑度（PPL）的動態推論決策框架 Certainty-based Adaptive Reasoning（CAR），其目標是能夠在推論過程中自適應地在短文本推論和長文本推論之間切換。

透過避免冗餘計算，這種方法將顯著提高模型的推論效率和精準性。如圖 3（a）所示，我們首先使用包含簡短答案的範例和包含長文本推論解答的範例來訓練大型語言模型（LLM）或多模態大型語言模型（MLLM）。

隨後，借助訓練集的困惑度（PPL），我們估計正確和錯誤簡短答案的 PPL 分佈，這些分佈用於決策制定。具體來說，如果估計的分佈確定簡短答案是正確的，所提出的方法會直接輸出該正確答案。否則，它會執行長文本推論。推論過程如圖 3（b）所示。

▲ 圖3 CAR 模型的訓練與推論過程示意圖

模型訓練：我們將同時包含簡短答案和長文本推論解答標註的訓練範例進行混合，建構新的資料集。

為引導模型生成簡短答案，使用指令：“Please directly output the answer”；若需生成帶推論過程的長文本答案，則使用指令：“Please output the reasoning process before outputting the answer”。

隨後採用標準指令微調流程，模型接收由輸入文本和輸出文本組成的序列，最佳化目標為交叉熵損失：

模型訓練完成後，對訓練集中所有樣本進行短答案推論，生成預測答案並計算其困惑度值 PPL。Token 序列的困惑度定義為：

高斯分佈建模：設二元變數 C 表示短答案是否正確（C=1 為正確，C=0 為錯誤），假設正確與錯誤答案的 PPL 分佈均服從高斯分佈：

機率密度函數分別為：

最後，透過訓練資料估計其中參數（假設 n_1 和 n_0 分別為訓練集中正確與錯誤回答的數量）：

推論過程對新輸入 x，推論步驟如下：

1. 簡短回答推論：模型生成簡短回答，並計算相應的 PPL 為 PPL_new；

2. 機率計算：根據貝葉斯定理，將 PPL_new 代入機率密度函數，計算後驗機率；

其中，先驗機率分別為：

3. 決策規則：如果簡短回答的正確機率高於其可能錯誤的機率，直接輸出簡短回答；否則觸發模型的長推論。

實驗結果

5.1 實現細節

我們採用 Qwen2-VL-7B-Instruct 作為多模態語言模型，並使用 Qwen2.5-7B-Instruct 和 Llama3.1-8B-Instruct 作為大型語言模型，分別命名為 CAR、CAR 和 CAR。

所有模型均訓練 3 個 epoch，使用批量大小為 32、學習率為 1e-6 的 AdamW 優化器。最大輸入和輸出序列長度分別設定為 4096 和 1024。訓練在 8 塊 NVIDIA A100 GPU 上進行。

為消除隨機性影響，所有模型在測試期間均不使用取樣方法，且統一採用 beam search=1 生成。此外，生成的最大 token 數設定為 1024，最大輸入 token 數設定為 4096。

為了驗證我們所提出方法的有效性，我們在三個多模態資料集上進行了實驗：DocVQA、ChartQA 和 FUNSD。

與之前章節的先導實驗不同，這裡我們輸入圖像模態資料，並使用多模態大型語言模型進行性能評估。由於這些資料集缺乏推論過程標註，我們復用了先導實驗中獲得的推論過程資料。

此外，我們還在文本資料集上對 CAR 方法進行了評估，選取了三個廣泛使用的推論資料集：數學推論資料集 GSM8K 和 MathQA，以及常識推論資料集 StrategyQA。

5.2 多模態資料集性能比較

表 2 展示了多模態資料集上的性能表現。首先，CAR 相比 CAR 和 CAR 的優越性能，證明了使用困惑度（PPL）作為推論路徑選擇指標的有效性。

此外，CAR 實現了 77.9% 的最高平均精準度，分別比基準模型 Qwen2VL 和 Qwen2VL 提升了 2.8% 和 5.5%。

值得注意的是，我們的方法保持了還具備較少的 Token 使用（平均 86.9 個 token），僅為 Qwen2VL 所使用 Token 數量的 15%。這些結果表明了 CAR 在多模態場景中的實用性。

▲ 表2 多模態資料集上的性能比較

5.3 文本資料集性能比較

表 3 和 4 展示了基於文本的推論任務性能對比。CAR 方法表現出穩健的性能。具體地，使用 Qwen2.5-7B 模型時平均精準度達 81.1%，使用 Llama3.1-8B 時達 74.9%，均優於簡短答案基準模型（55.8% 和 51.5%）以及長文本推論模型（75.0% 和 70.8%）。

值得注意的是，與僅長文本推論相比，CAR 的 Token 使用量分別減少了 45.1%（採用 Qwen2.5 模型）和 45.6%（採用 Llama3.1 模型）。在 Qwen2.5 模型中，CAR 始終優於 CAR 和 CAR，再次證明了使用困惑度（PPL）作為路徑選擇指標的有效性。

此外，CAR 的性能均優於 TALE 和 COD 等先進的 Token 縮減方法。具體而言，在 Qwen2.5 模型上，CAR 的平均精準度比 TALE 高 8.3%，比 COD 高 6.9%，同時保持最低的 Token 使用數量（即 69.2 個 Token）。

類似地，在 Llama3.1 模型上，CAR 的平均精準度分別比 TALE 和 COD 高 6.6% 和 5.5%，且生成的 token 數量最少。

值得注意的是，CAR 的自適應路由在 MathQA 資料集上尤其有效（如 Llama3.1 模型下 70.2% vs. COD 的 59.1%，Qwen2.5 模型下 83.8% vs. COD 的 67.1%），這一現象的潛在原因是提出的 CAR 模型消除了不必要的推論步驟。其凸顯了 CAR 在不同推論範式中的實用性。

▲ 表3 文本資料集上的性能比較（基於 Qwen2.5 模型）

▲ 表4 文本資料集上的性能比較（基於 Llama3.1 模型）

5.4 融合 TALE 方法後的性能比較

我們額外探索了將 CAR 框架與 TALE 等 Token 縮減技術結合的可行性，透過用 TALE 生成的簡短推論步驟替代原始推論過程，在 Qwen2.5-7B 和 Llama3.1-8B 上建構了 CAR-TALE 系列變體。

表 5 與表 6 的結果表明：在 Qwen2.5 模型上，CAR 與 TALE 結合後，平均精準度從 78.8% 提升至 85.5%（+6.7%），生成 token 數從 127.8 減少至 111.3，實現性能與效率雙提升。

在 Llama3.1 模型上，結合 TALE 後，平均精準度從 71.6% 提升至 80.8%（+9.2%），驗證了融合方案的有效性。

實驗證明，CAR 與 Token 縮減技術具有協同優勢，透過自適應推論框架的動態路徑選擇與推論 Token 縮減的技術結合，可進一步最佳化大型模型推論的效率與精準性。

▲ 表5 融合 TALE 方案的 CAR 性能比較（基於 Qwen2.5）

▲ 表6 融合 TALE 方案的 CAR 性能比較（基於 Llama3.1）

總結

我們提出基於置信度的自適應推論框架（CAR），該框架可根據模型置信度動態切換簡短回答與長文本推論模式。

透過困惑度（PPL）量化模型對答案的置信度，CAR 在高置信度時直接輸出簡短回答以提升效率，低置信度時觸發長文本推論以確保精準性。

實驗表明，在多模態（如 DocVQA、ChartQA）和文本推論（如 GSM8K、MathQA）任務中，CAR 的 token 使用量較純長文本推論減少 45% 以上，平均精準度提升 6%-8%，在 Qwen2.5、Llama3.1 等模型上均優於基準方法，尤其在數學推論任務中顯著減少冗餘步驟。

CAR 打破了「長文本推論必然性能更好」的固有認知，為大型模型推論提供了更靈活高效的解決方案，推動大型模型推論向智慧化、輕量化方向發展。

參考文獻

1. Nayab, Sania, et al. "Concise thoughts: Impact of output length on llm reasoning and cost." arXiv preprint arXiv:2407.19825 (2024).

2. Han, Tingxu, et al. "Token-budget-aware llm reasoning." arXiv preprint arXiv:2412.18547 (2024).

3. Xu, Silei, et al. "Chain of draft: Thinking faster by writing less." arXiv preprint arXiv:2502.18600 (2025).

4. Ning, Xuefei, et al. "Skeleton-of-thought: Large language models can do parallel decoding." Proceedings ENLSP-III (2023).

5. Hao, Shibo, et al. "Training large language models to reason in a continuous latent space." arXiv preprint arXiv:2412.06769 (2024).

6. Shen, Zhenyi, et al. "Codi: Compressing chain-of-thought into continuous space via self-distillation." arXiv preprint arXiv:2502.21074 (2025).

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平台上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確系個人原創作品，未曾在公開渠道發表，如為其他平台已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：hr@paperweekly.site

• 來稿請備註即時聯繫方式（微信），以便我們在稿件選用的第一時間聯繫作者

• 您也可以直接添加小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

長推理≠高精準度！自適應切換「即時回答」與「深度思考」：節省 Token 與提升精準度的雙贏哲學

分享短網址