少說「等等」，多做題：NoWait重塑大型模型推理路徑

大型模型「話多症」：不反思就不會解題？

現代大型模型（如DeepSeek-R1）在進行複雜推論時，總是喜歡插入<think>標籤以及「Wait」、「Hmm」等自我反思詞（就像人類糾結時的喃喃自語），如同人類一樣「自言自語」（「Wait... Let me double check…」）。然而，這些詞會觸發冗餘的驗證循環，導致推論軌跡臃腫（例如一道數學題產生超過7000個token），不僅拖慢速度，還徒增運算資源消耗。

就像解題時反覆碎念「讓我再檢查一遍」，實際上卻只是在原地打轉。

論文：Wait, We Don’t Need to “Wait”! Removing Thinking Tokens Improves Reasoning Efficiency

連結：https://arxiv.org/pdf/2506.08343

NoWait 方法抑制「Wait」類詞生成

NoWait：為模型安裝「關鍵字過濾器」

團隊提出零訓練成本的解決方案：

第一步：找出「思考關鍵字」，統計高頻反思詞（如Wait/Hmm/Alternatively），建立「黑名單」。

第二步：擴展同義詞變體，考量大小寫、空格等詞形變化，例如「Wait」可延伸為「wait」、「WAIT」等（避免模型鑽漏洞）。

第三步：在推論時即時屏蔽，於解碼階段強制將這些詞的生成機率壓至負值，迫使模型跳過贅詞。

這相當於為模型安裝了「防分心外掛程式」，整個過程無需更動模型參數。

成效：文本／圖像／影片任務全面「瘦身」

文本推論（數學競賽題）

在 QwQ-32B、Phi4 等模型上：

推論鏈縮短 27%-51%（例如 AIME 題庫從 1.5 萬個 token 縮減至 1.05 萬個）

準確率不降反升（AMC2023 任務提升 4.25%）

文本任務效能比較：原始 vs. NoWait

文本任務效能比較：原始 vs. NoWait

多模態任務（圖像＋影片）

視覺模型 Kimi-VL：

Token 用量暴跌 40-60%（例如 EMMA-mini 從 5734 個縮減至 2269 個）

準確度僅微幅下降 3%

影片模型 QvQ-72B：

推論更專注於時序邏輯（例如「影片開場→進展→結尾」）

冗餘反思詞減少，邏輯更為緊湊

視覺任務效能比較

視覺任務效能比較

影片任務效能比較

影片任務效能比較

案例比較

原始輸出（Qwen3-32B 解數學題）：反覆出現「Wait, let me check again」，5 次驗證同一結論。

NoWait 輸出：直接切入關鍵驗證點，篇幅縮減 30% 且答案正確。

NoWait 簡化推論鏈案例

NoWait 簡化推論鏈案例

關鍵發現：強化學習模型為何更「耐用」？

強化學習訓練模型（如 Qwen3-32B）：屏蔽「Wait」後準確度仍穩定，因為強化學習鼓勵必要的反思。

蒸餾小型模型（如 Qwen3-4B）：準確度暴跌 12%（AIME2025 任務），因為它們依賴預設的推論鏈，切除關鍵字後直接崩潰。

蒸餾模型準確度暴跌比較

蒸餾模型準確度暴跌比較

產業意義

零成本部署：無需重新訓練／微調，即插即用。

多模態通用：首次證明文本／圖像／影片任務均可受益。

顛覆認知：「自我反思」並非必要步驟，高效推論可跳過形式。

解題時少些糾結，反而更精準、更快速！

主標籤：大型語言模型優化

次標籤：提示工程、機器學習應用、多模態AI、推理效率

上一篇：ACL 2025 | 大型語言模型「以訛傳訛」？DRAG 雙階段「多代理辯論」破解幻覺疊加問題

下一篇：AI「雙重人格」曝光，OpenAI 最新研究找到 AI 「善惡開關」，一鍵切換黑暗面

分享短網址

原始網址：https://mp.weixin.qq.com/s/vWGz40AOu1TFU-97K-FoSg