少說「等等」,多做題:NoWait重塑大型模型推理路徑

大型模型「話多症」:不反思就不會解題?

現代大型模型(如DeepSeek-R1)在進行複雜推論時,總是喜歡插入<think>標籤以及「Wait」、「Hmm」等自我反思詞(就像人類糾結時的喃喃自語),如同人類一樣「自言自語」(「Wait... Let me double check…」)。然而,這些詞會觸發冗餘的驗證循環,導致推論軌跡臃腫(例如一道數學題產生超過7000個token),不僅拖慢速度,還徒增運算資源消耗。

就像解題時反覆碎念「讓我再檢查一遍」,實際上卻只是在原地打轉。

圖片

論文:Wait, We Don’t Need to “Wait”! Removing Thinking Tokens Improves Reasoning Efficiency

連結:https://arxiv.org/pdf/2506.08343

NoWait 方法抑制「Wait」類詞生成

NoWait:為模型安裝「關鍵字過濾器」

團隊提出零訓練成本的解決方案:

第一步:找出「思考關鍵字」,統計高頻反思詞(如Wait/Hmm/Alternatively),建立「黑名單」。

第二步:擴展同義詞變體,考量大小寫、空格等詞形變化,例如「Wait」可延伸為「wait」、「WAIT」等(避免模型鑽漏洞)。

第三步:在推論時即時屏蔽,於解碼階段強制將這些詞的生成機率壓至負值,迫使模型跳過贅詞。

這相當於為模型安裝了「防分心外掛程式」,整個過程無需更動模型參數。

成效:文本/圖像/影片任務全面「瘦身」

文本推論(數學競賽題)

在 QwQ-32B、Phi4 等模型上:

推論鏈縮短 27%-51%(例如 AIME 題庫從 1.5 萬個 token 縮減至 1.05 萬個)

準確率不降反升(AMC2023 任務提升 4.25%)

文本任務效能比較:原始 vs. NoWait

文本任務效能比較:原始 vs. NoWait

多模態任務(圖像+影片)

視覺模型 Kimi-VL:

Token 用量暴跌 40-60%(例如 EMMA-mini 從 5734 個縮減至 2269 個)

準確度僅微幅下降 3%

影片模型 QvQ-72B:

推論更專注於時序邏輯(例如「影片開場→進展→結尾」)

冗餘反思詞減少,邏輯更為緊湊

視覺任務效能比較

視覺任務效能比較

影片任務效能比較

影片任務效能比較

案例比較

原始輸出(Qwen3-32B 解數學題):反覆出現「Wait, let me check again」,5 次驗證同一結論。

NoWait 輸出:直接切入關鍵驗證點,篇幅縮減 30% 且答案正確。

NoWait 簡化推論鏈案例

NoWait 簡化推論鏈案例

關鍵發現:強化學習模型為何更「耐用」?

強化學習訓練模型(如 Qwen3-32B):屏蔽「Wait」後準確度仍穩定,因為強化學習鼓勵必要的反思。

蒸餾小型模型(如 Qwen3-4B):準確度暴跌 12%(AIME2025 任務),因為它們依賴預設的推論鏈,切除關鍵字後直接崩潰。

蒸餾模型準確度暴跌比較

蒸餾模型準確度暴跌比較

產業意義

零成本部署:無需重新訓練/微調,即插即用。

多模態通用:首次證明文本/圖像/影片任務均可受益。

顛覆認知:「自我反思」並非必要步驟,高效推論可跳過形式。

解題時少些糾結,反而更精準、更快速!

主標籤:大型語言模型優化

次標籤:提示工程機器學習應用多模態AI推理效率


上一篇:ACL 2025 | 大型語言模型「以訛傳訛」?DRAG 雙階段「多代理辯論」破解幻覺疊加問題

下一篇:AI「雙重人格」曝光,OpenAI 最新研究找到 AI 「善惡開關」,一鍵切換黑暗面

分享短網址