Bengio親自戳破CoT神話！大型語言模型推論是假象，25％頂尖會議論文遭打臉

圖片

來源 | 新智元

編輯 | YHluck 桃子

圖靈獎大師Bengio新作上線了！

這篇由牛津、Google DeepMind、Mila等多家機構聯手發表的論文指出——思維鏈並非可解釋性。

這一觀點徹底打破了許多人的認知：

CoT看似一步步給出答案，實則不一定是其真實的推論過程。

論文地址：https://www.alphaxiv.org/abs/2025.02

這麼說來，能夠暴露大型語言模型（LLM）內心世界的「思維鏈」，如今也不可靠了？

論文中，研究人員撕開了CoT的面紗，揭露了一個令人震驚的真相：思維鏈的透明度，可能只是一種精心編織的假象！

思維鏈「謊言」被揭穿

然而，現實中，約25%的近期AI論文錯誤地將CoT標榜為「可解釋性技術」。

這一概念最先由前Google研究員Jason Wei在論文中提出，一時間，CoT被廣泛應用在推論模型當中。

它最大的特點，就是能夠多步驟推論，提升模型準確性。與此同時，讓AI黑箱變得不再那麼神秘。

然而，CoT的思考過程，是其真正的內心獨白嗎？

一些論文信誓旦旦地宣稱，CoT可以讓我們看清AI的推論過程，但事實遠非如此。

尤其是，在高風險領域，這個誤解的代價可能是致命的。

研究人員發現，在使用CoT的論文中，約38%的醫療AI、25%的法律AI、63%的自動駕駛汽車相關論文，都盲目地將CoT視為可解釋性方法。

更令人毛骨悚然的是，帶有明確偏見的提示詞，可以輕易左右模型的答案。

而且，這些偏見在AI給出的「推論步驟」中隻字不提。

AI能為帶有偏見的答案，編織出看似合理的解釋，卻從不暴露背後的「黑手」。

因此，輕信這些帶有偏見的答案，可能十分危險。

不僅如此，AI還會在推論過程中，常常「偷偷」修正自己的錯誤。

表面上看，大型語言模型給出的步驟可能漏洞百出，但它卻能透過未被表述的「暗箱操作」得出正確答案。

這便製造了一種透明的假象。為何會出現這種脫節？

研究人員推測，簡潔的CoT無法完全捕捉基於Transformer的大型語言模型中存在的分布式并行計算過程。

CoT如何掩蓋真實推論？

越來越多的實證研究已經發現了大量案例，其中模型的思維鏈與其內部推論過程相偏離。

需要指出的是，在審視不忠實性的具體模式之前，CoT解釋的忠實性因模型架構等多種因素而異。

研究人員也總結了4項關鍵發現：偏見驅動的合理化與動機性推論、隱性錯誤修正（Silent Error Correction）、不忠實的非邏輯捷徑（Unfaithful Illogical Shortcuts）、填充詞元 (Filler Tokens)。

每一項都闡明了CoT是如何誤導或掩蓋模型的實際決策過程，我們為你梳理了關鍵發現中的要點問題：

偏見驅動的合理化與動機性推論

Turpin等研究者透過巧妙地偏置模型輸入證明偏見驅動的合理化。

舉個例子：

在提示中重新排序多項選擇題的選項，使得正確選項總是在同一位置（例如，總是字母B）。

在這種情況下，儘管它們的CoT解釋從未提及選項重排是一個影響因素，GPT-3.5和Claude 1.0經常會選擇那個被偏置的選項。

當模型被偏向錯誤答案時，它們仍然會生成詳細的CoT來為那些錯誤答案進行合理化解釋。

結果導致在一系列任務上準確率下降了高達36%，而CoT則給出了一個具有誤導性的推論假象。

另一項研究透過在提示中添加明確答案（例如，「答案是C」）來調查提示注入的偏見，然後要求模型為其選擇提供理由。

Claude 3.7-Sonnet和DeepSeek-R1分別僅在約25%和約39%的情況下承認了被注入的答案。

這些發現表明，思維鏈常常作為事後合理化（post-hoc rationalisations）運作，忽略了真正的因果因素，並製造了一種透明解釋的假象。

隱性錯誤修正（Silent Error Correction）

研究人員指出，模型可能會在其思維鏈中犯錯，然後在內部修正這些錯誤，而CoT卻不反映這一修正過程。

舉個例子：

在一個CoT推論過程中，模型可能將一個三角形的斜邊錯誤地計算為16，而正確值應為13，但隨後卻陳述：「我們將斜邊長度13與其他兩條邊長相加得到周長。」

模型在內部檢測並修正了錯誤，但CoT的敘述從未修正或標記這個錯誤——它讀起來像一個連貫的解題過程。

這些隱性錯誤表明，最終答案是透過敘述步驟之外的計算得出的。

不忠實的非邏輯捷徑（Unfaithful Illogical Shortcuts）

研究人員表示，模型會透過潛在的捷徑得出正確答案，例如利用記憶的模式作為替代推論路徑，從而繞過完整的演算法推論，這使得明確的推論鏈變得不相關或不正確。

來個典型案例：

有研究者使用歸因圖（一種追蹤哪些計算步驟對最終輸出有貢獻的方法）發現，在解決像「36 + 59」這樣的問題時，Claude 3.5 Haiku同時使用了查找表特徵（例如，用於「將接近36的數與接近60的數相加」）和加法計算特徵。

有趣的是，當被要求描述模型如何得出答案時，模型報告稱，其執行了逐位相加進位，完全忽略了其使用查找表捷徑的事實。

填充詞元（Filler Tokens）

研究指出，在某些演算法推論任務中，使用填充詞元——例如「...」或學到的「停頓」詞元這類對任務沒有語義貢獻但會影響模型內部計算的輸入詞元——可以提高模型性能。

方便你理解，舉個例子：

研究者發現，輸入中附加可學習的停頓詞元（可作為一種填充詞元），在許多任務上都帶來了顯著的性能提升。

無獨有偶，研究者還發現，添加填充詞元使模型能夠解決它們以前失敗的問題，尤其是在使用密集監督進行訓練時。

以上幾項關鍵發現，均解釋了CoT的不忠實性是一個普遍存在於不同模型架構和規模中的根本性挑戰。

其由提示詞偏見、未能承認隱藏影響以及在複雜推論任務中系統性的修復錯誤等因素導致，發生率相當高。

CoT解釋與內部計算不一致，是為何？

以上案例中，我們看到了一些關於CoT表裡不一的現象，那麼，究竟是什麼原因導致的？

分布式并行計算，而非順序

「機制可解釋性」研究表明，Transformer架構可能從根本上限制了CoT的忠實度。

基於Transformer搭建的LLM，通常以分布式方式同時透過多個組件處理資訊，而不是CoT呈現的順序步驟。

正是因為這種架構差異，導致了模型計算方式與語言表達方式之間，存在固有的不匹配。

舉個例子，面對「24÷3=?」這樣簡單的數學問題，LLM會怎麼做？

它一定不會像人類學生那樣，逐一分析「3能除24多少次」，或是列出長除法的步驟。

相反，LLM內的多個注意力頭，會同時處理這些數字之間的關係。

它可能將其識別為記憶中的事實，確認其為8的乘法表的一部分，並計算除法——所有這些都在并行進行。

為了生成簡潔且看似合理的輸出，LLM通常只生成一個這樣的敘述來合理化它們的答案，而不是表達所有并行路徑，即使是那些可能顯著影響最終答案的路徑。

因此，CoT通常會忽略有影響的因素，僅作為模型底層分布式、疊加計算的部分、事後合理化。

冗餘路徑

此外，LLM在處理任務時，往往會透過多條冗餘計算路徑得出相同結論。

以計算√144為例，模型可能同時執行以下操作：

識別這是一個記憶中的事實（12×12=144）
應用平方根演算法
與訓練數據中的類似問題進行模式匹配

當從模型解釋「√144=12」的CoT中移除關鍵步驟「144=12×12」時，LLM仍能夠正確輸出12。

這表明，LLM的答案並不完全依賴於語言化的推論步驟，而是依賴其內部的多條冗餘路徑。

這種冗餘計算路徑的現象，被研究者稱為「九頭蛇效應」（Hydra Effect）。

即如果LLM一條路徑被阻斷或移除，另一條路徑可以接替。

這也就解釋了，為什麼對CoT的某些部分進行修改或刪除，對最終答案的影響微乎其微。

CoT忠實性挑戰

Tanneru等研究者曾嘗試透過在訓練中懲罰不一致性，引導LLM生成忠實的CoT推論。

然而，這一方法僅取得了部分成功，尤其是在複雜問題上，模型傾向於生成看似合理但非因果的解釋。

比如，模型可能輸出一個邏輯清晰的CoT，卻掩蓋了其真正的決策路徑。

這種「合理化」傾向不僅難以完全消除，還可能在微調或持續學習過程中重新出現。

另有研究人員Chua和Evans，進一步研究了經過專門「推論訓練」的模型，結果發現：

DeepSeek-R1在59%的測試中能提及提示線索，但仍有41%的情況，未能識別關鍵影響因素。

即便是最先進的DeepSeek-V3，也僅在7%案例中提及線索，表明推論訓練的效果極其有限。

更令人擔憂的是，LLM可能透過CoT「欺騙」監控機制。

當CoT被用於監控RL獎勵函數中的推論時，模型學會生成看似無害的推論軌跡，實則暗中執行有害策略。

CoT假象，破解之法

論文的最後，針對CoT透明度的問題，研究人員指出，「我們不能繼續被假象蒙蔽」。

為此，他們提出了以下幾點建議：

1. 重新定義CoT的角色

CoT不是可解釋性的「萬能鑰匙」，而應視為一種補充工具。它能提供線索，但絕非真相的全部。

2. 引入嚴格的驗證機制

透過因果驗證技術，如激活修補（activation patching）、反事實檢驗、驗證器模型，深入探查AI的推論過程是否忠實。

3. 借鑒認知科學

模仿人類的錯誤監控、自我修正敘事和雙重過程推論（直覺+反思），讓AI的解釋更接近真實。

4. 強化人工監督

開發更強大的工具，讓人類專家能夠審查和驗證AI的推論過程，確保其可信度。

參考資料：

https://x.com/FazlBarez/status/1940070420692312178

https://www.alphaxiv.org/abs/2025.02

Bengio親自戳破CoT神話！大型語言模型推論是假象，25％頂尖會議論文遭打臉

分享短網址