本文作者來自亞利桑那州立大學數據挖掘與機器學習實驗室 (Data Mining and Machine Learning Lab),包括博士研究生趙成帥、譚箴、馬平川、李大衛、蔣博涵,以及指導教授劉歡。史丹佛深度學習實驗室 (Statistical Deep Learning Lab) 王硯丞、楊穎振教授。
思維鏈 (CoT) 提示技術常被視為讓大型語言模型逐步思考的關鍵方法。透過在輸入中加入「Let’s think step by step」等提示,模型會生成類似人類的推論中間步驟,顯著提升複雜任務的表現。然而,這些流暢的推論鏈條是否真的反映了模型的推論能力?
亞利桑那州立大學的一項最新研究卻發現,CoT 推論可能並非真正的推論,而更像是對訓練資料分佈內模式的重現。一旦輸入任務與訓練資料分佈存在差異,這種看似穩固的推論鏈條就會迅速失效,呈現出類似「海市蜃樓」的脆弱性。
論文標題:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
推特討論:https://x.com/ChengshuaiZhao/status/1953291261999497258
領英推廣:https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/
在這項研究中,作者探討了 CoT 的泛化能力與分佈外 (Out-of-Distribution, OOD) 問題。馬斯克曾當場測試 Grok 是否會生成 OOD 內容,直接「強迫」Grok 生成粗俗的髒話銳評,製造了十足的節目效果!
推論的「幻象」
研究團隊在論文開頭給出了一個典型的例子:問題是:「美國建國那年是閏年還是平年?」,模型的回答是:「美國建於 1776 年,1776 能被 4 整除,又不是世紀年,所以是閏年。因此,美國建國那一年是平年。」這個回答中的推論步驟和知識點看似正確,但結論卻與前提自相矛盾。這表明模型雖然會複述邏輯規則,卻未必真的運用這些規則來推導答案。
事實上,已有相關研究指出,CoT 的性能提升往往源於表層語義匹配。一旦問題稍作改寫,或者引入與結論無關的內容,模型的表現便會顯著下降。
資料分佈視角下的 CoT 假設
在這項研究中,作者提出了一個新的解釋框架,即從資料分佈的角度來理解 CoT。他們認為,CoT 的有效性主要源於模型在訓練分佈內學到的「結構性歸納偏差」(structured inductive bias)。
換句話說,所謂的推論鏈只是對訓練資料中常見模式的重現,而非真正的邏輯推演。當測試任務與訓練資料之間的分佈差異增大時,這種「推論」表現會迅速崩塌。
研究團隊還用理論公式刻畫了這種關係,並引入了一個可計算的分佈差異指標,從而能夠在實驗中估計分佈偏移對推論性能的影響。
可控實驗平台:數據煉金術 (DataAlchemy)
為了避免大規模預訓練模型中複雜因素的干擾,團隊選擇從零開始訓練語言模型,並建立了一個名為數據煉金術 (DataAlchemy) 的可控實驗環境。
在此框架中,作者將廣泛意義上的各種自然語言處理 (NLP) 下游任務抽象成不同「元素」和「變換」的組合。基本「元素」是由 26 個字母原子組成的固定長度序列。作者設計了兩種基本「變換」:一種是 ROT 變換,即將字母表循環位移若干位;另一種是循環位置平移,將序列整體向右移動指定位置。
在此基礎上,他們建構了各種組合變換,透過將不同變換按順序和參數串聯,形成推論鏈。每個任務的正確推論鏈可以被精確生成,這使得模型輸出與標準答案之間的差異能夠被逐步對照評估。
三類泛化實驗的發現
首先在「任務泛化」方面,作者分別考察了「變換泛化」和「元素泛化」兩種情形。「變換泛化」測試了模型在面對新的變換組合,甚至完全陌生的變換類型時的表現;「元素泛化」則涉及模型遇到新的字母組合,或者訓練過程中從未見過的字母。
在分佈內的情況下,模型的準確率接近 100%。然而,只要分佈稍有偏移,例如變換順序被重新組合,準確率便會驟降至 0.01%;當測試中出現全新「變換」時,性能更是幾乎完全喪失。
作者還發現,雖然在少量新資料上進行監督式微調 (SFT) 可以迅速恢復性能,但這只是在原有分佈邊界上做了擴展,並未真正提升模型的抽象泛化能力。
在「長度泛化」方面,研究團隊分別考察了「文本長度」變化和「推論步數」變化的影響。實驗結果表明,即使輸入序列長度僅比訓練時多或少一個單位,模型的表現也會顯著下降。它往往會生成與訓練長度一致的推論鏈,並透過添加或刪除詞元來「湊長度」。當推論步數與訓練設定不一致時,模型幾乎完全無法泛化,除非它在訓練中明確地見過相應步數的範例。
在「格式泛化」方面,作者透過插入、刪除、替換等方式擾動輸入提示,以模擬現實場景中多樣的格式。他們發現,模型對格式的變化極為敏感,尤其是當變化發生在「元素」或「變換」部分時,即使邏輯內容不變,僅僅提示形式不同,也可能導致推論徹底失敗。
溫度、規模與泛化脆弱性的普遍性
作者進一步測試了不同採樣溫度和模型規模下的表現。在合理的溫度範圍內,CoT 的脆弱性模式保持一致。模型規模的變化同樣不影響這一趨勢。這表明,這種對分佈偏移的敏感性並非個別模型的特性,而是一種普遍現象。
研究的現實意義
這項研究對實際應用提出了多項警示。
首先,在醫療、金融和法律等高風險領域,不能盲目依賴 CoT 作為穩健推論的保證。流暢但邏輯有誤的推論鏈可能比直接給出錯誤答案更具誤導性。
其次,現有的評估方法往往依賴與訓練分佈高度一致的驗證集,這會嚴重高估模型的穩健性。為了更準確地評估系統性能,必須引入嚴格的分佈外測試。
最後,雖然在少量新資料上進行監督式微調 (SFT) 可以迅速提升特定任務下的表現,但這種方法只是對原有分佈的局部擴展,不能賦予模型真正的抽象推論能力。
結論
透過資料分佈的視角,這項研究揭示了 CoT 推論的本質:它更像是對訓練中出現過的模式的結構化重現,而不是真正的邏輯推論。一旦任務結構、推論鏈長度或輸入格式超出了訓練分佈的範圍,模型的表現便會迅速崩潰。
在未來的發展中,研究者和工程師需要在充分利用 CoT 在分佈內的優勢的同時,正視其在泛化能力上的瓶頸,並在評估和部署中保持足夠的謹慎。