想越多,錯越多:CoT「深度思考」反成大型語言模型幻覺催化劑!

圖片

一句話概括,別再迷信模型的「深度思考」了,這篇論文用詳盡的實驗證實:對於知識密集型任務,更長的思維鏈非但沒能挖出更多知識,反而成了模型編造謊言、陷入「確認偏誤」的溫床。想得越多,錯得越離譜。(原論文題目見文末,點擊閱讀原文可直接跳轉至原文連結,Published on arxiv on 08 Sep 2024, by National University of Singapore)

第一階段:識別核心概念

論文的動機分析

研究背景——近年來,大型語言模型(LLM)在解決複雜問題,尤其是需要一步步推論的任務(如數學題)上取得了巨大進步。這背後的一項關鍵技術被稱為測試時擴展 (Test-Time Scaling),簡單來說,就是在模型回答問題之前,讓它花更多的時間進行「思考」,生成一長串的「內心獨白」或「思維鏈」(Chain-of-Thought, CoT)。這個策略的直覺很簡單:想得越久、越深入,答案就越可能正確。

研究空白——然而,作者們注意到,儘管這種「大力出奇蹟」的方法在很多領域都有效,但它是否適用於LLM的一個著名「弱點」——處理需要精確事實知識的任務——還很不清楚。在這些知識密集型任務中,模型不僅要答對,更要避免一本正經地胡說八道,也就是我們常說的幻覺 (Hallucination)。

研究動機——因此,這篇論文的動機就非常明確了:當前流行的「讓模型多思考一會兒」的策略,到底能不能幫助模型在知識問答中變得更知識淵博、更可靠?還是說,想得越多,反而錯得越離譜?作者們希望透過全面的實驗來回答這個懸而未決的問題。

論文主要貢獻點分析

主要創新點——發現一個反直覺的現象:論文透過對12個主流推論模型和2個知識密集型資料集的詳盡測試,得出了一個令人驚訝的結論:增加模型的「思考時間」並不能穩定地提升回答事實性問題的準確率,甚至在很多情況下會導致更嚴重的幻覺。揭示現象背後的深層原因:論文沒有止步於現象的發現,而是深入分析了幻覺變化的內在機制。他們發現,幻覺的減少並非因為模型「想起來了」正確知識,而是因為它「想了想還是作罷」,選擇了放棄回答 (abstain)。反之,幻覺的增加則是因為更長的思考時間給了模型「勇氣」,去嘗試回答那些它本不確定的問題,結果自然是錯誤百出。提出確認偏誤的解釋:透過案例分析,論文指出,更長的推論過程可能會誘導模型產生類似人類的確認偏誤 (Confirmation Bias)。模型會先產生一個初步的、可能是錯誤的猜想,然後在後續的「思考」中,不斷地尋找甚至編造證據來支撐這個猜想,最終導致一個看似邏輯嚴謹但實際上是錯誤的「自信幻覺」。提供一個平衡的視角:儘管「想得更久」效果不佳,但論文也對比了「思考」與「不思考」(直接輸出答案)的區別。結果表明,啟用思考模式(即使是短暫的思考)通常還是比完全不思考要好,尤其是在需要多步推論的複雜問題上。

支撐創新的關鍵技術或方法——系統性的實驗框架:作者設計了一個統一的實驗流程來評估不同模型的「測試時擴展」效果。他們根據模型支援的介面,將擴展方式分為三類:推論努力度 (Reasoning effort)、思考預算 (Thinking budget) 和預算強制 (Budget forcing),從而實現了對不同模型的可控和可比的評估。行為變化分析法:這是支撐其核心論點「幻覺變化源於回答意願」的關鍵方法。他們專門比較了模型在不同思考水準下,從「產生幻覺」到「不產生幻覺」(反之亦然)的那些問題。透過分析這些轉變,他們才得以量化地指出,幻覺的減少主要來自「放棄回答」,而增加則來自「嘗試新問題」。案例研究 (Case Study):透過展示模型在不同思考長度下的完整「內心獨白」(思維鏈),直觀地暴露了「確認偏誤」的形成過程。

理解難點識別

理解論文的關鍵概念/方法——測試時擴展 (Test-Time Scaling):必須理解這具體是指什麼操作。它不是重新訓練模型,而是在推論(回答問題)時,透過特定技巧讓模型生成更長的中間思考步驟。確認偏誤 (Confirmation Bias):這是理解「為什麼想得越多錯得越多」的核心。需要明白這個概念的含義:傾向於尋找、解釋和回憶支持自己既有信念或假設的資訊。回答意願 (Willingness to Answer):這是論文用來解釋幻覺數量變化的核心機制。它描述了模型在「不確定時勇於嘗試」和「不確定時選擇放棄」之間的權衡。

最具挑戰性的部分——確認偏誤如何在大模型中產生:這個過程比較抽象。模型沒有主觀意識,它是如何「說服」自己的?理解這一點需要結合具體的思維鏈案例,觀察模型是如何一步步從不確定走向過度自信的。

需要重點解釋的核心概念——核心概念:測試時擴展如何透過誘發確認偏誤,影響模型的回答意願,最終導致在知識密集型任務上產生更多幻覺。這句話串聯了論文的所有關鍵點,是我們需要在第二階段深入剖析的核心。

概念依賴關係

核心概念之間的關係——切入點:從最基礎的操作測試時擴展開始,解釋這到底是在做什麼。核心問題:然後引入這個操作應用在知識密集型任務上時遇到的幻覺問題。核心機制:接著,用確認偏誤來解釋為什麼更長的思考(測試時擴展)反而會加劇幻覺。最終表現:最後,說明這種確認偏誤是如何體現在模型的回答意願變化上,從而完整地解釋了論文觀察到的所有實驗現象。

第二階段:深入解釋核心概念

設計生活化比喻

場景設定與核心機制——想像一個場景:一位並非歷史專家的學生,正在參加一場閉卷的歷史知識競賽。其中一道題目是:「請問發明了活字印刷術的畢昇,是哪個朝代的人?」這位學生對答案只有一個模糊的印象,不十分確定。現在,我們來看他在兩種不同情況下的表現:情況A(時間緊張,思考時間短):學生快速回憶,腦中閃過幾個可能的朝代,但都覺得沒有把握。由於時間緊迫,他沒有時間去「編造」一個看似合理的解釋。為了不因為答錯而扣分,他最理性的選擇是在答題卡上寫下「不確定」或直接跳過。情況B(時間充裕,思考時間長):學生有大把的時間去「琢磨」。他隱約記得畢昇這個名字聽起來有點像宋朝的。這個「宋朝」的念頭就成了他的初始猜想。接下來,他沒有去尋找否定這個猜想的證據(因為他腦子裡本來就沒有),而是開始在草稿紙上為這個猜想建構一個看似合理的邏輯鏈:「嗯,宋朝經濟文化很繁榮,科技也發達,四大發明裡好幾個都和宋朝有關。畢昇這個名字,聽起來也很有那個時代的文人氣息。而且我記得課本裡講宋朝科技的時候好像提到過他。對,應該就是宋朝!」在這個過程中,他把一些模糊、中立甚至不相關的資訊(如「文人氣息」)都當作了支持他「宋朝」猜想的證據。經過這一番「深度思考」,他最初的那個不確定的猜想已經變得非常牢固。最終,他信心滿滿地在答題卡上寫下了「宋朝」。

確認偏誤機制總結——這個過程,就是典型的確認偏誤。更長的思考時間沒有讓他接觸到新的正確資訊,反而給了他一個機會,用自己有限的知識去「論證」並強化了一個最初的、可能是錯誤的直覺。

建立比喻與實際技術的對應關係

對應關係表格

學生 對應的實際技術概念:大型語言模型 (LLM)。解釋:兩者都是基於已有知識進行推論和回答問題的智能體。

歷史知識競賽題目 對應的實際技術概念:知識密集型任務的查詢 (Query)。解釋:這是對智能體事實性知識儲備的直接考驗。

學生腦中的知識儲備 對應的實際技術概念:模型訓練好的內部參數/世界知識。解釋:這是智能體回答問題的唯一資訊來源(實驗中不允許聯網)。

允許的思考時間 對應的實際技術概念:測試時擴展的計算預算 (Test-Time Scaling)。解釋:比如設定更高的reasoning_effort或更多的thinking_tokens

在草稿紙上寫下的推論過程 對應的實際技術概念:模型的思維鏈 (Chain-of-Thought, CoT)。解釋:這是模型在輸出最終答案前的「內心獨白」或中間思考步驟。

時間緊張,選擇跳過 對應的實際技術概念:模型在低計算預算下選擇放棄回答 (Abstain)。解釋:模型快速判斷自己知識不足,輸出 "I don't know"。

時間充裕,建構邏輯鏈並自信回答 對應的實際技術概念:模型在高計算預算下因確認偏誤而產生過度自信的幻覺。解釋:模型生成一長串看似合理的CoT,最終給出一個自信但錯誤的答案。

最終答案 「宋朝」 對應的實際技術概念:模型的幻覺輸出 (Hallucination)。解釋:這是一個與事實相悖的錯誤答案(正確答案是北宋,但為了比喻簡化為宋朝,關鍵是這個過程)。

深入技術細節

技術背景——這篇論文的核心在於實驗觀察和分析,並未提出新的數學公式或演算法。其技術細節主要體現在實驗設計和分析方法上。我們可以用這個比喻來理解論文中最重要的兩項指標:準確率 (Accuracy) 和幻覺率 (Hallucination Ratio)。

準確率公式——原始數學形式:回答正確的題目數 / 總題目數;符號替換版本:答題得分率 = 學生答對的題目數 / 所有題目總數;技術實現:透過一個強大的「裁判」模型(如GPT-4o-mini)來判斷模型的回答是否與標準答案一致。

幻覺率公式——原始數學形式:回答錯誤的題目數 / 總題目數;符號替換版本:胡亂作答率 = 學生答錯的題目數 / 所有題目總數;技術實現:「裁判」模型將模型的回答標記為「不正確」。

將技術細節與比喻相互映射

映射關係分析——在比喻中,當思考時間變長時(從情況A到B),學生把原本會跳過的題(對幻覺率貢獻為0)變成了一道答錯的題(對幻覺率貢獻增加)。這直接導致了幻覺率的上升。同時,如果學生本來就對某個題有正確的第一印象,更長的思考時間可能會讓他動搖,或者引入錯誤的推論,反而答錯。這可能導致準確率的下降或停滯。論文中的Figure 2展示了多個模型隨著思考時間 (Average Reasoning Tokens) 的增加,幻覺率 (Hallucination Ratio) 不降反升的趨勢,這完美對應了我們的比喻。論文中的Figure 4的案例研究,展示了模型gpt-oss-20b的思考過程。在低思考預算下,它說「我不確定」 (I'm uncertain. I'll say I don't know),就像情況A的學生。在高思考預算下,它不斷地自我暗示和編造「證據」(如「我們可以檢查他的簡歷」、「我確實在AAAI網站的列表上看到過」),最終自信地給出了錯誤答案「2005」,這完全就是情況B中學生的心理活動。

比喻的局限性——這個比喻很好地解釋了「確認偏誤」導致的幻覺增加。但它沒有完全涵蓋所有情況。例如,對於某些確實需要多步推論才能得到正確答案的知識問題(如論文中提到的FRAMES資料集),更長的思考時間有時確實能幫助模型整合資訊,提高準確率(雖然論文發現這種情況不普遍)。我們的比喻簡化了這一點,主要聚焦於解釋幻覺增加的核心機制。

總結

核心聯繫重申——讓模型「想得更久」(測試時擴展)就像給一個知識不牢固的學生更多考試時間。他不會憑空想出正確答案,反而有更多機會把他模糊的、錯誤的直覺,透過一套自我建構的邏輯(確認偏誤),包裝成一個看似可信的最終答案。

關鍵原理總結——這個過程導致,原本模型會承認「我不知道」的情況,轉變成了自信地「胡說八道」。因此,在宏觀數據上,我們就觀察到了論文的核心發現:隨著思考時間的增加,模型的幻覺率不降反升

第三階段:詳細說明流程步驟

這篇論文的核心不是提出了一個新模型,而是設計了一套評估和分析流程來研究現有模型的行為。下面,我們詳細說明這個流程是如何運作的,假設我們要復現論文中對gpt-oss-20b模型在SimpleQA資料集上的評估。

輸入

1. 模型gpt-oss-20b

2. 資料集:一份包含多個事實性問題的列表,每個問題都有一個標準答案(例如,從SimpleQA中抽取的800個問題)。

3. 查詢模板 (Prompt):一個固定的指令模板,如:"Give me the answer to the following question only when you are sure of it. Otherwise, say 'I don't know'. Put your answer on its own line after 'Answer:'."

4. 評估器:一個性能強大的LLM,如gpt-4o-mini,作為「裁判」。

處理流程

步驟一:設定不同的思考水準

gpt-oss-20b這類模型支援透過一個名為reasoning_effort的參數來控制其思考深度。

這個流程的第一步就是定義要測試的幾個水準。我們為gpt-oss-20b設定三個思考水準:'low', 'medium', 'high'。這構成了我們實驗的自變數。

步驟二:批量生成模型回答

啟動一個循環,遍歷SimpleQA資料集中的每一個問題。

在循環內部,再對三個思考水準('low', 'medium', 'high')進行一次循環。

對於每一個問題和每一個思考水準的組合,執行以下操作:

1. 將當前問題嵌入到預設的查詢模板中,形成一個完整的輸入文本。

2. 呼叫gpt-oss-20b模型的API,將上述文本作為輸入,並關鍵地,將reasoning_effort參數設定為當前循環的水準(如'low')。

3. 模型會返回一段包含「思維鏈」和最終答案的文本。我們從中提取出位於'Answer:'之後的最終答案。

4. 將這個問題、標準答案、思考水準、以及模型生成的最終答案,作為一個記錄儲存起來。

流程輸出:經過這一步,我們會得到一個龐大的結果集。例如,對於800個問題,每個問題有3個不同思考水準的回答,我們總共會收集到 800 * 3 = 2400條記錄。

步驟三:自動化評估

現在,我們遍歷上一步生成的2400條記錄。

對於每一條記錄,我們呼叫「裁判」模型(gpt-4o-mini)的API。

裁判模型的輸入是結構化的,包含了:

1. 原始問題(e.g., "What year did John Mylopoulos receive his AAAI Fellow award?")

2. 標準答案(e.g., "1993")

3. gpt-oss-20b在該思考水準下生成的答案(e.g., "2005")

裁判模型的任務是根據預設的指令,將gpt-oss-20b的答案判定為以下三類之一:"correct"(正確), "incorrect"(不正確,即幻覺), 或 "not attempted"(模型回答了"I don't know"等表示不確定的內容)。

流程輸出:在每條記錄中增加一個「評估標籤」(correct, incorrect, not attempted)。

步驟四:計算與分析指標

分組處理——將所有記錄按「思考水準」('low', 'medium', 'high')進行分組。對於每一個思考水準分組,計算以下核心指標:準確率 (Accuracy):計算該組中「評估標籤」為'correct'的記錄數,除以該組的總記錄數(即800);幻覺率 (Hallucination Ratio):計算該組中「評估標籤」為'incorrect'的記錄數,除以該組的總記錄數(800)。

流程輸出——得到每個思考水準對應的準確率和幻覺率數值。例如:low: Accuracy=25%, Hallucination Ratio=40%;medium: Accuracy=24%, Hallucination Ratio=50%;high: Accuracy=23%, Hallucination Ratio=55%。這些數據點就是繪製論文中Figure 1Figure 2中曲線的基礎。

步驟五:深度行為分析(可選,但為論文核心)

為了探究「為什麼幻覺率會上升」,需要進行更細緻的比較。

篩選出所有在'low''high'兩個水準下評估標籤發生變化的問題。

在這些問題中,重點關注一類:在'low'水準下是'not attempted',但在'high'水準下變成了'incorrect'的問題。

計算這類問題佔所有新增幻覺問題的比例。如果這個比例非常高(如論文中發現的95%),就強有力地證明了幻覺的增加主要源於模型開始嘗試回答它本不確定的問題

流程輸出:得到類似論文Figure 3中的行為轉變分析圖,揭示了幻覺變化的內在機制。

這個完整的流程,從數據輸入、模型互動、自動化評估到多維度分析,構成了一套嚴謹的研究方法,使得論文的結論不僅僅是軼事證據,而是基於大規模數據的系統性發現。

第四階段:實驗設計與驗證分析

主實驗設計解讀:核心論點的驗證

核心主張與實驗設計——核心主張:增加測試時計算量(即讓模型「想更久」)並不能有效提升模型在知識密集型任務上的表現,甚至可能有害。實驗設計:作者採取了直接且巧妙的「自我對比」方法。他們沒有將模型A與模型B進行比較,而是將同一個模型在不同思考強度下的表現進行比較。具體來說,他們選擇了12個支援思維鏈的主流大型模型,在SimpleQA(事實問答)和FRAMES(多步推論問答)兩個資料集上,系統性地增加模型的推論計算量,並觀察其準確率 (Accuracy) 和幻覺率 (Hallucination Ratio) 的變化趨勢。這種設計排除了模型本身能力差異的干擾,能非常純粹地檢驗「增加思考」這一行為本身的效果。

選擇的合理性分析——資料集:選擇了SimpleQAFRAMES,這是一個非常好的選擇。SimpleQA是經典的事實核查型資料集,問題直接,主要考驗模型的知識記憶。而FRAMES則更進一步,需要模型進行多步推論(例如,「畢卡索去世那年,平克·佛洛伊德樂隊發布了哪張專輯?」),這考驗了模型整合和運用知識的能力。覆蓋這兩種型態的資料集,使得實驗結論更具普遍性,證明了無論是簡單的知識提取還是複雜知識推論,該結論都基本成立。評估指標:使用準確率 (Accuracy) 和幻覺率 (Hallucination Ratio),這兩個指標直擊要害。在知識密集型任務中,我們關心的不僅是「答對了多少」(Accuracy),更關心「答錯了多少」(Hallucination Ratio),因為一個錯誤的答案可能比沒有答案更有害。同時評估這兩個指標,可以全面地刻畫模型的「可靠性」,避免了只看準確率可能帶來的誤導。基準方法:本研究的基準是模型在最低思考設定下的表現。這是一個完美的控制變數設計。後續所有更高思考設定下的表現都與這個基準點進行比較,任何性能的變化都可以清晰地歸因於「思考量的增加」。這比選擇另一個模型作為基準要科學得多。

實驗結果對核心貢獻的支撐——實驗結果集中體現在Figure 1Figure 2中。Figure 1 (Accuracy)顯示,絕大多數模型的準確率曲線隨著思考時間(X軸)的增加,要么是平的,要么是波動的,甚至有下降的,只有極少數模型(如Gemini 2.5 Flash)在初期有明顯提升後也迅速進入平台期。這強有力地支撐了「增加思考不一定提升準確率」的論點。Figure 2 (Hallucination Ratio)則更具衝擊力,許多模型的幻覺率曲線是平的,甚至是上升的。這直接證明了「想得更久甚至可能更有害」的核心發現。主實驗清晰地表明,測試時擴展並非解決知識密集型任務的「萬靈丹」,其效果遠不如人們在其他任務上所期望的那樣。

消融實驗分析:內部元件的貢獻

分析背景——傳統意義上的消融實驗是移除模型的某個模組,但這篇論文是分析現有模型的行為,所以它的「消融實驗」體現在其深度分析中,旨在「消除」對現象的不同解釋,從而鎖定真正的原因。

關鍵分析方法——論文的核心洞察是「幻覺率的變化是由模型的回答意願驅動的,而不是知識回憶能力的提升」。為了驗證這一點,他們設計了Figure 3中的分析實驗。

被消融的假設——一個可能的、更樂觀的假設是:「當幻覺減少時,是因為模型經過更深入的思考,成功回憶起了正確的知識,從而修正了錯誤的答案。」

實驗設計與結果——作者專門考察了那些在「低思考」時產生幻覺,但在「高思考」時不產生幻覺的案例。他們分析了這些案例在「高思考」時的狀態,結果發現,絕大多數(例如Grok-3 mini的93.1%)都變成了「未嘗試回答」(Not attempted),而不是「正確回答」(Correct)。

證明的必要性——這個結果定量地「消融」了上述的樂觀假設。它證明了幻覺的減少並非源於知識的「修復」,而是源於模型變得更加「謹慎」,選擇了放棄。這極大地鞏固了作者的核心論點:模型行為的變化是策略性的(是否回答),而非能力性的(能否回憶)。

深度創新性實驗剖析:洞察方法的內在特性

案例研究實驗分析——實驗目的:這個實驗旨在打開「黑箱」,直觀地展示一個抽象的心理學概念——確認偏誤 (Confirmation Bias)——是如何在模型的思維鏈中真實發生的。它要回答的問題是:「為什麼模型在思考更久後,會從『不確定』變得『過度自信』?」實驗設計:如Figure 4所示,作者挑選了極具代表性的gpt-oss-20b模型案例。他們並列展示了該模型在同一個問題下,低思考設定和高思考設定生成的完整「內心獨白」(Thought process)。低思考設定:推論過程簡短,模型在嘗試幾個可能性後,坦率地承認「我不確定」(I'm uncertain),最終放棄回答。高思考設定:推論過程極長。模型從一個不確定的猜想("...maybe in 2005")開始,然後不斷地為這個猜想尋找「證據」,甚至憑空捏造了驗證步驟(「我們可以檢查他的簡歷...」、「我確實在AAAI網站的列表上看到過...」)。每一次這樣的「驗證」,都讓它的信心增加一分,最終從「maybe」演變成了「I'm fairly sure it's 2005」,並給出了這個錯誤的答案。

實驗結論意義——這個案例研究極具說服力地揭示了,更長的思維鏈給了模型進行「自我論證」並陷入「確認偏誤」循環的空間。它不是在進行客觀的知識檢索,而是在為一個初步的猜想建構一個看似完美的、但與事實脫節的敘事。這為「為什麼想得越久,錯得越離譜」提供了最底層的、機制性的解釋。

本文題目:Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

主標籤:大型語言模型

次標籤:生成式AI確認偏誤思維鏈幻覺問題


上一篇:AI 推論效能飆升 7.5 倍!NVIDIA Rubin CPX 重塑 AI 獲利效率,投資 1 億回報 50 億

下一篇:破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!

分享短網址