因果推斷殺入 LLM 戰場!大模型幻覺終結者?ABCA 框架

圖片

❝ 一句話概括:拒絕「事後諸葛亮」式的幻覺檢測,這篇論文利用因果推斷技術,像法官審案一樣在生成前先搞場「聽證會」,不同角度的證據對不上號就坚决不回答。(原論文題目見文末,Published on arXiv on 21 Nov 2025, by RMIT University)

第一階段:識別核心概念

論文的Motivation分析

現在的 LLM 有個大問題:過度自信。哪怕遇到它不懂的問題,或者問題本身有歧義,它也能一本正經地胡說八道(產生幻覺)。現有的解決方法大多是「事後諸葛亮」——等模型生成完答案了,再透過檢查答案的一致性或置信度來判斷要不要撤回。這種方法有兩個痛點:

• 太晚了:由於模型在生成時往往傾向於輸出訓練資料中出現頻率最高的詞(這種偏差叫「訓練偏差」),哪怕模型內部其實隱約知道「這事儿不一定」,但最終輸出往往被主流答案掩蓋了。

• 太粗糙:簡單地看機率高低,無法區分「我真的不知道」和「這題有兩個正確答案」的區別。

這篇論文認為,LLM 內部其實儲存了極其豐富的知識,只是平時被單一的推理路徑掩蓋了。如果能主動激活不同的知識層面(Aspects),看看在不同視角下模型的回答是否打架,就能更精準地決定是否拒絕回答(Abstention)。

論文主要貢獻點分析

• 提出 ABCA 框架(Aspect-Based Causal Abstention):這是一種「事前干預」的方法。它不是等生成完了再檢查,而是在生成之前,先主動去發掘問題的不同側面,強制模型在這些側面下進行因果推理。

• 引入「因果推斷」來評估可靠性:論文不只是簡單地讓模型多生成幾次,而是利用結構因果模型(SCM),把「側面(Aspect)」作為調節變數,計算每個側面對答案的真實因果效應。

• 雙智能體辯論機制:為了找到好的側面,設計了一個「發現者(DAgent)」和「批判者(CAgent)」互鬥的機制,自動挖掘出那些既有相關又符合因果邏輯的切入點。

• 更細粒度的拒絕策略:它能區分兩種情況:一是 Type-1(知識衝突),即不同側面得出的結論打架,說明有爭議,拒絕回答;二是 Type-2(知識不足),即所有側面都導向「不知道」,說明真沒學過,拒絕回答。

理解難點識別

要讀懂這篇論文,最大的攔路虎在於它結合了大模型推理和因果推斷理論。

• 核心難點:基於側面的因果效應估計(Aspect-Based Causal Effect Estimation)。這是全篇的靈魂。作者如何把抽象的「思考角度」變成數學上的變數?又是如何利用增強逆機率加權(AIPW)這種統計學方法,來給模型的回答打分的?

這也是我們接下來需要重點拆解的部分。

概念依賴關係

要理解這套邏輯,首先要理解 SCM(結構因果模型),它告訴我們為什麼直接問 LLM 會出錯(因為有混淆因子)。為了阻斷混淆,引入了 Aspect(側面)作為干預手段。為了量化 Aspect 的作用,引入了 AIPW 估計器。最後,基於估計出的數值,透過 CAD(質心角度偏差)來決定是否拒絕回答。我們的解釋切入點鎖定在:如何利用 AIPW 和 CAD 將抽象的「多角度思考」轉化為具體的「拒絕決策」。

第二階段:深入解釋核心概念

比喻中的關鍵元素

想像一下,你是一個法官(Abstention Policy),你面前有一個棘手的案件(Query)。你需要決定是下達判決(Answer)還是宣布證據不足/退庭(Abstention)。如果你直接問被告(LLM 的預設推理),他可能會順著你的話編故事。為了得到真相,你決定召開一場聽證會,邀請不同領域的專家證人(Aspects)出庭。

• 案件:比如「巴黎聖母院的敲鐘人是誰?」

• 專家證人:包括文學教授(側面1),他會依據雨果的小說思考;歷史學家(側面2),他會依據真實的歷史記錄思考;現代新聞記者(側面3),他會依據最近的新聞思考。

• 證詞草稿(Chain-of-Thought):每個專家在回答前寫的推理筆記。

• 最終陳述:每個專家基於筆記給出的結論。

每個元素對應的實際技術概念

• 混淆因子(Confounder):這就像是大眾的刻板印象。比如因為迪士尼電影太火了,如果不請專家,所有人下意識都覺得是「卡西莫多」。這就是模型訓練資料中的偏差,它會干擾正確的因果判斷。

• 干預:法官強制要求:「現在請歷史學家發言,忽略小說情節!」這就是因果推斷中的「干預」,阻斷了刻板印象的干擾。

• AIPW 估計器:這是法官手裡的一桿秤。他不僅聽專家說了什麼(Outcome),還要評估這個專家在這個問題上發言是否靠譜、邏輯是否通順(Propensity)。

• CAD(質心角度偏差):聽證會結束,法官看大家吵得厲不厲害。如果文學教授說「是卡西莫多」,歷史學家說「是一群無名職員」,大家指向了完全不同的方向,這就是衝突。

深入技術細節

最核心的部分是評估每個專家的可信度。論文使用了一個叫 AIPW 的估計器。

原始數學形式:

這個公式看起來嚇人,其實就是為了算清楚:在 Aspect 這個側面下,得到的答案到底有多「硬」?

自然語言符號替換版:

某專家側面的權威性分數 = 基於該專家所有草稿推導出的預期結論品質 + 理論上的平均水平 - 平均值 + 該次具體回答的品質 / 該次草稿對應的預期品質 / 該次草稿出現的機率 + 對實際回答偏差的修正項

• 第一部分(回歸項):是模型根據該專家的推理習慣,預測他大概率會給出什麼樣的品質。

• 第二部分(修正項):如果某次具體的回答比預測的要好很多,或者推理路徑很罕見但結果很準,這一項就會對分數進行修正。這一步是為了消除單一推理路徑帶來的偏差,保證估計是「雙重穩健」的。

決策核心:CAD(Centroid Angular Deviation)

算出了每個專家的權威性分數後,我們給每個專家的結論向量加權,算出一個中心結論(Centroid)。然後看每個專家的結論偏離這個中心多遠。

自然語言翻譯:爭議程度 = 加權平均 每個專家的意見偏離主流意見的角度

將技術細節與比喻相互映射

• Type-1 拒絕(知識衝突):法官發現文學教授指東,歷史學家指西,CAD 分數很高(爭議大)。法官敲錘:「證詞矛盾,本庭無法判決!」

• Type-2 拒絕(知識不足):法官發現雖然專家們沒吵架,但他們的結論都指向了「無法確定」或「沒有記錄」這個方向。法官敲錘:「證據不足,本庭無法判決!」

• 接受回答:專家們雖然角度不同(有的引用書,有的引用報紙),但大家都指向同一個事實。法官採信,並綜合大家的發言給出結論。

總結

ABCA 框架本質上就是一套「專家聽證會」系統。AIPW 是篩選靠譜專家的過濾器,CAD 是判斷專家意見是否統一的測量尺。透過數學公式精確計算每個側面的因果效應,模型不再被單一的訓練偏差帶著跑,而是學會了在衝突面前保持沉默,在無知面前承認不足。

第三階段:詳細說明流程步驟

具體流程偽程式碼

假設輸入的問題是:「太陽是從西邊升起的嗎?」

Step 1:尋找切入點(Aspect Discovery)

• 輸入:原始問題。

• 雙智能體辯論:

• DAgent(發現者)提出建議:「我們可以從『天文學定義』、『科幻小說設定』、『金星的自轉』這幾個角度看。」

• CAgent(批判者)進行審核:「『科幻小說』太虛了,不符合事實性原則,去掉;『金星自轉』有點道理但偏題,保留但降權;『天文學定義』是核心,保留。」

• 輸出:具體的側面 地球天文學、太陽系其他行星,並且給每個側面分配了一個初始的重要性權重。

Step 2:帶著有色眼鏡思考(Aspect Resolution)

• 輸入:問題 和 發現的側面集合。

• 條件生成:

• 對於側面(地球天文學),Prompt 會變成:「作為一個天文學家,基於地球的視角,思考。」 模型生成推理過程(CoT)和答案(「不是,地球自西向東轉...」)。

• 對於側面(其他行星),Prompt 變成:「考慮金星等逆向自轉行星的情況,思考。」 模型生成答案(「在金星上是,因為金星是逆轉的...」)。

• 效應估計(AIPW 計算):系統利用 AIPW 公式,結合生成的機率和答案品質,算出每個側面的真實因果效應值。這相當於給每個側面的回答打了一個「靠譜程度」的分。

Step 3:法官裁決(Abstention Policy)

• 輸入:每個側面的答案向量 和 對應的因果得分(由權重和效應值結合而來)。

• 計算爭議度(CAD):計算所有答案向量的加權中心點,然後計算每個答案偏離這個中心的角,得出 CAD 值。

• 三岔路口決策:

• 路口1(Type-1 衝突):如果 CAD 大於某個閾值(比如),說明側面之間打架太厲害(比如一個說「是」,一個說「不是」)。輸出:拒絕回答,並解釋存在衝突。

• 路口2(Type-2 不足):如果 CAD 很小(大家意見一致),但是中心點 居然和代表「我不知道/無資訊」的向量靠得非常近。輸出:拒絕回答,並承認知識不足。

• 路口3(回答):如果既不衝突,也不是「不知道」,那就把權重最高的那些側面的答案綜合起來。輸出:綜合後的最終答案(例如:「在地球上不是,但在金星上是」)。

第四階段:實驗設計與驗證分析

主實驗設計解讀:核心論點的驗證

• 核心論點:ABCA 能比現有的事後檢測方法更準確地識別何時該閉嘴。

• 資料集選擇:

• TruthfulQA:這是打假領域的「高考題」,專門誘導模型說出常見的錯誤觀念。選它因為它充滿了需要「多角度思考」才能避開的陷阱。

• KUQ (Known Unknowns Questions):專門測試「知之为知之,不知為不知」的能力。

• AVeriTeC:真實世界的事實核查資料集,包含「證據不足」和「證據衝突」的標籤,完美對應 ABCA 的兩種拒絕類型。

• 評價指標:包括 Acc (整體準確率)(回答對了加分,該拒絕時拒絕了也加分)、A-Ac (Answerable Accuracy)(能回答的問題,答對了嗎?)、以及最關鍵的 U-Ac (Unanswerable Accuracy)(不能回答的問題,成功閉嘴了嗎?)。

• 基線方法(Baselines):對比了 Self-Consistency(自洽性,主流方法)、SelfCheckGPT(置信度檢測,強基線)以及 Collaborative Verification(多智能體協作,SOTA)。

• 實驗結果:在 TruthfulQA 上,ABCA 的 U-Ac(成功拒絕率)達到了驚人的 0.964,而強基線 CFMAD 只有 0.440。這直接證明了 ABCA 在識別「坑」方面具有壓倒性優勢,且沒有犧牲回答正常問題的能力。

消融實驗分析:內部組件的貢獻

• 砍掉雙智能體(1-Agent):如果不辯論,只用一個 Agent 找側面,性能下降。證明「批判者 CAgent」對於過濾垃圾側面至關重要。

• 砍掉因果權重(Uniform-w):如果認為所有側面一樣重要(不計算 AIPW,直接平均),性能下降。證明了因果效應估計確實找到了更有價值的資訊,不是所有角度都有用的。

• 砍掉多角度(No-X):退化回普通的一致性檢查,效果最差。定量證明了引入(Aspects)是提升效果的根本來源。

深度/創新性實驗剖析:洞察方法的內在特性

• NLI Diversity Score(多樣性分析):

• 目的:證明 ABCA 生成的思維鏈(CoT)真的比普通方法更「發散」嗎?

• 設計:計算生成文字之間的邏輯蘊含多樣性。

• 結論:ABCA 的多樣性得分顯著高於 Self-Consistency。這說明它真的激活了模型內部沉睡的、不同角落的知識,而不是在重複同一句車轱辘話。

• 案例研究(Case Study):巴黎聖母院敲鐘人:

• 目的:展示方法的解釋性。

• 現象:面對「誰是敲鐘人」,普通模型只會喊「卡西莫多」。ABCA 自動發現了「文學」、「歷史」、「現實」三個側面。

• 結果:文學側面 卡西莫多;歷史側面 也是有的,是一群神職人員。

• 洞察:ABCA 最終選擇了拒絕回答(Type-1 Conflict),並輸出了理由:「如果你問小說,是卡西莫多;如果你問歷史,是別人。」 這種拒絕比單純說「不知道」要高級得多,也更有用。

本文題目:Hallucinate Less by Thinking More: Aspect-Based Causal Abstention for Large Language Models

主標籤:ABCA 框架

次標籤:因果推斷拒絕機制幻覺檢測大語言模型


上一篇:《the thinking game》:把世界看作一場「思考遊戲」

下一篇:重磅!DeepSeek 正式發佈 2 個模型

分享短網址