北大、清華、UvA、CMU等聯合發布:大模型邏輯推理能力最新綜述

目前大型模型的研究正逐步從依賴擴展定律(Scaling Law)的預訓練,轉向聚焦推理能力的後訓練。鑑於符號邏輯推理的有效性與普遍性,提升大型模型的邏輯推理能力成為解決幻覺問題的關鍵途徑。

為推進大語言模型的邏輯推理能力研究,來自北大、清華、阿姆斯特丹大學(UvA)、卡內基梅隆大學(CMU)、MBZUAI 等 5 所高校的研究人員全面調研了該領域最前沿的研究方法和評測基準,聯合發布了調研綜述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》,針對兩個關鍵科學問題 —— 邏輯問答和邏輯一致性,對現有方法進行歸納整理並探討了未來研究方向。

該綜述論文已被 IJCAI 2025 Survey Track 接收,並且作者團隊將於 IJCAI 2025 現場圍繞同一主題進行 Tutorial 演講,全面探討該研究領域的挑戰、方法與機遇。

論文標題:Empowering LLMs with Logical Reasoning: A Comprehensive Survey

論文連結:https://arxiv.org/abs/2502.15652

全文概要

大語言模型(LLMs)雖然在很多自然語言任務中取得了顯著成就,但最新研究表明其邏輯推理能力仍存在顯著缺陷。本文將大型模型邏輯推理困境主要歸納為兩個方面:

  • 邏輯問答:LLMs 在給定前提和約束條件下進行演繹、歸納或溯因等複雜推理時,往往難以生成正確答案。例如,前提為 “金屬導電;絕緣體不導電;如果某物是由鐵製成的,那麼它是金屬;釘子是由鐵製成的”,問題為 “下列斷言是真、假還是無法判斷:釘子不能導電”。為了正確回答這個問題,大語言模型需要自我總結出邏輯推理鏈 “釘子→由鐵製成→金屬→導電”,從而得出該斷言實際為 “假” 的結論。

  • 邏輯一致性:LLMs 在不同問題間容易產生自相矛盾的回答。例如,Macaw 問答模型對 "喜鵲是鳥嗎?" 和 "鳥有翅膀嗎?" 均回答 "是",但對 "喜鵲有翅膀嗎?" 給出否定答案。

為推進該領域研究,我們系統梳理了最前沿的技術方法並建立了對應的分類體系。具體而言,對於邏輯問答,現有方法可根據其技術路線分為基於外部求解器、提示工程、預訓練和微調等類別。對於邏輯一致性,我們探討了常見的邏輯一致性的概念,包括否定一致性、蘊涵一致性、傳遞一致性、事實一致性及其組合形式,並針對每種邏輯一致性歸納整理了其對應的技術手段。

此外,我們總結了常用基準數據集和評估指標,並探討了若干具有前景的研究方向,例如擴展至模態邏輯以處理不確定性,以及開發能同時滿足多種邏輯一致性的高效演算法等。

具體的文章結構如下圖。

圖片

圖 1:大型模型邏輯推理綜述分類體系,包含邏輯問答和邏輯一致性兩個關鍵科學問題

大型模型邏輯推理困境的兩個方面

儘管大語言模型在文本生成、分類和翻譯等廣泛的自然語言任務中展現出了卓越的性能,大語言模型在複雜邏輯推理上仍然面臨著重大挑戰。這是由於大語言模型的預訓練語料庫主要由人類撰寫的文本組成,這些文本缺乏高品質的邏輯推理樣本(如演繹證明),且通過下一詞元預測(next token prediction)或遮罩語言建模(masked language modeling)等任務來學習語法、語義和世界知識,並不能確保大語言模型具備邏輯推理能力。以上局限性會導致大語言模型在需要邏輯推理能力在以下兩個任務表現不佳。

邏輯問答

大語言模型在邏輯問答中往往無法生成正確答案,其要求大語言模型在給定一系列前提和推理規則的情況下,進行複雜的演繹、歸納或溯因推理。具體而言,這些邏輯問題大致可分為兩類:

  • 判斷能否從給定資訊中推導出某個斷言,即輸出該斷言的真值:真、假或無法判斷。

  • 從多個選項中找出所有不違背給定前提和約束條件的選項。

令人驚訝的是,在邏輯問題數據集 FOLIO 上,LLaMA 13B 參數模型在 8-shot 下的準確率僅為 33.63%,這只比從真、假和無法判斷中隨機猜測對應的準確率 33.33% 略高一點。這極大地限制了大語言模型在智慧問答、自主決策等場景的實際應用。

邏輯一致性

大語言模型在推理複雜問題的過程中回答不同問題時,容易產生自相矛盾的回答,或與知識庫 / 邏輯規則相矛盾,我們稱其違反了邏輯一致性。

需要注意的是,邏輯一致性的形式可以是多樣的。例如,LLaMa-2 70B 參數模型對 “信天翁是一種生物嗎?” 和 “信天翁不是一種生物嗎?” 這兩個問題都回答 “真”,這違反了邏輯的矛盾律。又如,Macaw 問答大模型對 “喜鵲是鳥嗎?” 和 “鳥有翅膀嗎?” 這兩個問題都回答 “是”,但對 “喜鵲有翅膀嗎?” 卻回答 “否”,這不符合三段論推理規則。

許多研究表明,僅在大型問答數據集上進行訓練並不能確保大語言模型的邏輯一致性。這些相互矛盾的回答引發了對大語言模型可靠性 和 可信度的擔憂,尤其限制了其在高風險場景中的實際部署,如醫療診斷、法律諮詢、工業流程控制等場景。

我們可以將邏輯問答和邏輯一致性視為大語言模型邏輯推理能力的一體兩面。接下來我們將對這兩個方面的最新研究進展進行歸納總結。

提升邏輯問答能力的方法

為了更好地理解大語言模型邏輯推理能力的邊界,探索更有效的技術方法,研究者們開發了許多相關的評測任務與基準數據集,用於評估大型模型在邏輯問答任務的性能。在此基礎上,許多研究探索了增強大語言模型邏輯推理能力的方法,這些方法可以大致分為三類:基於外部求解器的方法、基於提示的方法,和預訓練與微調方法。下面進行具體介紹。

1. 基於外部求解器的方法

總體思路是將自然語言(NL)表達的邏輯問題翻譯為符號語言(SL)表達式,然後通過外部求解器進行邏輯推理求解,最後基於多數投票等集成演算法生成最終答案,如圖 2 所示。

圖片

圖 2:基於外部求解器方法提升大型模型邏輯問答能力

2. 基於提示的方法

一類思路是透過設計合理的提示詞,讓 LLMs 在回答問題時顯式地建構邏輯推理鏈;另一類思路是透過設計提示實現 NL 與 SL 的表達轉換,從而增加大型模型的邏輯推理能力。

3. 預訓練與微調方法

考慮到預訓練語料庫中缺乏高品質的邏輯多步推理或證明樣本,預訓練和微調方法透過納入演繹證明或包含邏輯推理過程的自然語言例子來增強數據集,並基於該數據集對大型模型進行預訓練或微調。

提升邏輯一致性的方法

開發可靠的大語言模型並確保其安全部署變得越來越重要,尤其是在它們被用作知識來源時。在可信性中,邏輯一致性至關重要:具有邏輯一致性的大型模型可以有效避免不同問題的回答之間產生矛盾,從而減少大型模型幻覺,增強終端使用者在實踐中對大型模型可靠性的信心。

邏輯一致性要求大型模型在推理複雜問題的過程中回答不同問題時,不與自身回答、知識庫或邏輯規則相矛盾。確保大型模型都能夠在不自相矛盾的情況下進行推理,也被稱為自洽性(self-consistency)。現有大量研究表明,僅透過在大型數據集上進行訓練無法保證其回答滿足邏輯一致性。

我們根據一個、兩個和多個命題之間應具備的邏輯關係,對各種邏輯一致性進行分類,並探討了增強大型模型邏輯一致性的不同方法及其評測指標。

1. 否定一致性(Negation Consistency)

否定一致性要求對單個命題的推理結果不能產生矛盾,即 p 和 ¬p 不能同時成立,且其中只有一個為真:p ∨ ¬p,等價於 ¬(p ∧ ¬p)。

2. 蘊涵一致性(Implication Consistency)

蘊涵一致性基於邏輯規則 p → q。這意味著,給定約束 p → q 和前提 p,可以推出 “q 為真”。如果模型輸出 “q 為假”,那麼我們稱該答案違反了蘊涵一致性。

例如,給定物理事實 “所有鐵都是金屬(鐵 → 金屬)”,大型模型不應該同時回答 “這種材料是鐵(p)” 為 “真”,和 “這種材料是金屬(q)” 為 “假”。

3. 傳遞一致性(Transitivity Consistency)

傳遞性可以表示三個命題之間的邏輯關係。給定兩個前提 p → q 和 q → r,可以推斷出 p → r,這被視為傳遞一致性。研究表明,大型模型缺乏傳遞一致性。

例如,Macaw 問答模型對 “喜鵲是鳥嗎?” 和 “鳥有翅膀嗎?” 這兩個問題都回答 “是”,但對 “喜鵲有翅膀嗎?” 卻回答 “否”。根據傳遞性規則,前兩個肯定答案可以推出 “喜鵲有翅膀”,這與對最後一個問題回答 “否” 是相互矛盾的。

4. 事實一致性(Fact consistency)

事實一致性指的是大型模型生成的回答或推理結果與給定知識庫(KB)的對齊程度。在事實核查(fact-checking)任務中,透過將模型的回答與可靠的知識庫進行比較,來評估模型的回答是否符合知識庫中給定的事實。

5. 複合一致性(Compositional consistency)

複合一致性要求大型模型不僅滿足以上單個邏輯一致性,還應該在組合以上簡單邏輯一致性時對複合邏輯規則仍具有一致性。具體而言,當模型需要透過邏輯運算符(如蘊涵、合取等)將多種邏輯關係組合成複雜的推理鏈時,應確保對每個推導步驟都符合邏輯規則,並使最終結論自洽且邏輯正確。

針對以上每種邏輯一致性,我們都分別探討了其提升方法和評測基準。下圖展示了一類通用的提升大型模型回答的邏輯一致性的方法框架,首先對每個問題生成多個候選回答,然後對不同問題的回答計算邏輯一致性的違背程度,最後最佳化求解為每個問題選擇一個最優答案使邏輯一致性的違背程度降到最低。

圖片

圖 3:一類通用的提升大型模型回答的邏輯一致性的方法框架

未來研究方向

模態邏輯推理能力:現有方法多局限於命題邏輯與一階邏輯,未來可考慮將大語言模型的邏輯推理能力擴展至模態邏輯以處理不確定性命題。

高階邏輯推理:由一階邏輯擴展得到的高階邏輯強調對屬性(即謂詞)進行量化,未來可考慮訓練大型模型的高階邏輯推理能力以處理更複雜的推理問題。

滿足多種邏輯一致性的高效演算法:目前增強邏輯一致性的方法仍存在解決的邏輯一致性單一和計算複雜度過高等問題。因此,開發能同時讓大型模型滿足多種邏輯一致性的高效方法至關重要。

結語

本綜述系統梳理了大語言模型邏輯推理能力的研究現狀。儘管在很多自然語言任務中取得了顯著進展,但大語言模型的邏輯推理能力仍面臨重大挑戰,尤其在邏輯問答和邏輯一致性兩個方面。透過建立完整的分類體系,我們對前沿研究方法進行了系統歸納和概述,並整理了用於該領域常用的公開基準數據集與評估指標,探討了未來的重要研究方向。

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:liyazhou@jiqizhixin.com

主標籤:大語言模型

次標籤:邏輯推理學術研究機器學習人工智慧


上一篇:人工智慧引爆全球失業潮:美國大學生畢業即失業,多家企業因AI裁員上萬人

下一篇:蘋果與Anthropic合作開發Xcode AI程式設計平台

分享短網址