來源 | 機器之心
多模態大型語言模型(MLLM)在高層次視覺理解與推論任務上展現出驚人的能力。然而,如果你仔細觀察,就會發現一個事實:它們在一些看似簡單、直觀、人類幼兒都能輕鬆完成的任務中,卻頻頻「出包」。
例如,「一個玩具被遮住後還在嗎?」、「液體倒入不同形狀容器後,體積變了嗎?」、「兩個物體靠近會發生碰撞嗎?
這是否意味著 MLLM 的先天認知結構中,缺少那些支撐早期人類學習的基礎知識機制?也就是說,它們是否缺乏「核心知識」(core knowledge)?
ICML 2025 高分論文(初步評分 4443),揭示了 MLLM 的「核心認知盲區」。
來自 UC San Diego 的新研究《Core Knowledge Deficits in Multi-Modal Language Models》(發表於 ICML 2025)對這一問題進行了系統、深入的分析。
論文標題:Core Knowledge Deficits in Multi-Modal Language Models
論文連結:https://arxiv.org/pdf/2410.10855
研究發現:目前主流 MLLM 廣泛缺乏核心認知能力,且該能力不能透過模型規模擴展自然習得。
為此,作者建構了一個創新性的多模態評測體系CoreCognition,並提出一種獨特的「干預測試」方法 Concept Hacking,旨在揭示模型是否真的「理解」任務背後的核心知識,還是只是「誤打誤撞」。
建構 CoreCognition:一種跨模態認知評估基準
「核心知識」概念來自發展心理學,尤其是皮亞傑(Piaget)關於人類認知發展的經典理論。研究指出,人類在嬰兒期就已具備一些對世界最基本、最普遍的認知能力,構成我們理解物體、空間、因果、意圖等的基礎。研究團隊受皮亞傑認知發展理論啟發,提出 CoreCognition:一個規模龐大、聚焦「核心知識」的多模態評測體系。其亮點在於:
覆蓋全面:12 項核心認知概念覆蓋了從 感知動作期(如邊界感、連續性、物體恆存、空間知覺、知覺恆常性、直覺物理)到 混合期(如視角理解、層級關係、守恆理解)再到 形式運算期(如意圖識別、機械推論、工具使用)三個階段。這種分層設計幫助深入剖析模型在不同認知層級上的表現差異。
資料豐富,測試廣泛:資料集共包含 1503 個圖像 - 問題對,並透過 230 款主流多模態模型 × 11 種 prompt 設計,生成 2530 個評估資料點,有效覆蓋不同模型規模與指令理解能力。
設計嚴謹:
1. 判斷性強(Discriminativeness):每一道題目都經過精心設計,使得缺乏目標核心知識的模型必然傾向於選擇錯誤答案,從而有效區分模型能力。
2. 混淆最小(Minimal Confounding):問題盡量避免對目標概念以外能力產生依賴,減少與其他核心知識的概念交叉。
3. 無文本捷徑(Minimal Text Shortcut):所有問題均設計為必須結合圖像和語言資訊進行多模態推論,防止模型僅透過語言模式識別猜出正確答案。
品質把控嚴格:所有資料由 12 位具備認知科學、電腦科學或統計學背景的高年級本科或研究生協作完成標註與審核,確保標註品質的一致性與學術嚴謹性。
資料集設計既參考發展心理學與認知科學,又貼近 AI 實驗範式,兼顧理論可靠性與工程可行性,是首次正式將「核心知識」搬進大型語言模型測試框架。
四大關鍵發現
1. 模型在基礎認知任務中存在明顯不足:大型語言模型缺乏基礎認知,尤其是最簡單的認知能力,在諸如邊界感、持續性、空間性等簡單、直觀的任務中,模型性能遠低於對更複雜事物(如層級推論、意圖理解等)的理解能力。這些本應是「常識」的內容,模型卻無法掌握,說明其缺乏對世界基本結構的理解。
2. 模型無法有效利用基礎認知支撐高級能力:模型在高層認知上的表現,不一定與低層認知水平直接掛鉤。說明模型並未形成穩固的認知體系,模型的高級推論感知並不是建立在基礎的認知能力上的。這也能解釋為什麼模型出現穩健性缺陷(即不能持續穩定的正確回答問題)。
3. 增加模型規模並不能顯著提升基礎認知能力:研究顯示模型的基础認知能力無法透過簡單擴展規模獲得顯著提升。儘管模型參數量提升帶來了高級推論能力的提升,但對低級認知幫助較小,甚至某些基礎能力會出現規模越大越差的反常現象。
4. Reasoning model 並沒有表現出明顯優勢:System-2 reasoning 也不能有效幫助模型學習或推論基礎認知能力,這說明模型可能在預訓練階段就缺乏基礎認知能力。
Concept Hacking:干預測試揭示「假理解」陷阱
為了進一步驗證模型是否真的掌握核心概念,作者提出了 Concept Hacking(概念干預)方法:透過構造「對照組」(control)與「干預組」(manipulated),故意在測試圖文中反轉關鍵特徵,但保持其餘條件一致。從而區分「真正理解」與「投機取巧」:
若在正常與反轉任務中均表現良好,說明模型具備真實的認知能力。
若僅在正常任務表現好,但反轉任務失敗,說明模型在依賴虛假的認知捷徑。
若在正常任務表現差,則表明模型既沒有掌握核心知識,也沒有建立認知捷徑。
實驗證明,許多模型在正常圖文任務中表現良好,但一旦關鍵特徵被微調,預測結果大幅崩潰,說明其並非真正理解「核心概念」,而是更加依賴淺顯易得的捷徑學習。
意義與啟示
文章揭示多模態大型語言模型(MLLMs)缺乏核心知識,而且這種知識並不能僅靠規模擴展獲得 — 模型規模越大,越會在複雜任務上「表面優雅」,但更難在基礎認知上實現真正理解。這印證了經典的「Moravec 悖論」:對人類來說最簡單的認知任務,對 AI 卻最困難。這對當前以規模為主的發展路徑構成了根本性挑戰,表明其難以通向類似人類的通用智慧。
認知科學啟示:人類以核心認知為基礎建構更高級認知,MLLM 卻缺乏這種認知搭建的鷹架結構。
技術發展挑戰:簡單地增加參數規模、訓練資料,並不能自動帶來核心認知能力。
未來方向指引:或許需要在模型預訓練階段顯式注入物理、空間等常識,主動「灌輸」這些核心認知能力;探索認知引導訓練機制,以引入「顯式概念學習」;開發更多高度控制的認知能力評測。
本文作者介紹:
黎羿江,在約翰霍普金斯大學獲得電腦科學碩士學位,現在是加州大學聖地牙哥分校一年級博士生,主要研究方向聚焦於實現高效和穩健的學習,並應用於多模態、互動式以及三維具身環境中。
高清瀅,於約翰霍普金斯大學獲得碩士學位,目前正在該校攻讀電腦科學博士學位。她隸屬於約翰霍普金斯醫學院旗下的 Wilmer 眼科研究所,Lions 視覺研究與康復中心,以及工程與醫學人工智慧實驗室。她的研究興趣包括視覺 - 語言模型的可解釋性和面向低視力人群的自主導航技術。
趙天維,是約翰霍普金斯大學電腦科學碩士研究生。他的研究興趣包括從認知科學視角評估、理解與增強多模態模型(特別是其推論能力),以及最佳化多智能體系統中的規劃與協同機制。
汪冰洋,在埃默里大學獲得了理學碩士、理學學士和工商管理學士學位。她的研究興趣包括多模態融合以及從混合模態中高效提取訊號。
孫浩然,於 2024 年獲得約翰霍普金斯大學應用數學碩士學位。其主要研究方向包括醫學資料科學以及機器學習在心臟病學中的應用。
羅得之,是密西根大學溫博格認知科學研究院的大四學生。他曾在倫敦大學學院心理與語言科學系訪學,並曾任倫敦大學哲學研究所的人工智慧學者。他的研究興趣為認知科學與人工智慧的理論基礎,尤其關注意識、自我加工與核心認知。
Hokin Deng ,是卡內基美隆大學的訪問研究科學家。他曾在哈佛大學擔任電腦視覺工程師,設計了首套用於單細胞認知實驗的實驗基礎設施。在此之前,他是約翰霍普金斯醫院的神經工程師,並在 Meta Reality Labs 擔任附屬研究科學家。他共同領導了開源專案 「像孩子一樣培養人工智慧(GrowAI)」 ,並聯合組織了多場聚焦電腦科學、神經科學與哲學交叉領域的研討會。此前,他曾在約翰霍普金斯大學學習神經科學與哲學。