出典 | 机器之心
マルチモーダル大規模言語モデル(MLLM)は、高レベルの視覚理解と推論タスクにおいて驚くべき能力を示しています。しかし、よく観察すると、ある事実が明らかになります。それは、一見すると単純で直感的で、人間の幼児でも簡単にこなせるタスクで、頻繁に「失敗」しているということです。
例えば、「隠されたおもちゃはまだそこにあるのか?」、「液体を異なる形状の容器に注いだ後、体積は変わったのか?」、「2つの物体が接近すると衝突するのか?」
これは、MLLMの先天的な認知構造に、初期の人間の学習を支える基礎的な知識メカニズムが欠けていることを意味するのでしょうか?つまり、彼らは「核心知識(core knowledge)」を欠いているのでしょうか?
ICML 2025の評価の高い論文(初期スコア4443)は、MLLMの「核心認知の死角」を明らかにしました。
UCサンディエゴからの新しい研究「Core Knowledge Deficits in Multi-Modal Language Models」(ICML 2025で発表)は、この問題について体系的かつ詳細な分析を行っています。
論文タイトル:Core Knowledge Deficits in Multi-Modal Language Models
論文リンク:https://arxiv.org/pdf/2410.10855
研究結果:現在の主流のMLLMは広範に核心認知能力を欠いており、この能力はモデルの規模を拡大することで自然に習得できるものではないことが判明しました。
このため、著者は革新的なマルチモーダル評価システム CoreCognition を構築し、モデルがタスクの背後にある核心知識を本当に「理解」しているのか、それとも単に「偶然正解した」だけなのかを明らかにする独自の「介入テスト」手法 Concept Hacking を提案しました。
CoreCognitionの構築:クロスモーダル認知評価ベンチマーク
「核心知識」の概念は、発達心理学、特にピアジェ(Piaget)の人間の認知発達に関する古典的な理論に由来しています。研究によれば、人間は乳児期にはすでに、世界に対する最も基本的で普遍的な認知能力を備えており、それが物体、空間、因果関係、意図などを理解する基礎となっています。研究チームはピアジェの認知発達理論に触発され、CoreCognitionを提案しました。これは、「核心知識」に焦点を当てた大規模なマルチモーダル評価システムです。そのハイライトは以下の通りです:
包括的な網羅:12の核心認知概念は、感覚運動期(境界感覚、連続性、対象永続性、空間知覚、知覚恒常性、直感的物理など)から、混合期(視点理解、階層関係、保存理解など)、そして形式的操作期(意図認識、機械的推論、道具使用など)の3つの段階をカバーしています。この階層的な設計により、モデルの異なる認知レベルでのパフォーマンスの差異を深く分析することができます。
豊富なデータ、広範なテスト:データセットは合計1503の画像と質問のペアを含み、230の主流マルチモーダルモデルと11種類のプロンプト設計を通じて、2530の評価データポイントを生成し、異なるモデル規模と指示理解能力を効果的にカバーしています。
厳密な設計:
1. 高い判別性(Discriminativeness):各問題は、目標とする核心知識を欠くモデルが必然的に誤った答えを選択する傾向があるように注意深く設計されており、モデルの能力を効果的に区別します。
2. 最小限の混同(Minimal Confounding):問題は、目標概念以外の能力への依存を最小限に抑えるように設計されており、他の核心知識の概念との重複を減らします。
3. テキストによる近道なし(Minimal Text Shortcut):すべての問題は、画像と言語情報を組み合わせてマルチモーダルな推論を行う必要があるように設計されており、モデルが言語パターン認識だけで正解を推測するのを防ぎます。
厳格な品質管理:すべてのデータは、認知科学、コンピュータサイエンス、または統計学の背景を持つ12人の高学年学部生または大学院生によって共同で注釈とレビューが行われ、注釈の品質の一貫性と学術的厳密性が保証されています。
データセットの設計は、発達心理学と認知科学を参照しつつ、AI実験パラダイムにも適合しており、理論的な信頼性と工学的な実現可能性を両立させています。これは、「核心知識」を大規模モデルのテストフレームワークに正式に導入した初めての試みです。
四つの主要な発見
1. モデルは基礎的な認知タスクにおいて顕著な不足を抱えている:大規模モデルは基礎的な認知、特に最も単純な認知能力を欠いています。境界感覚、連続性、空間性などの単純で直感的なタスクにおいて、モデルのパフォーマンスは、より複雑な事柄(階層的推論、意図理解など)の理解能力をはるかに下回っています。これらは「常識」であるべき内容ですが、モデルはそれを把握できておらず、世界における基本的な構造の理解が不足していることを示しています。
2. モデルは基礎的な認知を効果的に利用して高度な能力を支えることができない:モデルの高度な認知におけるパフォーマンスは、低レベルの認知レベルと直接関連しているとは限りません。これは、モデルが強固な認知システムを形成しておらず、モデルの高度な推論認識が基礎的な認知能力に基づいて構築されていないことを示しています。これは、モデルがロバスト性の欠陥(つまり、継続的に安定して正しい質問に答えられないこと)を示す理由も説明できます。
3. モデル規模の拡大は基礎的な認知能力を顕著に向上させない:研究によると、モデルの基礎的な認知能力は、単純な規模拡大によって顕著に向上することはありません。モデルのパラメータ数の増加は、高度な推論能力の向上をもたらしましたが、低レベルの認知に対する助けは小さく、一部の基礎能力においては、規模が大きくなるほど悪化するという逆説的な現象さえ見られます。
4. 推論モデルは明確な優位性を示さなかった:System-2推論も、モデルが基礎的な認知能力を学習したり推論したりするのに効果的に役立たず、これはモデルが事前学習段階で基礎的な認知能力を欠いている可能性を示唆しています。
Concept Hacking:介入テストが「偽りの理解」の罠を暴く
モデルが本当に核心概念を習得しているかをさらに検証するため、著者はConcept Hacking(概念介入)手法を提案しました。これは、「対照群」(control)と「介入群」(manipulated)を構築し、テストの図や文中の主要な特徴を意図的に反転させ、他の条件は一貫させることで行われます。これにより、「真の理解」と「ごまかし」を区別します:
通常タスクと反転タスクの両方で良好なパフォーマンスを示した場合、モデルが真の認知能力を持っていることを示します。
通常タスクでのみ良好なパフォーマンスを示し、反転タスクで失敗した場合、モデルが偽りの認知ショートカットに依存していることを示します。
通常タスクでパフォーマンスが悪い場合、モデルが核心知識を習得しておらず、認知ショートカットも確立していないことを示唆します。
実験結果は、多くのモデルが通常の図文タスクでは良好なパフォーマンスを示すものの、主要な特徴がわずかに調整されると予測結果が大幅に崩壊することを示しています。これは、モデルが「核心概念」を本当に理解しているのではなく、浅く容易なショートカット学習に依存していることを意味します。
意義と示唆
本稿は、マルチモーダル大規模言語モデル(MLLM)が核心知識を欠いていること、そしてこの知識が規模拡大だけで得られるものではないことを明らかにしています。モデルの規模が大きくなるほど、複雑なタスクでは「表面上は優雅」に見えるが、基礎的な認知における真の理解は難しくなります。これは、古典的な「モラベックのパラドックス」を裏付けるものです。人間にとって最も単純な認知タスクが、AIにとっては最も困難であるというこのパラドックスは、現在の規模主導の開発経路に根本的な課題を突きつけ、人間のような汎用知能への到達が困難であることを示唆しています。
認知科学からの示唆:人間は核心認知を基礎としてより高度な認知を構築しますが、MLLMはこの認知構築のための足場(scaffold)構造を欠いています。
技術開発の課題:単純にパラメータ規模や訓練データを増やすだけでは、自動的に核心認知能力がもたらされるわけではありません。
将来の方向性:モデルの事前訓練段階で物理や空間などの常識を明示的に注入し、これらの核心認知能力を積極的に「教え込む」必要があるかもしれません。また、認知誘導型訓練メカニズムを探索し、「明示的な概念学習」を導入することや、より高度に制御された認知能力評価を開発することも求められます。
著者紹介:
黎羿江(リ・イージャン):ジョンズ・ホプキンズ大学でコンピュータサイエンスの修士号を取得し、現在はカリフォルニア大学サンディエゴ校の博士課程1年です。彼の主な研究方向は、効率的でロバストな学習の実現に焦点を当てており、マルチモーダル、インタラクティブ、そして3次元の身体化された環境に応用されています。
高清瀅(ガオ・チンイン):ジョンズ・ホプキンズ大学で修士号を取得し、現在は同大学でコンピュータサイエンスの博士号取得を目指しています。彼女はジョンズ・ホプキンズ医科大学に属するウィルマー眼科研究所、ライオンズ視覚研究リハビリテーションセンター、および工学・医学人工知能研究所に所属しています。彼女の研究関心は、視覚言語モデルの解釈可能性と、低視力者向けの自律ナビゲーション技術です。
趙天維(ジャオ・ティアンウェイ):ジョンズ・ホプキンズ大学コンピュータサイエンスの修士課程の学生です。彼の研究関心は、認知科学の視点からマルチモーダルモデル(特にその推論能力)を評価、理解、強化すること、および多エージェントシステムにおける計画と協調メカニズムを最適化することです。
汪冰洋(ワン・ビンヤン):エモリー大学で理学修士、理学学士、経営学学士の学位を取得しました。彼女の研究関心は、マルチモーダル融合と、混合モダリティからの効率的な信号抽出です。
孫浩然(スン・ハオラン):2024年にジョンズ・ホプキンズ大学で応用数学の修士号を取得しました。彼の主な研究方向は、医療データサイエンスと心臓病学における機械学習の応用です。
羅得之(ルオ・デジー):ミシガン大学ワインバーグ認知科学研究所の学部4年生です。彼はロンドン大学ユニバーシティ・カレッジ心理と言語科学科に客員研究員として在籍し、以前はロンドン大学哲学研究所のAI研究員を務めました。彼の研究関心は、認知科学と人工知能の理論的基礎、特に意識、自己処理、核心認知に焦点を当てています。
Hokin Deng(ホーキン・デン):カーネギーメロン大学の客員研究員です。彼は以前、ハーバード大学でコンピュータビジョンエンジニアとして、単一細胞認知実験のための初の実験インフラを設計しました。それ以前は、ジョンズ・ホプキンズ病院の神経工学者であり、Meta Reality Labsの協力研究員を務めていました。彼はオープンソースプロジェクト「子供のようにAIを育てる(GrowAI)」を共同で主導し、コンピュータサイエンス、神経科学、哲学の交差領域に焦点を当てた複数のワークショップを共同で組織しました。以前は、ジョンズ・ホプキンズ大学で神経科学と哲学を学びました。