汎用人工知能(AGI)は人類史上最も重要な技術となる可能性を秘めていますが、この言葉自体は長らく曖昧で、その基準も常に変動しています。狭義のAIが「人間の知恵を必要とするように見える」タスクを次々とこなし、その能力を高めるにつれて、「何がAGIと見なされるか」の敷居も変化し続けています。これにより、議論はしばしばスローガンに終始し、実際のギャップを判断するのに役立たず、ガバナンスや工学的計画を妨げています。現在のAIがAGIにどれほど近いのかを明確に把握することも困難です。
AGIを取り巻く霧を晴らすため、カリフォルニア大学バークレー校やオックスフォード大学を含む27の機関が共同で発表したこの論文は、定量化可能で操作的なフレームワークを提示しています。
このフレームワークは、普段の会話で曖昧に使われるAGIを、認知の広さと習熟度において、十分に教育を受けた成人と同等かそれ以上であるAIと定義しています。
これは、観測可能な指標と手順として具体化されています。中心となる考え方は、「汎用知能はいくつかの狭い分野で非常に優れている」ことではなく、多才さ(versatility)と各分野での確実な熟練度(proficiency)の組み合わせである、というものです。最終的に、次のような明確な結論を導き出しています。
論拠:人間認知科学からの借用
人間は唯一既存の汎用知能のサンプルであり、研究者はこのフレームワークを、人間の心理測定学で最も確固たる証拠を持つキャッテル=ホーン=キャロル(CHC)理論に基づいて構築しました。CHCは1世紀以上の因子分析を経て、主要な臨床および教育テストで繰り返し採用されてきました。これは「全体知能」をいくつかの広範な能力と多数の狭義の能力(例:帰納、連合記憶、空間走査など)に分解します。この論文は、曖昧な漠然としたタスクではなく、直接人間のテスト方法をAI評価に適合させています。
注意!ここで研究者は繰り返し強調しています。彼らが議論するAGIは、人間レベルの精神能力に関心があり、「多額の金を稼ぐことができる」とか「ほとんどの労働を代替する」といった経済的概念とは異なり、身体能力/操作といった身体的スキルは含まれていません。
AGIの10の必須コア広域能力
このフレームワークは「AGI」を10のコア認知領域に分解し、100点満点でAGIとみなし、各項目を10%均等に評価します。目的は広範性を強調し、特定の強みだけで「ごまかす」ことを避けるためです。これらは:K 知識、RW 読み書き、M 数学、R 流動性推論、WM 作業記憶、MS 長期記憶貯蔵、MR 長期記憶検索、V 視覚、A 聴覚、S 速度です。各項目はさらに操作可能な下位能力と具体的なテスト方法に細分化されます。ここでの設計哲学は非常に興味深いものです。人間の評価では、「流動性推論(流動性知能)」は他のテストと高度に相関し、能力間に強い結合があり、複雑なタスクはしばしば領域をまたがります。しかしAIの場合、同じような相関構造が存在するとは限りません。そのため、著者は特定の次元(例えばR)により大きな重みを置かず、一律10%としており、その理由を「reflect agnosticism(各能力の相対的な重要性について不可知論を反映する)」と明記しています。もし単純な合計「AGI総得点」が重要な弱点(例えばMS=0%でも総得点90%)を隠してしまうと、実際のシステムは「記憶喪失」のような深刻な問題に悩まされることになります。
この方法は、「馬力は最も弱い歯車によって決まる」という事実に焦点を当てさせます。つまり、全体的な知能は馬力のようなもので、最も弱いコンポーネントによって制限されます。現在、いくつかの主要な「部品」は依然として「深刻な故障」(特に長期記憶貯蔵)を抱えており、これが総馬力が向上しない理由です。これは、私たちが汎用人工知能にどれほど近づいているのかをも決定します。
1 知識(K)
測定内容:一般常識 + 自然/社会科学 + 歴史 + 文化。例題:
「冷戦はどのように終結したか?」「オスマン帝国の勃興とその影響は?」
「I’m dreaming of a White…と聞いたら、次の言葉は何か?」(大衆文化)基準:5項目各2%;歴史/芸術はAP 5点レベルに準拠可能;常識はPIQA/ETHICSなどを用いて「最低限の裏付け」とすることができる。
2 読み書き(RW)
測定内容:識字・スペル(1%)+ 読解(3%:文/段落/長文)+ 執筆(3%)+ 英文用法校正(3%)。例題:
文の指示対象(Winograd);保証規定から「バッテリーの保証期間」を見つけ、問題が不定であるかを判断する;
議論文の執筆:「リモートワークはデフォルトにすべきか?」基準:長文はCOQA/ReCoRD/LAMBADA/LongBenchなどの閾値を組み合わせ、かつハルシネーション率 <1%;執筆はGRE AW ≥4/6を参考にできる。
3 数学(M)
測定内容:算術 / 代数 / 幾何 / 確率 / 微積分、それぞれ2%(各項目「基礎1% + 熟練1%」)。例題:
幾何:四分円に内接する長方形の面積;
微積分
確率:クラブメンバーを増やして「男の子が選ばれる確率=1/2」になるようにする。達成基準:GSM8K/MATH/AP AB&BCなどの対応閾値に達し、人間の上限レベルに合致する。
4 流動性推論(R)
測定内容:演繹(2) + 帰納(4) + 心の理論(2) + 計画(1) + 規則転移(1)。例題:
形式論理の四択;Raven図形の問題で法則を見つける;
心の理論(ToM):メアリーは缶の中のものがカビていることを「知っている」か?(答え:いいえ)
旅行計画:直行便の制約の下で14日間のルートを組む。達成基準:ToMBench/FANToMが人間レベルに達する;計画系は90%以上;WCST総誤り数 <15。
5 作業記憶(WM)
測定内容:言語(2) / 聴覚(2) / 視覚(4) / クロスモーダル(2)。例題:
「この数字列を最初に+40し、次に逆順にする」;
長編動画の質問応答(視聴後に重要なシーンについて質問する);
空間ナビゲーション:キッチンでストーブは冷蔵庫の相対的な位置でどこにあるか?達成基準:デュアルモーダル2-バック ≥85%;空間/長編動画系はVSI-Bench、MindCube、長編動画QAのベンチマークを使用。
6 長期記憶貯蔵(MS)
測定内容:新しい情報を長期記憶に書き込むこと(セッションを変更しても思い出せる)。例題:
翌日になっても「新しい経費精算フォーマット」「同僚の好み」を覚えている;
48時間後に電話番号/童謡を逐語的に復唱する;
概略図/回路図の配置を思い出す。達成基準:すべてのタスクは必ず新しいセッションで行い、外部検索は無効にする。「書き込み」をテストするのであり、「コンテキスト一時保存」ではない。
7 長期記憶検索(MR)
測定内容:長期記憶から情報を素早くかつ正確に呼び出すこと。例題:
1分間で「鉛筆の用途/丸い物体」をできるだけ多くリストアップする(流暢性);
真偽判定:「チャーチルは1961年に『国があなたに何を求めるか…』と言ったか?」(誤り)達成基準:6種類の流暢性がそれぞれ1%;ハルシネーション耐性:SimpleQAのハルシネーション率 <5%(ツール無効)。
8 視覚(V)
測定内容:知覚(4) / 生成(3) / 視覚推論(2) / 空間走査(1)。例題:
画像/動画中の異常や不可能な物理現象を見つける;
「明確な注釈付き象の概略図」を描く、または「キーボードでタイピングする短い動画」を生成する;
折り畳み/展開、心的回転、図表の読み取り。達成基準:ImageNet/IntPhysics2/SpatialVizなどが所定の閾値以上。
9 聴覚(A)
測定内容:音韻符号化(1) / 音声認識(4) / 音声合成(3) / 抑揚(1) / 音楽判断(1)。例題:
WER指標による文字起こし;
「Wait, you mean the tickets were free this whole time?」を自然で連続的に朗読する;
拍子を合わせる、不協和音を識別する。達成基準:LibriSpeech test-clean WER <5.83%、test-other <12.69%など。
10 速度(S)
測定内容:知覚探索、知覚比較、読書速度、書字速度、暗算、単純反応時間、選択反応時間、検査時間、比較時間、ポインター流暢性合計10項目各1%。例題:
60秒で文章を読み、「feeliesとは何か」に答える;
プロンプトを見てすぐに反応する、または多肢選択ルール下で素早くボタンを押す;
30秒以内に「マウス/仮想マウス」でできるだけ多くの円を描く。達成基準:「十分な教育を受けた成人」の速度ベースラインと比較;思考停止時間も含む。
最終結果:AGIはまだ到来していない
評価結果 GPT-4:27%;GPT-5:58%。
GPT-5は知識、読み書き、数学、視覚/聴覚、流動性推論、作業記憶など多くの分野で向上しましたが、長期記憶貯蔵は依然として0%でした。速度も改善されていません。スペクトルは明確な「のこぎり状」を示しており、非常に高い点もあれば、0に近い点もあります。
研究者はこれに基づき、二つの判断を強調しています。第一に、現在のモデルはビッグデータパターン学習に依存する分野(知識、読み書き、数学)では非常に強力ですが、認知の根底にある「メカニズム」(特に長期記憶への書き込み)には深刻な弱点があります。第二に、全体的な進歩は急速であるものの、「人間のように包括的で安定した汎用知能」には依然として明確なギャップがあります。
二つの典型的な「能力の歪み」
研究者は、工学的な「場当たり的な解決策」を、モデルが対応する認知コンポーネントを本当に備えていると誤解しないよう警告しています。
超長文脈(WM)による長期記憶(MS)の代替:膨大な「作業記憶」に1日や1週間分の情報を詰め込むことで、確かに「できる」ように見えますが、これは計算効率が悪く不安定であり、日をまたぐ、週をまたぐ蓄積を支えることはできません。真の解決策は、新しい経験をモデルの永続的な記憶に書き込むことができることです。
外部検索(RAG)による内部検索(MR)の代替:検索はハルシネーションを減らすことができますが、二重の問題を覆い隠しています。第一に、モデルは独自のパラメータ化された知識に安定してアクセスできません。第二に、プライベートで更新可能な「経験記憶」が不足しています。AGIを実現するには、RAGは長期的解決策ではなく、記憶の代替品にはなりえません。
障害と展望
「満点を取る」には、一連の難関を乗り越える必要があります:抽象推論(ARC-AGIなど)、直感的な物理学と動画の異常理解、空間ナビゲーション記憶、低ハルシネーションの正確な検索、そして真の長期継続学習などです。論文の筆頭著者も自身のソーシャルメディアで、AGIが1年以内に現れることは基本的にはないが、この10年以内には実現する可能性が高いと述べています。
未来はすでにここにあります、ご縁があれば共に歩みましょう!
<記事終了>