通用人工智慧(AGI)可能是人類歷史上最重要的技術,但這個詞本身長期以來模糊不清,標準也不斷變動。隨著窄域人工智慧越來越能夠完成許多「看似需要人類智慧」的任務,人們對「什麼才算是AGI」的門檻也隨之調整,導致討論往往流於口號,既不利於判斷差距,更阻礙治理與工程規劃,我們也很難看清當前AI距離AGI還有多遠。
為撥開AGI的迷霧,這篇由加州大學柏克萊分校、牛津大學等27家機構聯合發表的論文,提出了一個可量化的操作性框架。
這將平時口語中含糊的AGI,定義為:能在認知廣度與熟練度上匹配或超過一名受過良好教育的成年人的人工智慧。
這套框架落地成為可觀測的指標與流程。其核心思想是:通用智慧不是「某幾個窄項很強」,而是門類廣(versatility)+ 每門紮實(proficiency)。最終得出一個明確的結論:
立論依據:向人類認知科學借鑑
人類是唯一現成的通用智慧樣本,研究者將框架建立在人類心理測量學中證據最紮實的Cattell–Horn–Carroll(CHC)理論上。CHC經過一個多世紀的因子分析,已被主流臨床與教育測驗反覆迭代採用,它將「總體智慧」拆解成若干廣域能力與大量窄能力(如:歸納、聯想記憶、空間掃描等)。這篇論文不再使用含混不清的籠統任務,而是直接將人類測驗的方法改造應用於AI評估上。
注意!這裡研究者反覆強調:他們討論的AGI關心的是人水平的心智能力,不等同於「能賺很多錢」或「幾乎替代所有勞動」的經濟學概念,也不將體能/操控這類軀體技能計算在內。
AGI的十個先決核心廣域能力
框架將「AGI」拆解成10個核心認知領域,達到100分即算AGI,每項10%等權對待,目的是突出廣度,避免只依靠個別強項「帶飛」。它們分別是:K 知識、RW 讀寫、M 數學、R 臨場推理、WM 工作記憶、MS 長時記憶儲存、MR 長時記憶提取、V 視覺、A 聽覺、S 速度。每項下面再細分可操作的子能力與具體測試方式。這裡面的設計哲學很有意思。在人類評測中,「臨場推理(流體智力)」常與其他測驗高度相關,能力之間強耦合,複雜任務往往跨領域;但對於AI,不一定存在同樣的相關結構。因此作者不將某一維(如 R)設定為更大權重,而是一律10%,並明確寫道:這麼做是為了「reflect agnosticism(對各能力相對重要性保持不可知)」。如果簡單求和的「AGI總分」容易掩蓋關鍵短板(例如 MS=0% 但總分90%),真實系統會被類似「失憶症」嚴重拖累。
這種方法強制關注「馬力由最弱齒輪決定」的事實,意思是說整體智慧就像馬力,受最弱部件限制。當前幾個關鍵「機件」仍「嚴重故障」(尤其長期記憶儲存),這就是總馬力上不去的原因。這也決定了我們距離通用人工智慧到底還有多遠。
1 知識(K)
測什麼:常識 + 自然/社會科學 + 歷史 + 文化。例題:
「冷戰如何結束?」「鄂圖曼帝國興起與影響?」
「聽到 I’m dreaming of a White… 下一句詞是什麼?」(流行文化)標準:五塊各2%;歷史/藝術可對照AP 5分水位;常識可用PIQA/ETHICS等作「底線佐證」。
2 讀寫(RW)
測什麼:識字拼寫(1%)+ 閱讀(3%:句/段/長文檔)+ 寫作(3%)+ 英文用法校對(3%)。例題:
句子指代(Winograd);從保修條款裡找「電池保修期」並判斷問題是否欠定;
寫議論文:「遠端辦公要不要預設?」標準:長文檔要結合COQA/ReCoRD/LAMBADA/LongBench等閾值,且幻覺率 <1%;寫作可參考GRE AW ≥4/6。
3 數學(M)
測什麼:算術 / 代數 / 幾何 / 機率 / 微積分,各2%(每塊「基礎1%+熟練1%」)。例題:
幾何:四分之一圓內接矩形面積;
微積分
機率:俱樂部增員到「抽中男生=1/2」。達標:GSM8K/MATH/AP AB&BC等對應閾值,人類上限水位對齊。
4 臨場推理(R)
測什麼:演繹(2) + 歸納(4) + 心智理論(2) + 規劃(1) + 規則遷移(1)。例題:
形式邏輯四選一;Raven 圖形找規律;
心智理論(ToM):Mary 是否「知道」罐頭裡發霉?(答案:否)
旅行規劃:直飛約束下排14天路線。達標:ToMBench/FANToM達人類線;規劃類 ≥90%;WCST總錯 <15。
5 工作記憶(WM)
測什麼:文字(2) / 聽覺(2) / 視覺(4) / 跨模態(2)。例題:
「把這串數字先+40再倒序」;
長影片問答(看完後問關鍵橋段);
空間導航:廚房裡爐子相對冰箱在哪裡?達標:雙模態2-back ≥85%;空間/長影片類用VSI-Bench、MindCube、長影片QA設線。
6 長時記憶儲存(MS)
測什麼:把新東西寫進長期記憶(更換會話也能想起)。例題:
第二天還記得「新報銷格式」「同事偏好」;
48小時後逐字複述電話號碼/打油詩;
回憶示意圖/電路圖佈局。達標:所有任務必須在新會話、禁用外部檢索,考「寫入」,不是「上下文暫存」。
7 長時記憶提取(MR)
測什麼:既快又準地從長期記憶裡提取資訊。例題:
1分鐘盡量多列「鉛筆用途/圓形物體」(流暢度);
辨偽:「邱吉爾在1961年講『勿問國家…』?」(錯誤)達標:六類流暢度各1%;抗幻覺:SimpleQA幻覺率 <5%(禁用工具)。
8 視覺(V)
測什麼:知覺(4) / 生成(3) / 視覺推理(2) / 空間掃視(1)。例題:
找圖片/影片裡的異常與不可能物理;
畫「標註清晰的大象示意圖」或生成「鍵盤打字短影片」;
摺疊/展開、心旋轉、讀圖表。達標:ImageNet/IntPhysics2/SpatialViz等 ≥既定閾值。
9 聽覺(A)
測什麼:音系編碼(1) / 語音識別(4) / 合成語音(3) / 節律(1) / 音樂判斷(1)。例題:
WER指標的轉寫;
朗讀「Wait, you mean the tickets were free this whole time?」自然連續;
跟拍、分辨不協和。達標:LibriSpeech test-clean WER <5.83%、test-other <12.69%等。
10 速度(S)
測什麼:知覺搜索、知覺比較、讀速、寫速、心算、簡單反應時、選擇反應時、檢視時、比較時、指標流利度共10個1%。例題:
60秒讀一段後回答「feelies 是什麼」;
看到提示立刻回應、或在多選規則下迅速按鍵;
30秒用「滑鼠/虛擬滑鼠」畫盡量多的圓。達標:與「受過良好教育的成年人」速度基線對比;思考停頓也算時間。
最終結果:AGI尚未到來
評測結果GPT-4:27%;GPT-5:58%。
GPT-5在知識、讀寫、數學、視覺/聽覺、臨場推理、工作記憶等多處提升,但長時記憶儲存仍為0%;速度也未改善。譜圖呈現明顯的「鋸齒」狀:有的點很高,有的接近0。
研究者據此強調兩個判斷:第一,當前模型在靠大數據模式學習的板塊(知識、讀寫、數學)很強,但在認知底層「機械」(尤其長期記憶寫入)上嚴重短板;第二,整體進度雖快,但距離「像人那樣全面而穩定的通用智慧」仍有明顯差距。
兩種典型「能力扭曲」
研究者提醒不要將工程上的「權宜之計」誤認為模型真的具備了相應認知部件:
用超長上下文(WM)替代長期記憶(MS):依靠巨大的「工作記憶」將一天甚至一週的材料都塞進上下文,確實能「看起來會」;但這在算力上低效、不穩定、也難以支撐跨天跨週的累積。真正的解決方案是要能將新經驗寫入模型的持久記憶。
用外部檢索(RAG)替代內部提取(MR):檢索能降低幻覺,但它遮蔽了兩層問題:第一,模型無法穩定訪問自帶的參數化知識;第二,缺少私有的、可更新的「經歷記憶」。想實現AGI,RAG不是長久之計,無法作為記憶的替代品。
障礙與展望
「拿滿分」需要跨越一系列難關:抽象推理(如 ARC-AGI)、直覺物理與影片異常理解、空間導航記憶、低幻覺的精準提取、以及真正的長期持續學習等。論文的一作也在他的個人社交媒體中寫到AGI在一年內基本不會出現,但它很可能在本十年內實現。
未來已來,有緣一起同行!
<本文完結>