ICML 2025 | 用『人類測驗法』戳破AI泡沫:建構能力導向的自適應評測新範式

圖片

隨著大型模型能力持續增強,僅憑觀察各種基準測試(Benchmark)上的分數來判斷一個模型是否真正聰明、值得信賴,可能遠遠不足。

你是否知道:

  • 評估一個大型模型完整執行一套標準測試(例如 HELM),可能耗時超過 4000 GPU 小時、成本超過數萬美元;

  • 產業中的模型評估甚至需要大量人類專家參與標註/評斷;

  • 許多基準測試中的題目品質可能不如我們想像中那麼可靠;

  • 即使模型準確率高達 99%,我們仍然很難回答:它是靠實力答對的?題目太簡單?還是訓練時見過原題?

傳統大規模「刷題式」的評估方式,已難以滿足現今通用人工智慧的評估需求,尤其是在認知能力評估方面。

近期在 ICML 2025 會議上,一項由中國科學技術大學認知智慧全國重點實驗室、加州大學柏克萊分校、美國教育測驗服務社(ETS)共同發表的立場論文(Position),基於上世紀已出現的心理計量學理論,提出一種人工智慧(AI)評估的新思維:以評估人類的方式,來評估 AI 模型的能力。

圖片

論文標題:Position: AI Evaluation Should Learn from How We Test Humans

論文連結:https://arxiv.org/abs/2306.10512

圖片

目前 AI 評估方式面臨的困境

圖片

為了追求全面評估,目前 AI 模型面對的是越來越大的「試卷」,Google BIG-bench 包含超過 200 項任務、HuggingFace Open LLM Leaderboard 更是涵蓋 6 個情境下的 2.9 萬個題目。

目前主流的 AI 評估方案,簡單直接:準備一個龐大且全面的測試集,模型答題後依照準確率等各項指標計分。但這種評估範式在實際應用中卻問題重重:

  • 成本:特別是針對大型模型,評估涉及大量的運算成本、人力成本、時間成本;

  • 可靠性:大量題目存在重複/冗餘、題目品質良莠不齊;

  • 安全性:許多測試題目被模型「看過」或者「記住」了;

  • 可解釋性:只觀察到「答對多少題」,卻不知道「能力強在哪裡」、「能力有多強」。

圖片

心理計量學啟發:以自適應測試精準測量 AI 能力

人類的 GRE、TOEFL 等考試早已採用基於心理計量學(Psychometrics)的自適應測試。這類測試認識到:每道題目的重要性與資訊價值皆不同,可估計出每個題目的難度、區辨度、猜測機率等統計特徵,並且系統會根據受測者表現動態分發題目,更精準地評估其能力。

換句話說,自適應測試關注的並非模型答對了多少題,而是其真正的能力邊界。本篇立場論文提出:心理計量學這種源於 20 世紀針對人類的測評技術,可以協助解決現今 AI 評估的困境,重構能力評估機制。

圖片

以心理計量學重構 AI 評測

3.1 能力導向:測量出 AI 真正的「能力值」

圖片

傳統的評估範式是分數導向(score-oriented),而自適應測試則是能力導向(ability-oriented),目的不是數對了多少題,而是建構 AI 能力分佈模型,給出統計意義上的能力估計。具體優勢為:

  • 高效性:精準選擇高資訊量題目,研究者發現可用不到 3% 的題量,即可還原完整基準測試上的成績(上圖)

  • 可解釋性:建立模型能力與題目特徵間的關聯,例如相同能力下難度越低答對機率越大,可解釋分數背後的原因;認知診斷模型也支援建立 AI 的多維能力

  • 捕捉不確定性:模型行為可能受溫度參數或提示詞(prompt)微小變化影響(例如人類考試時也會受到環境、心情波動等影響)

  • 可比較性:在統一尺度上對模型能力進行統計比較,甚至可跨基準測試進行統一評估(例如人類的 GRE 不同場次分數具有可比性)

因此,心理計量學可以將 AI 模型的表現映射為「能力參數」,進而分析模型擅長/薄弱在哪裡、穩不穩定、不確定性高不高。

3.2 並非所有題目都同等重要

圖片

許多人預設基準測試中的測驗題目是「準確、可靠、有價值」的,但事實往往並非如此。並非所有題目都值得出現在測試集中。心理計量學能夠估計每個題目的特徵,例如難度、鑑別度、猜測係數。

  • 基準測試中每個題目的價值/重要性是不一樣的,上圖(a)展示 SSTB 情感分類資料集中兩個題目估計出的難度差異,簡單的題目中有明顯的情感偏向詞彙。

  • 基準測試中可能出現低品質甚至是標註錯誤的題目,如上圖(b)所示,在 SQuAD 閱讀理解資料集中,有些題目的鑑別度極低,分析發現其參考答案甚至存在錯誤。

  • 部分題目易被「猜對」,無法真實考查能力。如上圖(c)中 MedQA 醫療問答資料集的某題,即便模型缺乏醫學知識,也可能僅憑常識猜對,這些題目較高的猜測係數削弱了其評估價值。

3.3 大型模型「偷看」過題目?資料污染識別

圖片

現今大型語言模型訓練資料動輒涵蓋整個網路,來源複雜,這帶來了一個嚴重的問題:測試資料很可能在模型訓練階段就被「看」過了。這被稱為資料污染(Data Contamination):模型在「測驗」時,恰好碰到自己訓練中「背過」的原題。這會造成什麼影響?模型表現異常優異,但並非出於理解,而是記憶;測試分數被大幅拉高,誤判模型的真實水準;基準測試信用下滑,無法反映模型的泛化能力...

這就像一場考試中,有考生提前拿到了原題,自然不能作為判斷其水準的依據。如同人類教育體系,心理計量學中已發展出一系列偵測作弊或洩題的統計方法,已被證明能有效發現異常模式,且現今許多針對大型語言模型(LLM)的污染偵測方法也是基於以下概念(上圖)。例如:

  • 高難度題答對,低難度題卻答錯,這是典型的表現異常

  • 模型頻繁在「不可能答對的題目」上答對,很可能就是「見過題」;

  • 項目反應理論(IRT)中的猜測係數異常偏高,說明模型無需理解也能答對,也可能說明是題目洩漏。

此外,自適應測試還有一個天然優勢:每個模型所做的題目不同,完整的測試集並未完全暴露,進一步降低了資料污染風險。這正是 GRE 等人類考試採用自適應測試機制的重要原因之一。

圖片

應用前景:建立 AI 時代的「心理測評框架」

這項工作橫跨人工智慧、認知科學與標準化測評三大領域,旨在為 AI 評估系統帶來結構性優化。從能力評估,到偏好傾向、決策邏輯、穩定性與公平性,我們是否可以不再追求「大而全的測試集」,而是細緻建模題目特徵差異,洞察模型的表現與內部結構。它不僅適用於基準測試的建構與維護,也可能為未來 AI 部署前的風險評估、服務適配、安全驗證等環節提供支援。

這種「考 AI 方式與考人方式趨同」的變化,啟發了一種可能性:是否可以建構一個新學科方向——機器心理計量學(Machine Psychometrics)?

總之,AI 模型越來越聰明,評測方法也要變得更聰明。我們運用考察人類的方法來考察 AI,並使用已被驗證的科學理論重建評估系統,為通用人工智慧時代建立精準且公正的能力測量範式。

作者介紹

莊嚴,博士研究生三年級,來自中國科學技術大學—認知智慧全國重點實驗室,師從劉淇教授。主要研究方向包括自適應測試與認知診斷理論、人工智慧可信評估。

歡迎聯繫:zykb@mail.ustc.edu.cn

更多閱讀

圖片圖片圖片圖片

# 投稿通道 #

讓您的文字被更多人看到

如何才能讓更多優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:您不認識的人。

總有一些您不認識的人,知道您想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝 稿件基本要求:

• 文章確實為個人原創作品,未曾在公開管道發表,如為其他平台已發表或待發表的文章,請明確標註

• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業界具競爭力的稿酬,具體依據文章閱讀量和文章品質採階梯制結算

📬 投稿通道:

• 投稿信箱:hr@paperweekly.site

• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

圖片

△長按新增PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「追蹤」訂閱我們的專欄吧

·

圖片

主標籤:人工智慧評估

次標籤:心理計量學資料污染大型語言模型自適應測試


上一篇:阿里巴巴開源Qwen新模型,端午節禮物來囉!

下一篇:長推理≠高精準度!自適應切換「即時回答」與「深度思考」:節省 Token 與提升精準度的雙贏哲學

分享短網址