AI竟會「自己認錯」?破解多智能體協作「羅生門」,斬獲ICML 2025 Spotlight

圖片

新智元報導

編輯:定慧 好困

【新智元導讀】在多智能體AI系統中,一旦任務失敗,開發者常陷入「誰錯了、錯在哪」的謎團。PSU、杜克大學與谷歌DeepMind等機構首次提出「自動化失敗歸因」,發布Who&When資料集,探索三種歸因方法,揭示該問題的複雜性與挑戰性。

你打造了一支「超級AI戰隊」——戰隊裡每個AI都各司其職:有的收集資訊、有的負責判斷,還有協調執行,一起協作攻克複雜任務。

這個願望看似天衣無縫,結果卻往往以失敗告終。問題就出在:當「問題」出現的時候,如何知道是哪個AI造成的?

就像程式碼除錯一樣,從堆積如山的模型對話記錄、呼叫日誌和中間結果找到哪個智能體出了問題幾乎不可能,而且AI本身還是個「黑箱」。

這就是今天多智能體AI系統面臨的真實困境:不僅頻繁失敗,而且追溯問題困難。

為了解決這個「AI版羅生門」,賓夕法尼亞州立大學與杜克大學聯合Google DeepMind等機構的研究者們首次提出了:「自動化失敗歸因」(Automated Failure Attribution)——讓AI自己舉手:我錯了!

目前,這篇論文不僅成功斬獲了頂會ICML 2025 Spotlight,而且配套的首個專用基準資料集Who&When和相關程式碼也已全部開源。

圖片

論文地址:https://arxiv.org/pdf/2505.00212

程式碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

都說模型即產品,就像現在的OpenAI o3、Gemini 2.5 Pro還有新發布的DeepSeek-R1-0528越來越強大,那為何還需要多智能體的AI系統?

這是因為目前階段單個AI能力有限,而LLM驅動的多智能體系統在許多領域展現出巨大潛力。

然而,這些系統也存在著脆弱性:單個智能體的失誤、智能體之間的誤解,以及資訊傳遞錯誤,都可能導致整體任務失敗。

圖片

目前,一旦多智能體的AI系統「出包」,開發者往往只能:

手動「挖礦」:逐條翻閱冗長的互動日誌,試圖找出問題所在。

依賴經驗:這種除錯過程高度依賴開發者對系統和任務的深入理解。

這種「大海撈針」式的排錯方式,不僅效率低下,更嚴重阻礙了系統的快速迭代和可信賴度的提升。

目前迫切需要一種自動化、系統化的方法來定位失敗原因,將「評估結果」與「系統改進」有效連接起來。

圖片圖片

核心貢獻

針對上述挑戰,這篇論文做出了開創性的貢獻:

1. 提出並定義新問題

首次將「自動化失敗歸因」形式化為一個具體的研究任務,明確了要找出導致失敗的責任Agent(failure-responsible agent)和決定性錯誤步驟(decisive error step)。

2. 建構首個資料集——Who&When

該資料集包含了從127個大型語言模型驅動的多智能體系統中收集的廣泛失敗日誌。這些系統既有演算法自動生成的,也有人類專家精心打造的,確保了場景的真實性和多樣性。

每條失敗日誌都配有細緻的人工標註:

「誰」(Who):哪個智能體是「罪魁禍首」。

「何時」(When):決定性錯誤發生在互動的哪一步。

「為何」(Why):對失敗原因的自然語言解釋。

圖片

標註關鍵錯誤代理以及確定出錯的具體步驟,對普通人和領域專家來說都是一項挑戰。

註釋者需要解析複雜的日誌,理清每個代理的問題解決邏輯,並判斷每個動作是正確的,還是會誤導整個問題解決過程。

例如,如果某個智能體使用網頁瀏覽器獲取解決問題所需的重要資訊,註釋者就必須檢查瀏覽器歷史記錄,並訪問每一個網站,以判斷失敗是由於網站上本身沒有相關資訊,還是智能體未能成功獲取。

如上圖(a)所示,三位註釋者分別花費了30.9小時、30.2小時和23.2小時來完成註釋。這表明註釋過程非常耗時,因此開始考慮展開自動化故障歸因的研究。

此外,在許多資料實例中,出錯的並不只是某一個代理,而是多個代理。人們需要識別出這些錯誤,並挑選出其中最嚴重的錯誤,因為這些錯誤會直接導致問題解決失敗。由於錯誤的嚴重程度有時較為細微,甚至帶有一定的主觀性,這一過程就變得更加困難。

如上圖(b)所示,展示了三位註釋者「不確定」標註的比例,範圍從15%到30%不等。

圖(c)則視覺化了不同註釋者在互相投票判斷彼此「不確定」資料時的分歧率。

可以看到,即使在投票環節仍存在一定程度的分歧,進一步突顯了註釋工作本身的複雜性與挑戰性。

3. 探索初步的「自動化歸因」方法

基於Who&When資料集,論文設計並評估了三種不同的自動化失敗歸因方法:全盤審視法(All-at-Once)、逐步偵查法(Step-by-Step)、二分定位法(Binary Search)。

實驗結果表明:這三種方法在準確性、成本和分析粒度上各有千秋,沒有一種能在所有指標上完勝。它們共同構成了自動化失敗歸因任務的初步「解法庫」。

· 全盤審視法(All-at-Once):一次性完成

向大型語言模型(LLM)提供使用者查詢和完整的故障日誌,要求其一次性識別出故障責任智能體以及發生決定性錯誤的具體步驟。

優點:一步到位,成本較低,可能擅長宏觀判斷責任。

缺點:可能面臨「大海撈針」問題,難以從長上下文中精確定位具體錯誤步驟。

· 逐步偵查法(Step-by-Step):逐步

模擬人工除錯,讓大型語言模型(LLM)從頭開始,一步步檢查互動日誌,在每個環節判斷當前是否出現錯誤,直到揪出「真凶」。

優點:如同剝洋蔥般細緻,在定位具體錯誤環節上更具優勢。

缺點:需要多次詢問模型,呼叫成本較高,且局部判斷的累積誤差可能導致「誤判」。

· 二分定位法(Binary Search):二分查找

這是一種折衷策略,總成本和效果介於前兩者之間。

方法是將日誌對半切分,利用大型語言模型(LLM)判斷錯誤發生在前半段還是後半段,然後不斷在確定的半段中遞歸「二分」,最終鎖定問題步驟和相關智能體。

圖片

實驗結果與主要發現

實驗在兩種設定下進行:大型語言模型(LLM)知道多智能體系統需要解決的問題的真實答案(With Ground Truth)和不知道真實答案(Without Ground Truth)。

主要使用GPT-4o,但也測試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)。

透過在Who&When資料集上對上述方法進行了系統評估,得到了許多重要的發現:

· 任重道遠,表現堪憂

目前的方法離完美還差得很遠。即便是表現最好的單一方法,在識別「問題智能體」上的準確率也僅有約53.5%,而在準確定位「錯誤步驟」上,準確率更是低至14.2%!

這意味著,最厲害的策略也只能勉強過半猜對誰是「禍首」,至於錯在哪一步,基本靠「瞎猜」。

有些方法的表現甚至不如隨機猜測,足見任務之艱鉅。

· 各有所長,難有「全能冠軍」

不同方法在不同子任務上表現各異,沒有萬能冠軍。

例如,全盤審視法(All-at-Once)對「Who」的判斷相對最好,能夠更準確地找出哪個智能體應該負責;而逐步偵查法(Step-by-Step)在鎖定具體錯誤步驟(「When」)上效果更勝一籌,細緻檢查帶來了優勢;二分定位法(Binary Search)則各方面居中,表現中規中矩。

由此體現出每種方案的權衡取捨:要么整體掃描擅長找「人」,要么逐步追查利於找「步驟」。

圖片

· 「組合拳」效果更優,但代價高昂

研究者嘗試了組合不同方法的策略(例如,先使用「全盤審視法」初步判斷責任智能體,再運用「逐步偵查法」精確定位錯誤步驟)。

結果表明,這種混合方法確實能夠提升整體的歸因性能,但也帶來了顯著的計算成本增加。

圖片圖片

· 現有SOTA模型集體「熄火」

最令人驚訝的是,即使是目前最先進的推理模型(如OpenAI o1和DeepSeek R1),在處理這項任務時也顯得力不從心。

這進一步凸顯了「自動化失敗歸因」任務本身的固有難度,其對AI推理能力的要求超越了當前SOTA模型在常規任務上的表現。

圖片

明確的推理提示至關重要:在全盤審視法(All-at-Once)和逐步偵查法(Step-by-Step)的提示中明確要求大型語言模型(LLM)給出歸因的理由,能起到提升性能的作用。

圖片

上下文長度對性能構成制約:實驗還發現,隨著失敗日誌上下文長度的增加,所有歸因方法的性能均呈現下降趨勢,尤其是在錯誤步驟定位的準確性方面更為敏感。

圖片圖片

邁向更智能、更可靠的多智能體系統

「自動化失敗歸因」是多智能體系統開發流程中不可或缺的一環。

它將幫助我們更深入地洞察多智能體系統的失敗模式,將「哪裡出錯、誰之過」從令人頭疼的謎題,轉變為可量化分析的問題。

透過架起「評估」與「改進」之間的橋樑,未來終將能夠打造出更可靠、更智能、更值得信賴的多智能體協作系統。

圖片

作者介紹

Shaokun Zhang

圖片

賓夕法尼亞州立大學三年級博士生,指導教授為吳慶雲教授。

近期研究興趣集中在Agentic AI與強化學習的交叉領域。

目前於NVIDIA實習,專注於大型語言模型(LLM)智能體的研究。此前,於西安電子科技大學獲得計算機科學學士學位。

Ming Yin

圖片

杜克大學一年級博士生,指導教授為陳怡然教授。

於2024年,20歲時在中國科學技術大學少年班學院獲得學士學位。

目前對大型語言模型(LLM)智能體、大型語言模型(LLM)推理和可信賴人工智慧感興趣。

2025年5月至8月在位於西雅圖的Zoom擔任生成式人工智慧研究實習生。

參考資料:

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/

圖片圖片圖片

主標籤:多智能體AI

次標籤:自動化失敗歸因錯誤診斷大型語言模型機器學習研究


上一篇:與 Murray Shanahan 探討意識、推論與人工智慧哲學

下一篇:網路女皇340頁《人工智慧趨勢報告》PPT

分享短網址