谷歌揭密:多代理人(Multi-Agent)推論才是擴展的未來。

Google DeepMind 和 MIT 共同發表了一篇名為 TUMIX(Tool-Use Mixture)的論文。

這篇研究指出,多代理人(Multi-Agent)才是達成測試時擴展(test-time scaling)的終極方式。透過這種方式,能以一半的成本,讓 HLE 上的準確度從 21.6% 飆升到 34.1%,超越了 Gemini-2.5-Pro Deep Research 的表現。

除此之外,他們還發現了一個驚喜:讓 AI 代理人設計其他代理人,效果甚至比人工設計的還要厲害!

圖片

一個反常識的結論

代理人多樣性 > 瘋狂重複採樣

目前主流的推論時擴展方法是什麼呢?

重複採樣同一個最強模型,然後用多數決投票選出答案。

聽起來好像沒什麼問題,但 Google 驗證後說:這是錯的。

他們做了一個實驗:

  • 單一代理人重複 15 次 vs 15 個不同代理人各自推論 1 次

  • 在相同的推論成本下,15 個不同代理人的準確度與覆蓋率都明顯更高。

這是為什麼呢?

因為不同的代理人會採用不同的工具使用策略(純文字推論、程式碼執行、網路搜尋、雙工具混合等),能探索更廣闊的解答空間。而單一代理人重複採樣,本質上仍然是在同一個思考框架內打轉。

圖片

他們還比對了三種工具組合:

  • Code_Text(只能使用程式碼,不能搜尋)

  • Search_Text(只能搜尋,不能使用程式碼)

  • Code_Search_Text(兩者都能使用)

結果顯示,雙工具代理人組的覆蓋率和準確度都明顯優於單工具組。

這說明了什麼?程式碼解析器(Code Interpreter)和搜尋功能並非互相替代,而是互補關係。

文字推論擅長語義和常識,程式碼擅長精確計算,搜尋擅長擷取最新知識。只有三者混合,才能發揮大型語言模型(LLM)的全部潛力。

TUMIX 的核心機制

TUMIX 的架構其實不複雜,核心就是三個步驟:

第一輪

15 個不同的代理人平行推論。

每個代理人都有自己的工具使用策略(CoT、純程式碼、搜尋優先、程式碼搜尋混合、引導式雙工具等)。

每個代理人最多可以呼叫工具 5 次,產生 15 個初步答案。

第二輪及之後

答案共享 + 疊代優化:

將上一輪所有代理人的答案拼接到原始問題後面,每個代理人根據原始問題加上其他代理人的答案來生成新答案。

重複這個過程,直到大型語言模型判斷答案已經收斂為止。

終止

使用 LLM 作為裁判(LLM-as-Judge),自動判斷何時停止疊代(最少 2 輪),最終透過多數決投票選出答案。

圖片

這個設計既保留了多樣性的探索,又透過疊代優化提升了答案品質。

他們還發現了一個有趣的現象:隨著疊代輪次增加,覆蓋率(至少有一個代理人答對)會下降,但平均準確度會上升。

這說明代理人在互相學習的過程中逐漸趨於一致,但同時也可能錯誤地刪除一些正確答案。

因此,關鍵在於找到那個平衡點——既要充分疊代優化,又不能過度收斂。

成果展現

來看看 TUMIX 的實戰表現:

在 Gemini-2.5-Pro 上,HLE 從 21.6% 提升到 32.3%,GPQA 從 84.6% 提升到 87.9%,AIME 24&25 則從 87.3% 提升到 96.7%。

相較於其他測試時擴展方法(Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA),TUMIX 在相同推論成本下,平均準確度都具有明顯優勢。

圖片

大型語言模型能自動設計出更強的代理人嗎?

這篇論文還有個驚喜彩蛋:他們試著讓 Gemini-2.5-Pro 自己設計新的代理人。

做法很簡單:

  1. 讓大型語言模型檢視現有的 15 個由人工設計的代理人。

  2. 要求它生成更多樣、更高品質的代理人。

  3. 從生成的 25 個新代理人中,篩選出表現最好的 15 個。

結果如何呢?

混合了人工設計與大型語言模型生成的代理人組合,效能比純人工設計的還要高出 1.2%。

大型語言模型生成的代理人長什麼樣子?舉例來說:

  • Plan-Verify-Refine(規劃-驗證-優化):先規劃、再執行(程式碼或搜尋)、然後驗證並優化。

  • SearchThenCode(先搜尋後程式碼):強制先搜尋,再使用程式碼。

  • Debate-CrossExam(辯論與交叉盤問):模擬提議者和質疑者之間的辯論,引導工具使用。

這些策略與人工設計的截然不同,這顯示大型語言模型已經具備了一定的後設代理人(Meta-Agent)設計能力。

最後總結

OpenAI o1 和 DeepSeek R1 的路線是讓單一模型進行深度思考,本質上仍然是在同一個推論框架內擴展。

TUMIX 告訴我們,透過多樣化的代理人與工具混合,可以用更低的成本達到更好的效果。

同時,大型語言模型可以設計出更強的代理人架構,這意味著,未來的 AI 系統可能會自行優化自己的工作流程,而不需要人工介入調整。

主標籤:多代理人系統

次標籤:大型語言模型推論擴展人工智慧研究谷歌


上一篇:Mamba 架構登上頂級會議 ICLR 2026,AI 大腦核心 Transformer 的王座還能坐穩嗎?

下一篇:捨棄微調!史丹佛聯合發表「智能體情境工程」(ACE),模型效能提升 10%、Token 成本降低 83%

分享短網址