谷歌揭密：多代理人（Multi-Agent）推論才是擴展的未來。

Google DeepMind 和 MIT 共同發表了一篇名為 TUMIX（Tool-Use Mixture）的論文。

這篇研究指出，多代理人（Multi-Agent）才是達成測試時擴展（test-time scaling）的終極方式。透過這種方式，能以一半的成本，讓 HLE 上的準確度從 21.6% 飆升到 34.1%，超越了 Gemini-2.5-Pro Deep Research 的表現。

除此之外，他們還發現了一個驚喜：讓 AI 代理人設計其他代理人，效果甚至比人工設計的還要厲害！

一個反常識的結論

代理人多樣性 > 瘋狂重複採樣

目前主流的推論時擴展方法是什麼呢？

重複採樣同一個最強模型，然後用多數決投票選出答案。

聽起來好像沒什麼問題，但 Google 驗證後說：這是錯的。

他們做了一個實驗：

單一代理人重複 15 次 vs 15 個不同代理人各自推論 1 次
在相同的推論成本下，15 個不同代理人的準確度與覆蓋率都明顯更高。

這是為什麼呢？

因為不同的代理人會採用不同的工具使用策略（純文字推論、程式碼執行、網路搜尋、雙工具混合等），能探索更廣闊的解答空間。而單一代理人重複採樣，本質上仍然是在同一個思考框架內打轉。

他們還比對了三種工具組合：

Code_Text（只能使用程式碼，不能搜尋）
Search_Text（只能搜尋，不能使用程式碼）
Code_Search_Text（兩者都能使用）

結果顯示，雙工具代理人組的覆蓋率和準確度都明顯優於單工具組。

這說明了什麼？程式碼解析器（Code Interpreter）和搜尋功能並非互相替代，而是互補關係。

文字推論擅長語義和常識，程式碼擅長精確計算，搜尋擅長擷取最新知識。只有三者混合，才能發揮大型語言模型（LLM）的全部潛力。

TUMIX 的核心機制

TUMIX 的架構其實不複雜，核心就是三個步驟：

第一輪

15 個不同的代理人平行推論。

每個代理人都有自己的工具使用策略（CoT、純程式碼、搜尋優先、程式碼搜尋混合、引導式雙工具等）。

每個代理人最多可以呼叫工具 5 次，產生 15 個初步答案。

第二輪及之後

答案共享 + 疊代優化：

將上一輪所有代理人的答案拼接到原始問題後面，每個代理人根據原始問題加上其他代理人的答案來生成新答案。

重複這個過程，直到大型語言模型判斷答案已經收斂為止。

終止

使用 LLM 作為裁判（LLM-as-Judge），自動判斷何時停止疊代（最少 2 輪），最終透過多數決投票選出答案。

這個設計既保留了多樣性的探索，又透過疊代優化提升了答案品質。

他們還發現了一個有趣的現象：隨著疊代輪次增加，覆蓋率（至少有一個代理人答對）會下降，但平均準確度會上升。

這說明代理人在互相學習的過程中逐漸趨於一致，但同時也可能錯誤地刪除一些正確答案。

因此，關鍵在於找到那個平衡點——既要充分疊代優化，又不能過度收斂。

成果展現

來看看 TUMIX 的實戰表現：

在 Gemini-2.5-Pro 上，HLE 從 21.6% 提升到 32.3%，GPQA 從 84.6% 提升到 87.9%，AIME 24&25 則從 87.3% 提升到 96.7%。

相較於其他測試時擴展方法（Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA），TUMIX 在相同推論成本下，平均準確度都具有明顯優勢。

大型語言模型能自動設計出更強的代理人嗎？

這篇論文還有個驚喜彩蛋：他們試著讓 Gemini-2.5-Pro 自己設計新的代理人。

做法很簡單：

讓大型語言模型檢視現有的 15 個由人工設計的代理人。
要求它生成更多樣、更高品質的代理人。
從生成的 25 個新代理人中，篩選出表現最好的 15 個。

結果如何呢？

混合了人工設計與大型語言模型生成的代理人組合，效能比純人工設計的還要高出 1.2%。

大型語言模型生成的代理人長什麼樣子？舉例來說：

Plan-Verify-Refine（規劃-驗證-優化）：先規劃、再執行（程式碼或搜尋）、然後驗證並優化。
SearchThenCode（先搜尋後程式碼）：強制先搜尋，再使用程式碼。
Debate-CrossExam（辯論與交叉盤問）：模擬提議者和質疑者之間的辯論，引導工具使用。

這些策略與人工設計的截然不同，這顯示大型語言模型已經具備了一定的後設代理人（Meta-Agent）設計能力。

最後總結

OpenAI o1 和 DeepSeek R1 的路線是讓單一模型進行深度思考，本質上仍然是在同一個推論框架內擴展。

TUMIX 告訴我們，透過多樣化的代理人與工具混合，可以用更低的成本達到更好的效果。

同時，大型語言模型可以設計出更強的代理人架構，這意味著，未來的 AI 系統可能會自行優化自己的工作流程，而不需要人工介入調整。