Google DeepMind 和 MIT 共同發表了一篇名為 TUMIX(Tool-Use Mixture)的論文。
這篇研究指出,多代理人(Multi-Agent)才是達成測試時擴展(test-time scaling)的終極方式。透過這種方式,能以一半的成本,讓 HLE 上的準確度從 21.6% 飆升到 34.1%,超越了 Gemini-2.5-Pro Deep Research 的表現。
除此之外,他們還發現了一個驚喜:讓 AI 代理人設計其他代理人,效果甚至比人工設計的還要厲害!
一個反常識的結論
代理人多樣性 > 瘋狂重複採樣
目前主流的推論時擴展方法是什麼呢?
重複採樣同一個最強模型,然後用多數決投票選出答案。
聽起來好像沒什麼問題,但 Google 驗證後說:這是錯的。
他們做了一個實驗:
單一代理人重複 15 次 vs 15 個不同代理人各自推論 1 次
在相同的推論成本下,15 個不同代理人的準確度與覆蓋率都明顯更高。
這是為什麼呢?
因為不同的代理人會採用不同的工具使用策略(純文字推論、程式碼執行、網路搜尋、雙工具混合等),能探索更廣闊的解答空間。而單一代理人重複採樣,本質上仍然是在同一個思考框架內打轉。
他們還比對了三種工具組合:
Code_Text(只能使用程式碼,不能搜尋)
Search_Text(只能搜尋,不能使用程式碼)
Code_Search_Text(兩者都能使用)
結果顯示,雙工具代理人組的覆蓋率和準確度都明顯優於單工具組。
這說明了什麼?程式碼解析器(Code Interpreter)和搜尋功能並非互相替代,而是互補關係。
文字推論擅長語義和常識,程式碼擅長精確計算,搜尋擅長擷取最新知識。只有三者混合,才能發揮大型語言模型(LLM)的全部潛力。
TUMIX 的核心機制
TUMIX 的架構其實不複雜,核心就是三個步驟:
第一輪
15 個不同的代理人平行推論。
每個代理人都有自己的工具使用策略(CoT、純程式碼、搜尋優先、程式碼搜尋混合、引導式雙工具等)。
每個代理人最多可以呼叫工具 5 次,產生 15 個初步答案。
第二輪及之後
答案共享 + 疊代優化:
將上一輪所有代理人的答案拼接到原始問題後面,每個代理人根據原始問題加上其他代理人的答案來生成新答案。
重複這個過程,直到大型語言模型判斷答案已經收斂為止。
終止
使用 LLM 作為裁判(LLM-as-Judge),自動判斷何時停止疊代(最少 2 輪),最終透過多數決投票選出答案。
這個設計既保留了多樣性的探索,又透過疊代優化提升了答案品質。
他們還發現了一個有趣的現象:隨著疊代輪次增加,覆蓋率(至少有一個代理人答對)會下降,但平均準確度會上升。
這說明代理人在互相學習的過程中逐漸趨於一致,但同時也可能錯誤地刪除一些正確答案。
因此,關鍵在於找到那個平衡點——既要充分疊代優化,又不能過度收斂。
成果展現
來看看 TUMIX 的實戰表現:
在 Gemini-2.5-Pro 上,HLE 從 21.6% 提升到 32.3%,GPQA 從 84.6% 提升到 87.9%,AIME 24&25 則從 87.3% 提升到 96.7%。
相較於其他測試時擴展方法(Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA),TUMIX 在相同推論成本下,平均準確度都具有明顯優勢。
大型語言模型能自動設計出更強的代理人嗎?
這篇論文還有個驚喜彩蛋:他們試著讓 Gemini-2.5-Pro 自己設計新的代理人。
做法很簡單:
讓大型語言模型檢視現有的 15 個由人工設計的代理人。
要求它生成更多樣、更高品質的代理人。
從生成的 25 個新代理人中,篩選出表現最好的 15 個。
結果如何呢?
混合了人工設計與大型語言模型生成的代理人組合,效能比純人工設計的還要高出 1.2%。
大型語言模型生成的代理人長什麼樣子?舉例來說:
Plan-Verify-Refine(規劃-驗證-優化):先規劃、再執行(程式碼或搜尋)、然後驗證並優化。
SearchThenCode(先搜尋後程式碼):強制先搜尋,再使用程式碼。
Debate-CrossExam(辯論與交叉盤問):模擬提議者和質疑者之間的辯論,引導工具使用。
這些策略與人工設計的截然不同,這顯示大型語言模型已經具備了一定的後設代理人(Meta-Agent)設計能力。
最後總結
OpenAI o1 和 DeepSeek R1 的路線是讓單一模型進行深度思考,本質上仍然是在同一個推論框架內擴展。
TUMIX 告訴我們,透過多樣化的代理人與工具混合,可以用更低的成本達到更好的效果。
同時,大型語言模型可以設計出更強的代理人架構,這意味著,未來的 AI 系統可能會自行優化自己的工作流程,而不需要人工介入調整。