Google DeepMindとMITは共同で、TUMIX(Tool-Use Mixture)という論文を発表しました。
この論文が示唆するのは、テスト時のスケーリング(test-time scaling)における究極の方法はマルチエージェントであるということです。これにより、半分のコストでHLEの精度を21.6%から34.1%にまで急上昇させ、Gemini-2.5-Pro Deep Researchを凌駕しました。
さらに、彼らはエージェントにエージェントを設計させるという隠れた要素を試しました。その結果は、人間が設計したものよりも優れた効果を示しました。
常識に反する発見
エージェントの多様性 > 徹底的なサンプリング
現在主流の推論時スケーリングの方法は何でしょうか?
最強の単一モデルを繰り返しサンプリングし、多数決で答えを選ぶというものです。
理にかなっているように思えますが、Googleの検証結果は「間違い」だと示しました。
彼らは実験を行いました:
単一エージェントを15回繰り返す vs 15種類の異なるエージェントが各1回推論する
推論コストが同じ場合、15種類の異なるエージェントのほうが、精度とカバレッジが明らかに高い結果となりました。
なぜでしょうか?
異なるエージェントは、それぞれ異なるツール使用戦略(純粋なテキスト推論、コード実行、ウェブ検索、デュアルツールの混合など)を採用することで、より広範な解空間を探索できるからです。一方、単一エージェントの繰り返しサンプリングは、本質的に同じ思考フレームワーク内で回遊しているにすぎません。
さらに、彼らは3つのツール組み合わせを比較しました:
Code_Text(コードのみ使用可能、検索不可)
Search_Text(検索のみ可能、コード使用不可)
Code_Search_Text(両方使用可能)
結果、デュアルツールエージェントのグループは、シングルツールグループよりもカバレッジと精度が著しく高いことがわかりました。
これは何を意味するでしょうか?コードインタープリタ(Code Interpreter)と検索は、互いに代替する関係ではなく、補完し合う関係にあるということです。
テキスト推論は意味と常識に優れ、コードは正確な計算に優れ、検索は最新の知識獲得に優れています。この三つを混合してこそ、LLMの持つ可能性を最大限に引き出すことができます。
TUMIXの核となる仕組み
TUMIXのアーキテクチャは複雑ではありません。核となるのは次の3つのステップです:
第1ラウンド
15種類の異なるエージェントが並行して推論を行います。
各エージェントは独自のツール使用戦略を持っています(CoT、純粋なコード、検索優先、コード・検索混合、ガイド付きデュアルツールなど)。
各エージェントは最大5回ツールを呼び出し、15の暫定的な回答を生成します。
第2ラウンド以降
回答の共有 + 反復的な最適化:
前のラウンドの全てのエージェントの回答を元の質問に追加し、各エージェントは元の質問と他のエージェントの回答に基づいて新しい回答を生成します。
LLMが回答が収束したと判断するまで、このプロセスを繰り返します。
終了
LLMをジャッジとして使用し(LLM-as-Judge)、反復を停止するタイミングを自動的に判断します(最低2ラウンド)。最終的な答えは多数決投票によって選ばれます。
この設計は、多様な探索を維持しつつ、反復的な最適化によって回答の品質を向上させます。
彼らはまた、興味深い現象を発見しました。反復回数が増えるにつれて、カバレッジ(少なくとも1つのエージェントが正答する率)は低下しますが、平均精度は上昇します。
これは、エージェント同士が学習し合う中で徐々に収束していく一方で、時として正しい答えを誤って排除してしまう可能性があることを示しています。
したがって、鍵となるのは、十分に反復・最適化しつつ、過度に収束させない点を見つけることです。
実践結果
TUMIXの実戦での性能を見てみましょう:
Gemini-2.5-Proにおいて、HLEは21.6%から32.3%へ、GPQAは84.6%から87.9%へ、AIME 24&25は87.3%から96.7%へと向上しました。
他のテスト時スケーリング手法(Self-MoA、Symbolic-MoE、DEI、SciMaster、GSA)と比較して、TUMIXは同じ推論コストで平均精度に明確な優位性を示しています。
LLMは自動でより強力なエージェントを設計できるのか?
論文にはもう一つのおまけ要素がありました:Gemini-2.5-Proに新しいエージェントを自己設計させてみたのです。
やり方はシンプルです:
既存の人間が設計した15個のエージェントをLLMに見せる。
より多様で高品質なエージェントを生成するように指示する。
生成された25個の新しいエージェントの中から、パフォーマンスが最も良い15個を選抜する。
結果はどうだったでしょうか?
人間設計とLLM設計のエージェントを混合したグループは、純粋に人間が設計したグループよりも性能が1.2%高くなりました。
LLMが生成したエージェントはどのようなものだったのでしょうか?例えば:
Plan-Verify-Refine(計画-検証-洗練):まず計画し、実行(コードまたは検索)し、その後検証・最適化する。
SearchThenCode(検索後コード):強制的にまず検索を行い、その後にコードを使用する。
Debate-CrossExam(討論・反対尋問):提案者と懐疑論者の討論をシミュレートし、ツール使用を導く。
これらの戦略は人間が設計したものとは全く異なっており、LLMが一定のメタエージェント設計能力を備えていることを示しています。
まとめ
OpenAI o1やDeepSeek R1の路線は、単一のモデルに深い思考を行わせるものであり、本質的には同じ推論フレームワーク内でのスケーリングです。
TUMIXは、多様なエージェントとツールの混合を通じて、より低いコストでより良い結果を達成できることを示しています。
さらに、LLMはより強力なエージェントアーキテクチャを設計できる可能性があり、これは将来のAIシステムが人間の介入なしに自らのワークフローを最適化できることを意味しています。