Haozhen Zhang氏は現在、南洋理工大学(NTU)の博士課程1年であり、本研究はイリノイ大学アーバナ・シャンペーン校(UIUC)でのインターンシップ中に完成されました。Tao Feng氏はUIUCの博士課程2年、Jiaxuan You氏はUIUCコンピュータサイエンス学部の助教授です。チームは長らくLLMルーターの分野に注力しており、GraphRouter、FusionFactory、そして本稿のRouter-R1など、複数の代表的な研究成果を生み出しています。
「もし小さなモデルで答えられる問題なら、なぜより高価な大規模モデルに思考させる必要があるのでしょうか?」
大規模言語モデル(LLM)が爆発的に増加する時代において、この一見シンプルな問いは、AIシステム設計の重要なボトルネックになりつつあります。性能、遅延、コストの三重のバランスを取るには、いかに異なるLLM間でタスクをインテリジェントに割り当てるかが、AIインフラストラクチャにおける新たな課題となっています。
先日、イリノイ大学アーバナ・シャンペーン校(UIUC)の研究チームは、NeurIPS 2025で新作「Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning」を発表しました。本稿では、初のマルチラウンドLLMルーターフレームワークであるRouter-R1を提案します。これにより、LLMは単に「応答する」だけでなく、「思考し、他のモデルをスケジューリングおよび調整する」ことを学習し、制御可能な性能とコストのバランスを実現します。
- 論文タイトル:Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning
- 著者チーム: Haozhen Zhang, Tao Feng, Jiaxuan You
- 機関: University of Illinois at Urbana-Champaign
- 論文アドレス: https://arxiv.org/abs/2506.09033
- コードアドレス: https://github.com/ulab-uiuc/Router-R1
🧭 背景:「一つのモデルが全てに答える」から「インテリジェントなスケジューリング」へ
ChatGPT、Claude、Gemini、Qwen、LLaMAなど、わずか2年でLLMファミリーは数種類から数百種類へと増加しました。異なるモデルはそれぞれ得意分野があり、あるものは論理的推論に優れ、あるものは知識検索に正確で、あるものは応答が速くコストが低いです。
しかし、現在のAIアプリケーションのほとんどは単一モデルの推論に依存しており、ユーザーの質問は固定された特定のLLMに直接送られて回答されます。この方法はシンプルですが、簡単な質問に対してコンピューティングパワーを浪費したり、複雑な問題に対してモデルの能力不足により誤った回答をしたりする可能性があります。
そのため、「LLMルーター」が登場し、AIシステムの新しいフロントエンド・ブレインになりつつあります。トークンレベルのルーター(MoEなど)とは異なり、LLMルーターはクエリレベルでルーティングを行います。これにより、質問の複雑さを判断し、最適なモデルをマッチングさせ、さらには複数のモデルを動的に組み合わせて推論を完了させることができます。
しかし、既存のLLMルーター(GraphRouter、RouterDCなど)のほとんどはシングルラウンドの決定メカニズムを採用しています。与えられた問題に対し、回答を完了させるために単一の候補モデルにのみルーティングします。このシングルラウンドのルーティングメカニズムでは、マルチホップ推論やドメインをまたぐ複雑なタスクに対応することが困難です。
🚀 Router-R1:ルーター自体を「思考するLLM」にする
本稿で提案するRouter-R1の核となる革新は、ルーター自体を推論能力を備えたPolicy LLMにすることです。
Router-R1は単なる「クエリ配信機」ではなく、思考の連鎖を持ち、自律的に「思考—モデル選択—集約」を行うインテリジェントエージェントです。思考、ルーティング、集約のいくつかの行動を繰り返し切り替えながら、マルチラウンドのルーティング反復を行い、最終的な答えを段階的に構築します。
- 1️⃣ Think(思考):User Queryを受け取った後、Router-R1はまず「思考」段階を実行し、内部推論分析を行い、外部情報による支援が必要かどうかを判断します。
- 2️⃣ Route(ルーティング):追加情報が必要だと判明した場合、Router-R1は「ルーティング」命令をトリガーし、各LLMのDescriptor Promptに基づいて、Qwen、LLaMA、Gemma、Mixtralなどの適切な外部候補モデルを動的に呼び出し、サブ問題に回答させます。
- 3️⃣ Aggregate(集約):外部モデルの呼び出し結果が返された後、Policy LLMのEvolving Contextに再度挿入されて集約され、引き続き後続のマルチラウンド推論が行われ、最終的な回答が段階的に生成されます。
この「思考–ルーティング–集約」の交互作用メカニズムにより、Router-R1は異なるLLMの補完的な利点(例えば、一方が数学的推論に優れ、他方が知識検索に優れるなど)を最大限に活用でき、真のマルチモデル協調推論の実現を可能にします。
🎯 強化学習を用いてルーターに性能とコストのバランスを教える
Router-R1は、マルチラウンドのルーティングプロセス全体をシーケンシャル決定問題として形式化し、強化学習を通じてルーターを訓練することで、複雑な決定空間における性能とコストのトレードオフを最適化することを学習させます。論文では、三つの直感的な報酬関数が設計されています。
1️⃣ Format Reward:出力フォーマットの正確性報酬
<think>、<answer>などのフォーマット制約を厳密に遵守するようモデル出力を保証し、訓練初期における無効なテキストの生成を防ぎます。
2️⃣ Final Outcome Reward:結果の正確性報酬
Exact Match(EM)指標を採用し、生成された回答が標準回答と完全に一致するかを測定することで、ルーターに正確な結果を出力するよう直接的に動機付けます。
ここで はLLMが出力した予測(prediction)、
は正解(ground truth)です。
3️⃣ Cost Reward:コスト制約報酬
Router-R1は、革新的に計算コスト報酬メカニズムを導入し、呼び出されたモデルのパラメータ規模と出力トークン数に基づいて反比例報酬関数を設計します。
ここで はAPIサービスの単位トークンコスト関数、
は呼び出された外部モデルのパラメータ量、
は出力されたトークン数です。このメカニズムにより、Router-R1は回答時に性能とコストのトレードオフを考慮に入れ、制御可能かつ動的なコスト認識型のルーティングと推論を実現することができます。
三つの報酬を総合したRouter-R1の総報酬は以下の通りです。
ここで、超パラメータ α は性能とコストのトレードオフの程度を制御します。
🧪 7つの主要ベンチマークで全面的に優位:精度+汎化性の両方を向上
研究チームは、NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique、Bamboogleを含む、シングルホップおよびマルチホップ推論タスクを網羅する7つのQAベンチマークでRouter-R1の体系的な評価を実施しました。Router-R1はNQとHotpotQAデータセットでのみ訓練され、残りのデータセットでドメイン外評価(Out-of-domain Evaluation)を実行しました。
上図に示すように、α=0(コストを考慮せず性能のみを最適化)の場合、Router-R1は全てのデータセットで総合的に最も強力な性能を達成し、GraphRouter/RouterDCなどのシングルラウングルーター手法を打ち破り、未見のデータセットに対する強力な汎化能力を示しました。
上図に示すように、超パラメータ α をさらに変更して性能とコストのトレードオフを探求すると、α の増加に伴い、呼び出しコストが著しく減少し、コスト制御可能なインテリジェントなLLMスケジューリング戦略の新しいパラダイムを切り開きました。
同時に、Router-R1の外部候補LLMに対する汎化能力を検証するため、上図のように訓練に参加していない外部モデルを追加した後でも、再訓練なしで性能の相対的な安定性を維持し、その上で向上を達成できることが示され、Router-R1の優れたゼロショット転移能力が証明されました。
🧩 まとめ:「マルチモデル協調エージェント」の時代へ
本稿で提案されたRouter-R1は、もう一つの「より大きなモデル」ではなく、複数のモデルが協調して動作するための新しいパラダイムです。Router-R1は強化学習を通じて、LLMを「単一の回答者」から「マルチエージェントコーディネーター」へと進化させ、性能とコストの間で動的なバランスを実現します。これにより、Router-R1は計算リソースとコストの削減を達成しつつ、高品質の出力を維持できるため、大規模モデル導入に伴う環境およびリソースへの負担を軽減します。Router-R1は、モデルの再利用とモジュール化された組み合わせを自然にサポートしており、新しいモデルの説明を追加するだけで迅速に統合できるため、スケーラブルでマルチモデル共存型のAIインフラストラクチャ構築のための基盤を築きました。
注目すべきは、最新のGPT-5技術レポートでも、異なるバージョンのモデルの動的スケジューリングにLLMルーターメカニズムを採用することが明確にされている点です。これは、Router-R1が示すトレンドをさらに裏付けています。マルチモデル協調ルーティングは、将来のLLMエコシステムに不可欠な基盤となるインフラストラクチャとなるでしょう。
THE END