首個多輪LLM路由器問世:Router-R1讓大型模型學會「思考–路由–聚合」

圖片

Haozhen Zhang 目前是南洋理工大學(NTU)一年級博士生,這項工作是在他於伊利諾伊大學厄巴納-香檳分校(UIUC)實習期間完成的。Tao Feng 是 UIUC 二年級博士生,Jiaxuan You 是 UIUC 電腦科學系的助理教授。該團隊長期專注於 LLM 路由器方向,已產出 GraphRouter、FusionFactory 以及本文的 Router-R1 等多項代表性研究成果。

「如果一個問題只需要小型模型就能回答,為什麼還要讓更昂貴的大型模型去思考?」

在大型語言模型(LLM)種類爆炸的時代,這個看似簡單的問題,正成為 AI 系統設計的關鍵瓶頸。面對效能、延遲與成本的多重平衡,如何在不同 LLM 之間智慧地分配任務,已經成為 AI 基礎設施的新挑戰。

近日,來自伊利諾伊大學厄巴納-香檳分校(UIUC)的研究團隊在 NeurIPS 2025 上發表了新作:《Router-R1:Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning》。本文提出了首個多輪 LLM 路由器框架 Router-R1,讓 LLM 不僅會「回答」,還會「思考、調度與協調其他模型」,以達到可控的效能與成本平衡。

圖片

🧭 背景:從「一個模型回答所有問題」到「智慧調度」

ChatGPT、Claude、Gemini、Qwen、LLaMA……,短短兩年,LLM 家族已從寥寥數個增長到數百種。不同模型各有優勢,有的擅長邏輯推理,有的在知識問答上精準,有的回應快、成本低。

但如今的 AI 應用,大多依賴單一模型推理,即使用者問題會直接被送入某個固定的 LLM 中進行回答。這種方式雖然簡單,但卻意味著:簡單問題可能導致算力浪費;複雜問題又可能因模型能力不足而回答錯誤。

因此,「LLM 路由器」應運而生並正在成為 AI 系統的新前台大腦:不同於 Token-level 路由器(如 MoE),LLM 路由器在 Query-level 層面進行路由,它能夠判斷一個問題的複雜度、匹配最合適的模型,甚至動態組合多個模型完成推理。

然而,現有的 LLM 路由器(如 GraphRouter、RouterDC 等)大多採用單輪決策機制:給定一個問題,只路由到一個候選模型完成回答,這種單輪路由機制難以處理多跳推理或跨領域的複雜任務。

🚀 Router-R1:讓路由器本身成為一個「會思考的 LLM」

本文提出的 Router-R1 的核心創新在於讓路由器自身成為一個具備推理能力的 Policy LLM。

也就是說,Router-R1 不再只是個「Query 分發器」,而是一個擁有思維鏈,能主動進行「思考—選擇模型—聚合」的智慧體,可以在思考、路由、聚合幾種行為之間反覆切換並進行多輪路由迭代,逐步建構最終答案:

  • 1️⃣ Think(思考):在接收到 User Query 後,Router-R1 會首先執行「思考」階段進行內部推理分析,並判斷是否需要外部資訊進行輔助;
  • 2️⃣ Route(路由):若發現需要額外資訊,Router-R1 則觸發「路由」指令根據每個 LLM 的 Descriptor Prompt 動態呼叫合適的外部候選模型(如 Qwen、LLaMA、Gemma、Mixtral 等)進行回答子問題;
  • 3️⃣ Aggregate(聚合):外部模型呼叫的回复結果返回後繼續插入 Policy LLM 的 Evolving Context 進行聚合,並繼續進行後續的多輪推理逐步生成最終答案。

這種「思考–路由–聚合」的交替機制,使 Router-R1 能充分利用不同 LLM 的互補優勢(例如一個擅長數學推理、另一個擅長知識檢索),潛在實現真正的多模型協同推理。

圖片

🎯 用強化學習教路由器平衡效能與成本

Router-R1 將整個多輪路由過程形式化為一個序列決策問題,並透過強化學習訓練 Router 使之學會在複雜決策空間中優化 Performance-Cost Trade-off(效能與成本的權衡)。論文中設計了三類直觀的獎勵函數:

1️⃣ Format Reward:輸出格式正確性獎勵

確保模型輸出嚴格遵守如 <think>、<answer> 等格式約束,防止訓練早期生成無效文字。

圖片

2️⃣ Final Outcome Reward:結果正確性獎勵

採用 Exact Match(EM)指標衡量生成答案與標準答案是否完全一致,直接激勵 Router 輸出正確結果。

圖片

其中 圖片 是 LLM 輸出的 prediction(預測),圖片 是 ground truth(標準答案)。

3️⃣ Cost Reward:成本約束獎勵

Router-R1 創新地引入了計算成本獎勵機制,根據被呼叫模型的參數規模及輸出 Token 數設計反比例獎勵函數:

圖片

其中 圖片 表示 API 服務的單位 Token 成本函數,圖片 為被呼叫的外部模型的參數量,圖片 為輸出的 Token 數量。該機制可促使 Router-R1 在回答問題時考慮到效能與成本的權衡,以實現可控且動態的成本感知路由與推理。

綜合三者後,Router-R1 的總獎勵為:

圖片

其中超參數 α 控制效能與成本的權衡程度。

圖片

🧪 七大基準全面領先:準確度 + 泛化性雙提升

研究團隊在 7 個 QA Benchmark 上對 Router-R1 進行了系統評測,涵蓋單跳與多跳推理任務,包括 NQ、TriviaQA、PopQA、HotpotQA、2WikiMultiHopQA、Musique 和 Bamboogle。Router-R1 僅在 NQ 與 HotpotQA 資料集上進行訓練,在其餘資料集上執行 Out-of-domain Evaluation(域外評估)。

圖片

如上圖所示,當 α=0 時(即只優化 performance 不考慮 cost),Router-R1 在所有資料集上達到了綜合最強的性能,擊敗了如 GraphRouter/RouterDC 等單輪路由方法,並展現出了對 Unseen Dataset 的較強泛化性。

圖片

如上圖所示,當繼續改變超參數 α 來探究性能成本權衡時,隨著 α 增加,呼叫成本顯著下降,為可控成本的 LLM 智慧調度策略開闢了新的範式。

圖片

同時,為了檢測 Router-R1 對外部候選 LLM 的泛化性,如上圖所示在未參與訓練的外部模型加入後,無需重新訓練即可保證性能的相對穩定並在此基礎上實現提升,顯示出 Router-R1 優異的零樣本遷移能力。

🧩 總結:邁向「多模型協同智慧體」的時代

本文提出的 Router-R1 不是又一個「更大的模型」,而是讓多個模型協同工作的新範式。Router-R1 透過強化學習,讓 LLM 從「單一回答者」進化為「多智慧體協調者」,在效能與成本之間實現動態平衡。得益於此,Router-R1 能在減少算力與成本開銷的同時保持高品質輸出,降低大型模型部署的環境與資源壓力。Router-R1 天然支持模型重用與模組化組合,只需添加新模型描述即可快速整合,為建構可擴展、多模型共生的 AI 基礎設施奠定了基礎。

值得注意的是,最新的 GPT-5 技術報告也已明確採用 LLM 路由器機制來進行不同版本模型的動態調度,這進一步印證了 Router-R1 所代表的趨勢:多模型協同路由將成為未來大型模型生態不可或缺的底層基礎設施。

圖片

THE END

主標籤:大型語言模型

次標籤:路由成本效益AI架構強化學習


上一篇:智能體長程搜尋的兩大痛點被解決了!中科院 DeepMiner 用 32k 跑近百輪,開源領先逼近閉源

下一篇:NTU等聯合提出A-MemGuard:為AI記憶上鎖,毒害攻擊成功率暴降95%

分享短網址