華東師範大學、美團、東華大學、清華大學聯合研究團隊提出的RMoA框架,最大限度地提高模型響應的資訊利用率,同時最大限度地降低計算成本,本文已被ACL2025接受。
論文地址:https://arxiv.org/abs/2505.24442
開源代碼:https://github.com/mindhunter01/RMoA
寫在前面:MoA的美好與現實
如果你正在開發Agent產品,一定聽過或用過Mixture-of-Agents(MoA)架構。這個讓多個AI模型協作解決複雜問題的框架,理論上能夠集眾家之長,實際使用中卻讓人又愛又恨:
- 愛的是:它確實能提升回答品質
- 恨的是:令人心疼的API呼叫成本,以及隨著層數增加而逐漸"跑偏"的回答品質
華東師範大學、美團等機構的研究團隊最近提出的RMoA(Residual Mixture-of-Agents)框架,可能要徹底改變這個局面。
殘差學習也跨界:從圖像識別到Agent協作
什麼是殘差學習?一個簡單的類比
比如你正在和朋友一起修改一份重要文件。傳統的做法是每個人都從頭到尾重寫整份文件,然後大家比較哪個版本更好。但這樣做有一個問題:大部分內容其實都是重複的,真正有價值的是每個人新增加或改進的那一小部分。
殘差學習就是這樣一個比較聰明的想法:與其讓每個人重寫全部內容,不如讓大家專注於發現和改進差異部分。這樣既節省了精力,又能確保每個有價值的修改建議都不會被忽略。
從圖像識別到AI協作的啟發
2015年,一個叫ResNet的技術在圖像識別領域引起了轟動。它解決了一個困擾AI界很久的問題:為什麼越複雜的神經網路有時候效果反而更差?ResNet的答案很簡單:不要讓AI重新學習所有東西,而是讓它專注學習"新的改進"。
就像學生做數學題一樣,與其每次都從最基礎的加減法開始算,不如在前面同學答案的基礎上,重點檢查和改進可能有問題的步驟。這樣既快又準。
RMoA的巧妙借鑒
RMoA的研究者們發現,多個AI模型協作時也面臨類似問題:每個AI都試圖從零開始給出完整答案,導致大量重複工作和資訊浪費。他們靈機一動:為什麼不讓AI們也學會"只說重點"呢?
具體來說,就是讓後面的AI不要重複前面AI已經說過內容,而是專注於:
✓ 發現前面遺漏的資訊
✓ 糾正可能的錯誤
✓ 補充新的觀點
這樣,每個AI都能貢獻獨特價值,而不是簡單地重複勞動。就像一場高效的腦力激盪會議,每個人都在前人基礎上提出新想法,而不是重複別人已經說過的話。
傳統MoA與RMoA架構對比可以看出RMoA引入了殘差機制和多樣性選擇
三大核心創新:讓Agent協作更聰明
🎯 貪心多樣性嵌入選擇:不是所有回答都值得參考
傳統MoA會把所有模型的回答都餵給下一層,就像開會時每個人都要發言一樣,聽起來民主,實際上效率低下。
RMoA引入了一個精巧的篩選機制:
1. 向量化表示:將所有回答轉換為向量表示
2. 貪心策略選擇:選出最具多樣性的K個回答
3. 具體演算法:
- 先選擇與所有回答平均相似度最低的那個作為起點
- 然後逐步選擇與已選集合最不相似的回答
核心價值:既保證了觀點的多樣性,又大幅降低了後續處理的計算量。
🔍 殘差提取智能體:專門負責發現"新東西"
這是RMoA最核心的創新。研究團隊設計了一個專門的殘差提取智能體:
核心任務:
- 比較前一輪和當前輪的回答
- 識別出真正的新資訊、糾正的錯誤和補充的細節
輸出格式:
- 結構化報告
- 明確標註"Residuals Detected: Yes/No"
- 具體的差異內容
形象類比:就像醫生會診時,每個專家不是重複前面醫生的全部診斷,而是重點說明自己發現的新問題和不同觀點。
🔧 殘差聚合智能體:把"新東西"有機整合
有了殘差資訊,還需要另一個智能體負責整合:
工作流程:
1. 接收前一輪的回答
2. 接收當前層的殘差資訊
3. 將它們融合成一個更完整、更準確的答案
設計理念:遵循軟體工程中的單一職責原則
- 殘差提取智能體:專門發現差異
- 殘差聚合智能體:專門整合價值
優勢:分工明確,效果更好
RMoA完整架構圖展示了貪心多樣性選擇、殘差提取、殘差聚合和自適應終止的完整流程
自適應終止:讓系統知道什麼時候該停下
智能的邊際效益判斷
RMoA還實現了一個特別聰明的機制:自適應終止。當系統連續幾輪都檢測不到有價值的殘差資訊時,它會主動停止迭代。這就像熟練的程式設計師知道什麼時候程式碼已經足夠好,不需要過度優化一樣。這個機制不僅節省了計算資源,還避免了過度迭代可能產生的幻覺問題。
工程實現的精妙細節
嵌入模型的選擇與優化
RMoA的開源實現選擇了BGE-M3作為嵌入模型,這是一個支援多粒度、多功能的向量化模型。在具體實現中,研究團隊做了很多優化:批處理大小設為6,最大長度2048,還支援GPU加速。這些看似簡單的參數背後,是大量實驗和調優的結果。
角色扮演的認知科學應用
為了最大化智能體間的認知多樣性,RMoA為不同任務設計了專門的角色提示詞。比如在數學任務中,六個智能體分別扮演理論數學家、競賽教練、計算科學家、教育內容創作者、博士生和精算師。這種設計不是隨意的,而是基於認知科學的研究:不同專業背景會帶來不同的思維模式和解決問題的角度。
成本控制的精細化管理
作為一個面向工業應用的框架,RMoA對成本控制非常重視。系統會精確記錄每一層、每一步的token消耗,支援不同API的定價模型,還提供了詳細的成本分析報告。這種細緻入微的成本管理,正是工程師們在實際項目中最需要的功能。
實驗驗證:數據說話
四大基準測試的全面驗證
研究團隊在AlpacaEval 2.0、MATH、CRUX和MMLU-redux四個基準上進行了全面測試。結果顯示,RMoA在顯著降低計算成本的同時,實現了更好的性能。特別是在數學推理任務上,Qwen2.5-7B-Instruct模型的準確率提升了2.26%,Gemma2-9B-Instruct更是提升了13.8%,即使是強大的GPT-4o也提升了4.56%。
成本效益的顯著改善
更令人印象深刻的是成本控制效果。在MATH數據集上,RMoA相比傳統MoA提升了1.92%的準確率,同時只用了68.83%的token成本。這種性能提升與成本降低的雙重優勢,正是工業應用最看重的指標。
RMoA在四大基準測試上的表現 - 在所有模型上都實現了顯著的性能提升
企業戰略諮詢的實戰驗證
為了驗證RMoA在實際業務場景中的效果,我基於論文的核心演算法開發了一個企業戰略諮詢系統,並模擬了一個數位化轉型案例進行了測試。這個系統集成了RMoA的三大核心創新:貪心多樣性選擇、殘差學習機制和自適應終止功能。
某傳統紡織服裝企業(年營收50億,員工3000人)的數位化轉型戰略制定。系統配置了四個專業角色:市場分析師、財務顧問、運營專家和技術戰略師,使用DeepSeek和Qwen兩個模型作為底層LLM。
上下滑動查看更多
Slide left and right to see more
從實際運行結果可以看出幾個關鍵特點:
智能的多輪協作:系統自動進行了4輪分析迭代,每輪都在前一輪基礎上識別新資訊並完善戰略建議。
精確的成本控制:總共消耗40,804個tokens,平均每輪約10,201個tokens,顯著低於傳統MoA。
高品質的業務輸出:生成5個維度的完整戰略,從優先級規劃到風險控制的可執行方案。
強大的容錯能力:網路不穩定仍能完成任務,部分API呼叫失敗也展現了工程魯棒性。
這次實戰驗證證明,RMoA不僅在學術基準測試中表現優異,在真實的企業應用場景中同樣能夠提供高品質、低成本的智能化服務。對於需要多專業協作的複雜決策場景,RMoA展現出了傳統單一模型和簡單MoA無法比擬的優勢。
不同模型在不同層數下的性能表現RMoA能夠持續改進,而傳統MoA出現性能下降
成本效益分析對比RMoA在降低成本的同時實現了更好的性能
RMoV:哪些領域最受益
金融風控:多維度風險評估的理想選擇
在金融風控場景中,RMoA的殘差學習機制能確保風險評估過程中不遺漏任何重要訊號。多樣性選擇機制可以從信貸、市場、操作、合規等不同角度篩選出最有價值的風險觀點,避免群體思維導致的風險盲區。自適應終止機制則能在風險評估達到穩定狀態時及時停止,既保證了分析品質又控制了成本。
醫療診斷:多學科會診的AI化實現
醫療診斷是另一個理想的應用場景。RMoA可以模擬多學科會診的過程,讓不同專科的AI助手從各自角度分析病例,殘差機制確保每個診斷線索都不會在協作過程中丟失。這種方式既提高了診斷的全面性,又避免了重複檢查造成的資源浪費。
程式碼審查:多視角的品質保證
在軟體開發中,RMoA可以實現更高效的程式碼審查。架構師關注設計模式,安全專家關注漏洞風險,性能專家關注優化空間,維運工程師關注部署問題。殘差學習確保每個專家的獨特見解都能被保留和整合,形成更全面的程式碼品質評估。
💡 對Agent開發者的實用建議
📈 漸進式整合策略
如果你正在考慮將RMoA整合到現有的Agent系統中,建議採用漸進式策略:
步驟1:先在非關鍵路徑上試用RMoA
步驟2:熟悉其特性和參數調優方法
步驟3:逐步擴展到核心業務場景
重要提示:特別要注意不同任務類型對K值(多樣性選擇的數量)的敏感性,通常K=3是一個不錯的起點。
💰 成本監控的重要性
部署RMoA時務必建立完善的成本監控機制:
- 詳細統計:利用框架提供的詳細token統計功能
- 層級分析:分析每個層級的成本貢獻
- 優化空間:找出潛在的優化空間
- 權衡分析:殘差提取和聚合過程的成本需要與帶來的品質提升進行權衡
🎭 角色設計的專業化
投入時間設計高品質的角色提示詞,這對RMoA的效果至關重要:
要素:專業分工;要求:基於真實的專業分工;建議:避免角色間的職責重疊。
要素:專業性;要求:確保角色設定的專業性;建議:與領域專家合作。
要素:準確性;要求:保證描述的準確性;建議:多輪驗證和優化。
消融實驗結果驗證了RMoA各個組件的有效性,其中殘差智能體貢獻最大
寫在最後
RMoA不只是一個新的技術選擇,更是一種新的思維方式:讓AI系統學會關注變化、珍惜差異、適時停止。這些聽起來很像人類智慧的特質,或許這正是通用人工智慧發展的正確方向。
未來已來,有緣一起同行
🎉讓我們一起創造更多美好!🎉
如果您覺得這篇文章對您有幫助
感謝您為我【點讚】、【在看】
微訊號:xiumaoprompt
新增請註明來意!
本文完結,作者:修貓