RMoA殘差提取Mixture-of-Agents,讓Agent發現新事物並自適應停止「ACL2025」

華東師範大學、美團、東華大學、清華大學聯合研究團隊提出的RMoA框架,最大限度地提高模型響應的資訊利用率,同時最大限度地降低計算成本,本文已被ACL2025接受。

論文地址:https://arxiv.org/abs/2505.24442

開源代碼:https://github.com/mindhunter01/RMoA

寫在前面:MoA的美好與現實

如果你正在開發Agent產品,一定聽過或用過Mixture-of-Agents(MoA)架構。這個讓多個AI模型協作解決複雜問題的框架,理論上能夠集眾家之長,實際使用中卻讓人又愛又恨:

- 愛的是:它確實能提升回答品質

- 恨的是:令人心疼的API呼叫成本,以及隨著層數增加而逐漸"跑偏"的回答品質

華東師範大學、美團等機構的研究團隊最近提出的RMoA(Residual Mixture-of-Agents)框架,可能要徹底改變這個局面。

圖片圖片

殘差學習也跨界:從圖像識別到Agent協作

什麼是殘差學習?一個簡單的類比

比如你正在和朋友一起修改一份重要文件。傳統的做法是每個人都從頭到尾重寫整份文件,然後大家比較哪個版本更好。但這樣做有一個問題:大部分內容其實都是重複的,真正有價值的是每個人新增加或改進的那一小部分。

殘差學習就是這樣一個比較聰明的想法:與其讓每個人重寫全部內容,不如讓大家專注於發現和改進差異部分。這樣既節省了精力,又能確保每個有價值的修改建議都不會被忽略。

從圖像識別到AI協作的啟發

2015年,一個叫ResNet的技術在圖像識別領域引起了轟動。它解決了一個困擾AI界很久的問題:為什麼越複雜的神經網路有時候效果反而更差?ResNet的答案很簡單:不要讓AI重新學習所有東西,而是讓它專注學習"新的改進"。

就像學生做數學題一樣,與其每次都從最基礎的加減法開始算,不如在前面同學答案的基礎上,重點檢查和改進可能有問題的步驟。這樣既快又準。

RMoA的巧妙借鑒

RMoA的研究者們發現,多個AI模型協作時也面臨類似問題:每個AI都試圖從零開始給出完整答案,導致大量重複工作和資訊浪費。他們靈機一動:為什麼不讓AI們也學會"只說重點"呢?

具體來說,就是讓後面的AI不要重複前面AI已經說過內容,而是專注於:

✓ 發現前面遺漏的資訊

✓ 糾正可能的錯誤

✓ 補充新的觀點

這樣,每個AI都能貢獻獨特價值,而不是簡單地重複勞動。就像一場高效的腦力激盪會議,每個人都在前人基礎上提出新想法,而不是重複別人已經說過的話。

圖片

傳統MoA與RMoA架構對比可以看出RMoA引入了殘差機制和多樣性選擇

三大核心創新:讓Agent協作更聰明

🎯 貪心多樣性嵌入選擇:不是所有回答都值得參考

傳統MoA會把所有模型的回答都餵給下一層,就像開會時每個人都要發言一樣,聽起來民主,實際上效率低下。

RMoA引入了一個精巧的篩選機制:

1. 向量化表示:將所有回答轉換為向量表示

2. 貪心策略選擇:選出最具多樣性的K個回答

3. 具體演算法:

- 先選擇與所有回答平均相似度最低的那個作為起點

- 然後逐步選擇與已選集合最不相似的回答

核心價值:既保證了觀點的多樣性,又大幅降低了後續處理的計算量。

🔍 殘差提取智能體:專門負責發現"新東西"

這是RMoA最核心的創新。研究團隊設計了一個專門的殘差提取智能體:

核心任務:

- 比較前一輪和當前輪的回答

- 識別出真正的新資訊、糾正的錯誤和補充的細節

輸出格式:

- 結構化報告

- 明確標註"Residuals Detected: Yes/No"

- 具體的差異內容

形象類比:就像醫生會診時,每個專家不是重複前面醫生的全部診斷,而是重點說明自己發現的新問題和不同觀點。

🔧 殘差聚合智能體:把"新東西"有機整合

有了殘差資訊,還需要另一個智能體負責整合:

工作流程:

1. 接收前一輪的回答

2. 接收當前層的殘差資訊

3. 將它們融合成一個更完整、更準確的答案

設計理念:遵循軟體工程中的單一職責原則

- 殘差提取智能體:專門發現差異

- 殘差聚合智能體:專門整合價值

優勢:分工明確,效果更好

圖片

RMoA完整架構圖展示了貪心多樣性選擇、殘差提取、殘差聚合和自適應終止的完整流程

自適應終止:讓系統知道什麼時候該停下

智能的邊際效益判斷

RMoA還實現了一個特別聰明的機制:自適應終止。當系統連續幾輪都檢測不到有價值的殘差資訊時,它會主動停止迭代。這就像熟練的程式設計師知道什麼時候程式碼已經足夠好,不需要過度優化一樣。這個機制不僅節省了計算資源,還避免了過度迭代可能產生的幻覺問題。

工程實現的精妙細節

嵌入模型的選擇與優化

RMoA的開源實現選擇了BGE-M3作為嵌入模型,這是一個支援多粒度、多功能的向量化模型。在具體實現中,研究團隊做了很多優化:批處理大小設為6,最大長度2048,還支援GPU加速。這些看似簡單的參數背後,是大量實驗和調優的結果。

角色扮演的認知科學應用

為了最大化智能體間的認知多樣性,RMoA為不同任務設計了專門的角色提示詞。比如在數學任務中,六個智能體分別扮演理論數學家、競賽教練、計算科學家、教育內容創作者、博士生和精算師。這種設計不是隨意的,而是基於認知科學的研究:不同專業背景會帶來不同的思維模式和解決問題的角度。

成本控制的精細化管理

作為一個面向工業應用的框架,RMoA對成本控制非常重視。系統會精確記錄每一層、每一步的token消耗,支援不同API的定價模型,還提供了詳細的成本分析報告。這種細緻入微的成本管理,正是工程師們在實際項目中最需要的功能。

實驗驗證:數據說話

四大基準測試的全面驗證

研究團隊在AlpacaEval 2.0、MATH、CRUX和MMLU-redux四個基準上進行了全面測試。結果顯示,RMoA在顯著降低計算成本的同時,實現了更好的性能。特別是在數學推理任務上,Qwen2.5-7B-Instruct模型的準確率提升了2.26%,Gemma2-9B-Instruct更是提升了13.8%,即使是強大的GPT-4o也提升了4.56%。

成本效益的顯著改善

更令人印象深刻的是成本控制效果。在MATH數據集上,RMoA相比傳統MoA提升了1.92%的準確率,同時只用了68.83%的token成本。這種性能提升與成本降低的雙重優勢,正是工業應用最看重的指標。

圖片

RMoA在四大基準測試上的表現 - 在所有模型上都實現了顯著的性能提升

企業戰略諮詢的實戰驗證

為了驗證RMoA在實際業務場景中的效果,我基於論文的核心演算法開發了一個企業戰略諮詢系統,並模擬了一個數位化轉型案例進行了測試。這個系統集成了RMoA的三大核心創新:貪心多樣性選擇、殘差學習機制和自適應終止功能。

某傳統紡織服裝企業(年營收50億,員工3000人)的數位化轉型戰略制定。系統配置了四個專業角色:市場分析師、財務顧問、運營專家和技術戰略師,使用DeepSeek和Qwen兩個模型作為底層LLM。

圖片圖片圖片

上下滑動查看更多

Slide left and right to see more

從實際運行結果可以看出幾個關鍵特點:

智能的多輪協作:系統自動進行了4輪分析迭代,每輪都在前一輪基礎上識別新資訊並完善戰略建議。

精確的成本控制:總共消耗40,804個tokens,平均每輪約10,201個tokens,顯著低於傳統MoA。

高品質的業務輸出:生成5個維度的完整戰略,從優先級規劃到風險控制的可執行方案。

強大的容錯能力:網路不穩定仍能完成任務,部分API呼叫失敗也展現了工程魯棒性。

這次實戰驗證證明,RMoA不僅在學術基準測試中表現優異,在真實的企業應用場景中同樣能夠提供高品質、低成本的智能化服務。對於需要多專業協作的複雜決策場景,RMoA展現出了傳統單一模型和簡單MoA無法比擬的優勢。

圖片

不同模型在不同層數下的性能表現RMoA能夠持續改進,而傳統MoA出現性能下降

圖片

成本效益分析對比RMoA在降低成本的同時實現了更好的性能

RMoV:哪些領域最受益

金融風控:多維度風險評估的理想選擇

在金融風控場景中,RMoA的殘差學習機制能確保風險評估過程中不遺漏任何重要訊號。多樣性選擇機制可以從信貸、市場、操作、合規等不同角度篩選出最有價值的風險觀點,避免群體思維導致的風險盲區。自適應終止機制則能在風險評估達到穩定狀態時及時停止,既保證了分析品質又控制了成本。

醫療診斷:多學科會診的AI化實現

醫療診斷是另一個理想的應用場景。RMoA可以模擬多學科會診的過程,讓不同專科的AI助手從各自角度分析病例,殘差機制確保每個診斷線索都不會在協作過程中丟失。這種方式既提高了診斷的全面性,又避免了重複檢查造成的資源浪費。

程式碼審查:多視角的品質保證

在軟體開發中,RMoA可以實現更高效的程式碼審查。架構師關注設計模式,安全專家關注漏洞風險,性能專家關注優化空間,維運工程師關注部署問題。殘差學習確保每個專家的獨特見解都能被保留和整合,形成更全面的程式碼品質評估。

💡 對Agent開發者的實用建議

📈 漸進式整合策略

如果你正在考慮將RMoA整合到現有的Agent系統中,建議採用漸進式策略:

步驟1:先在非關鍵路徑上試用RMoA

步驟2:熟悉其特性和參數調優方法

步驟3:逐步擴展到核心業務場景

重要提示:特別要注意不同任務類型對K值(多樣性選擇的數量)的敏感性,通常K=3是一個不錯的起點。

💰 成本監控的重要性

部署RMoA時務必建立完善的成本監控機制:

- 詳細統計:利用框架提供的詳細token統計功能

- 層級分析:分析每個層級的成本貢獻

- 優化空間:找出潛在的優化空間

- 權衡分析:殘差提取和聚合過程的成本需要與帶來的品質提升進行權衡

🎭 角色設計的專業化

投入時間設計高品質的角色提示詞,這對RMoA的效果至關重要:

要素:專業分工;要求:基於真實的專業分工;建議:避免角色間的職責重疊。

要素:專業性;要求:確保角色設定的專業性;建議:與領域專家合作。

要素:準確性;要求:保證描述的準確性;建議:多輪驗證和優化。

圖片

消融實驗結果驗證了RMoA各個組件的有效性,其中殘差智能體貢獻最大

寫在最後

RMoA不只是一個新的技術選擇,更是一種新的思維方式:讓AI系統學會關注變化、珍惜差異、適時停止。這些聽起來很像人類智慧的特質,或許這正是通用人工智慧發展的正確方向。

未來已來,有緣一起同行

圖片

🎉讓我們一起創造更多美好!🎉

如果您覺得這篇文章對您有幫助

感謝您為我【點讚】、【在看】

微訊號:xiumaoprompt

新增請註明來意!

本文完結,作者:修貓

主標籤:AI代理

次標籤:殘差學習人工智慧成本效益機器學習多代理系統


上一篇:Agent Zero:能學習進化的開源免費智慧體

下一篇:讓AI也能「權衡利弊」?DecisionFlow讓大型語言模型更理解高風險決策!

分享短網址