RMoA殘差提取Mixture-of-Agents，讓Agent發現新事物並自適應停止「ACL2025」

華東師範大學、美團、東華大學、清華大學聯合研究團隊提出的RMoA框架，最大限度地提高模型響應的資訊利用率，同時最大限度地降低計算成本，本文已被ACL2025接受。

論文地址：https://arxiv.org/abs/2505.24442

開源代碼：https://github.com/mindhunter01/RMoA

寫在前面：MoA的美好與現實

如果你正在開發Agent產品，一定聽過或用過Mixture-of-Agents（MoA）架構。這個讓多個AI模型協作解決複雜問題的框架，理論上能夠集眾家之長，實際使用中卻讓人又愛又恨：

- 愛的是：它確實能提升回答品質

- 恨的是：令人心疼的API呼叫成本，以及隨著層數增加而逐漸"跑偏"的回答品質

華東師範大學、美團等機構的研究團隊最近提出的RMoA（Residual Mixture-of-Agents）框架，可能要徹底改變這個局面。

殘差學習也跨界：從圖像識別到Agent協作

什麼是殘差學習？一個簡單的類比

比如你正在和朋友一起修改一份重要文件。傳統的做法是每個人都從頭到尾重寫整份文件，然後大家比較哪個版本更好。但這樣做有一個問題：大部分內容其實都是重複的，真正有價值的是每個人新增加或改進的那一小部分。

殘差學習就是這樣一個比較聰明的想法：與其讓每個人重寫全部內容，不如讓大家專注於發現和改進差異部分。這樣既節省了精力，又能確保每個有價值的修改建議都不會被忽略。

從圖像識別到AI協作的啟發

2015年，一個叫ResNet的技術在圖像識別領域引起了轟動。它解決了一個困擾AI界很久的問題：為什麼越複雜的神經網路有時候效果反而更差？ResNet的答案很簡單：不要讓AI重新學習所有東西，而是讓它專注學習"新的改進"。

就像學生做數學題一樣，與其每次都從最基礎的加減法開始算，不如在前面同學答案的基礎上，重點檢查和改進可能有問題的步驟。這樣既快又準。

RMoA的巧妙借鑒

RMoA的研究者們發現，多個AI模型協作時也面臨類似問題：每個AI都試圖從零開始給出完整答案，導致大量重複工作和資訊浪費。他們靈機一動：為什麼不讓AI們也學會"只說重點"呢？

具體來說，就是讓後面的AI不要重複前面AI已經說過內容，而是專注於：

✓ 發現前面遺漏的資訊

✓ 糾正可能的錯誤

✓ 補充新的觀點

這樣，每個AI都能貢獻獨特價值，而不是簡單地重複勞動。就像一場高效的腦力激盪會議，每個人都在前人基礎上提出新想法，而不是重複別人已經說過的話。

傳統MoA與RMoA架構對比可以看出RMoA引入了殘差機制和多樣性選擇

三大核心創新：讓Agent協作更聰明

🎯 貪心多樣性嵌入選擇：不是所有回答都值得參考

傳統MoA會把所有模型的回答都餵給下一層，就像開會時每個人都要發言一樣，聽起來民主，實際上效率低下。

RMoA引入了一個精巧的篩選機制：

1. 向量化表示：將所有回答轉換為向量表示

2. 貪心策略選擇：選出最具多樣性的K個回答

3. 具體演算法：

- 先選擇與所有回答平均相似度最低的那個作為起點

- 然後逐步選擇與已選集合最不相似的回答

核心價值：既保證了觀點的多樣性，又大幅降低了後續處理的計算量。

🔍 殘差提取智能體：專門負責發現"新東西"

這是RMoA最核心的創新。研究團隊設計了一個專門的殘差提取智能體：

核心任務：

- 比較前一輪和當前輪的回答

- 識別出真正的新資訊、糾正的錯誤和補充的細節

輸出格式：

- 結構化報告

- 明確標註"Residuals Detected: Yes/No"

- 具體的差異內容

形象類比：就像醫生會診時，每個專家不是重複前面醫生的全部診斷，而是重點說明自己發現的新問題和不同觀點。

🔧 殘差聚合智能體：把"新東西"有機整合

有了殘差資訊，還需要另一個智能體負責整合：

工作流程：

1. 接收前一輪的回答

2. 接收當前層的殘差資訊

3. 將它們融合成一個更完整、更準確的答案

設計理念：遵循軟體工程中的單一職責原則

- 殘差提取智能體：專門發現差異

- 殘差聚合智能體：專門整合價值

優勢：分工明確，效果更好

RMoA完整架構圖展示了貪心多樣性選擇、殘差提取、殘差聚合和自適應終止的完整流程

自適應終止：讓系統知道什麼時候該停下

智能的邊際效益判斷

RMoA還實現了一個特別聰明的機制：自適應終止。當系統連續幾輪都檢測不到有價值的殘差資訊時，它會主動停止迭代。這就像熟練的程式設計師知道什麼時候程式碼已經足夠好，不需要過度優化一樣。這個機制不僅節省了計算資源，還避免了過度迭代可能產生的幻覺問題。

工程實現的精妙細節

嵌入模型的選擇與優化

RMoA的開源實現選擇了BGE-M3作為嵌入模型，這是一個支援多粒度、多功能的向量化模型。在具體實現中，研究團隊做了很多優化：批處理大小設為6，最大長度2048，還支援GPU加速。這些看似簡單的參數背後，是大量實驗和調優的結果。

角色扮演的認知科學應用

為了最大化智能體間的認知多樣性，RMoA為不同任務設計了專門的角色提示詞。比如在數學任務中，六個智能體分別扮演理論數學家、競賽教練、計算科學家、教育內容創作者、博士生和精算師。這種設計不是隨意的，而是基於認知科學的研究：不同專業背景會帶來不同的思維模式和解決問題的角度。

成本控制的精細化管理

作為一個面向工業應用的框架，RMoA對成本控制非常重視。系統會精確記錄每一層、每一步的token消耗，支援不同API的定價模型，還提供了詳細的成本分析報告。這種細緻入微的成本管理，正是工程師們在實際項目中最需要的功能。

實驗驗證：數據說話

四大基準測試的全面驗證

研究團隊在AlpacaEval 2.0、MATH、CRUX和MMLU-redux四個基準上進行了全面測試。結果顯示，RMoA在顯著降低計算成本的同時，實現了更好的性能。特別是在數學推理任務上，Qwen2.5-7B-Instruct模型的準確率提升了2.26%，Gemma2-9B-Instruct更是提升了13.8%，即使是強大的GPT-4o也提升了4.56%。

成本效益的顯著改善

更令人印象深刻的是成本控制效果。在MATH數據集上，RMoA相比傳統MoA提升了1.92%的準確率，同時只用了68.83%的token成本。這種性能提升與成本降低的雙重優勢，正是工業應用最看重的指標。

RMoA在四大基準測試上的表現 - 在所有模型上都實現了顯著的性能提升

企業戰略諮詢的實戰驗證

為了驗證RMoA在實際業務場景中的效果，我基於論文的核心演算法開發了一個企業戰略諮詢系統，並模擬了一個數位化轉型案例進行了測試。這個系統集成了RMoA的三大核心創新：貪心多樣性選擇、殘差學習機制和自適應終止功能。

某傳統紡織服裝企業（年營收50億，員工3000人）的數位化轉型戰略制定。系統配置了四個專業角色：市場分析師、財務顧問、運營專家和技術戰略師，使用DeepSeek和Qwen兩個模型作為底層LLM。

上下滑動查看更多

Slide left and right to see more

從實際運行結果可以看出幾個關鍵特點：

智能的多輪協作：系統自動進行了4輪分析迭代，每輪都在前一輪基礎上識別新資訊並完善戰略建議。

精確的成本控制：總共消耗40,804個tokens，平均每輪約10,201個tokens，顯著低於傳統MoA。

高品質的業務輸出：生成5個維度的完整戰略，從優先級規劃到風險控制的可執行方案。

強大的容錯能力：網路不穩定仍能完成任務，部分API呼叫失敗也展現了工程魯棒性。

這次實戰驗證證明，RMoA不僅在學術基準測試中表現優異，在真實的企業應用場景中同樣能夠提供高品質、低成本的智能化服務。對於需要多專業協作的複雜決策場景，RMoA展現出了傳統單一模型和簡單MoA無法比擬的優勢。

不同模型在不同層數下的性能表現RMoA能夠持續改進，而傳統MoA出現性能下降

成本效益分析對比RMoA在降低成本的同時實現了更好的性能

RMoV：哪些領域最受益

金融風控：多維度風險評估的理想選擇

在金融風控場景中，RMoA的殘差學習機制能確保風險評估過程中不遺漏任何重要訊號。多樣性選擇機制可以從信貸、市場、操作、合規等不同角度篩選出最有價值的風險觀點，避免群體思維導致的風險盲區。自適應終止機制則能在風險評估達到穩定狀態時及時停止，既保證了分析品質又控制了成本。

醫療診斷：多學科會診的AI化實現

醫療診斷是另一個理想的應用場景。RMoA可以模擬多學科會診的過程，讓不同專科的AI助手從各自角度分析病例，殘差機制確保每個診斷線索都不會在協作過程中丟失。這種方式既提高了診斷的全面性，又避免了重複檢查造成的資源浪費。

程式碼審查：多視角的品質保證

在軟體開發中，RMoA可以實現更高效的程式碼審查。架構師關注設計模式，安全專家關注漏洞風險，性能專家關注優化空間，維運工程師關注部署問題。殘差學習確保每個專家的獨特見解都能被保留和整合，形成更全面的程式碼品質評估。

💡 對Agent開發者的實用建議

📈 漸進式整合策略

如果你正在考慮將RMoA整合到現有的Agent系統中，建議採用漸進式策略：

步驟1：先在非關鍵路徑上試用RMoA

步驟2：熟悉其特性和參數調優方法

步驟3：逐步擴展到核心業務場景

重要提示：特別要注意不同任務類型對K值（多樣性選擇的數量）的敏感性，通常K=3是一個不錯的起點。

💰 成本監控的重要性

部署RMoA時務必建立完善的成本監控機制：

- 詳細統計：利用框架提供的詳細token統計功能

- 層級分析：分析每個層級的成本貢獻

- 優化空間：找出潛在的優化空間

- 權衡分析：殘差提取和聚合過程的成本需要與帶來的品質提升進行權衡

🎭 角色設計的專業化

投入時間設計高品質的角色提示詞，這對RMoA的效果至關重要：

要素：專業分工；要求：基於真實的專業分工；建議：避免角色間的職責重疊。

要素：專業性；要求：確保角色設定的專業性；建議：與領域專家合作。

要素：準確性；要求：保證描述的準確性；建議：多輪驗證和優化。

消融實驗結果驗證了RMoA各個組件的有效性，其中殘差智能體貢獻最大

寫在最後

RMoA不只是一個新的技術選擇，更是一種新的思維方式：讓AI系統學會關注變化、珍惜差異、適時停止。這些聽起來很像人類智慧的特質，或許這正是通用人工智慧發展的正確方向。

未來已來，有緣一起同行

🎉讓我們一起創造更多美好！🎉

如果您覺得這篇文章對您有幫助

感謝您為我【點讚】、【在看】

微訊號：xiumaoprompt

新增請註明來意！

本文完結，作者：修貓

RMoA殘差提取Mixture-of-Agents，讓Agent發現新事物並自適應停止「ACL2025」

分享短網址