王夢迪團隊「自我進化代理」綜述:從靜態大型語言模型到超智慧人工智慧

當前的大型語言模型(LLM)存在嚴重的缺點:其本質上是靜態的,無法根據新任務、不斷發展的知識領域或動態互動環境,調整內部參數。

如今,隨著 LLM 越來越多地被佈署在開放、互動環境中,這種靜態缺點愈發凸顯,迫切需要能夠即時完成適應性推論、行動和演化的代理,即「自我演化代理」。

日前,普林斯頓大學助理教授王夢迪團隊發佈了首個系統且全面聚焦於「自我演化代理」的綜述研究。

圖片

論文連結:https://arxiv.org/abs/2507.21046

核心貢獻如下:

建立了一個統一理論框架,用於描述代理系統中的自我演化過程,圍繞「演化什麼」、「如何演化」、「何時演化」展開,為未來的自我演化代理系統提供了明確的設計指導;

研究了針對自我演化代理設計的評估基準與環境,強調與適應性、韌性和現實世界複雜性相關的新興指標和挑戰;

展示了多個領域的關鍵現實世界應用(如自主軟體工程、個人化教育、醫療照護和智慧虛擬助理),以及自我演化代理的實際潛力;

確定了關鍵的開放性挑戰和有前景的未來研究方向,強調安全、個人化、多代理協同演化和可擴展性等。

圖片

圖|2022-2025 年代表性自主演化代理框架的演進全景圖

透過提供一個結構化框架來理解和設計自我演化代理,該綜述為在研究和實際佈署中推進適應性代理系統提供了路線圖,推動實現超智慧人工智慧(ASI)。其中,代理不僅能夠以不可預測的速度從經驗中學習與演化,還能夠在廣泛的任務中達到或超越人類的智慧水平。

當前趨勢:可自我演化的代理

與無法適應全新和動態互動環境的靜態 LLM 不同,自我演化代理被認為可以透過持續的現實世界回饋不斷學習,從而克服上述缺點。

在該綜述中,研究團隊圍繞「演化什麼」(What)、「何時演化」(When)、「如何演化」(How)展開分析,並透過建構一個結構化框架來理解和設計自我演化代理。

具體而言,他們系統性地研究了代理的各個組件,包括模型、記憶、工具及其對應的工作流,並分析了它們的演化機制(「演化什麼」);隨後,他們將現有演化方法按照不同時間階段及學習範式進行分類,如監督式微調、強化學習和推論時演化(「何時演化」);最後,他們總結了不同演化訊號(如文本回饋、標量獎勵)和代理的不同演化架構(如單代理與多代理演化)(「如何演化」)。

圖片

1.演化什麼?

代理的自我演化涉及多個關鍵組件,這些組件共同構成了代理適應與提升的基礎:

首先是模型(Model),這是代理的認知核心,直接決定著它們的推論、規劃和決策行為。模型透過調整內部參數、從自身經驗中學習來最佳化推論和決策能力,這些策略共同推動著學習範式的轉變——從被動學習轉向主動、持續且自我驅動的提升模式。

其次是情境(Context),包括記憶演化和提示詞最佳化。記憶演化關注如何儲存、遺忘和檢索資訊以輔助決策,使代理能夠累積知識、回憶過往事件,並根據經驗調整行為;提示詞最佳化則透過調整指令的表述和結構提升模型表現,代理可以自主改進提示策略,將提示轉換為可學習的組件,與代理的經驗共同演化。

再次是工具(Tool),代理從工具使用者轉變為創造者,這種從依賴預設靜態工具集到實現自主技能擴展與最佳化的轉變,標誌著向認知自給自足的重要飛躍。涵蓋工具的自主發現、透過迭代最佳化實現精通以及高效管理與選擇,以應對複雜任務需求。

此外還包括架構(Architecture),單代理系統最佳化主要沿著兩個方向推進:最佳化代理的高層架構設計,以及使其能夠直接修改自身原始碼。透過最佳化節點和將組件級最佳化直接融入系統架構搜尋過程實現效能提升;複雜多代理系統則聚焦協作結構的動態最佳化,以增強集體解決問題的能力。

2.何時演化?

圖片

代理的演化時機分為測試中和跨測試兩個階段,且在不同學習範式下有不同表現。研究團隊分別從情境學習(In-Context Learning)、監督式微調(Supervised Fine-Tuning)和強化學習(Reinforcement Learning)三個維度對兩階段進行了研究:

測試中自我演化(Intra-test-time self-evolution):發生在任務執行過程中,與當前任務緊密耦合。透過情境學習,代理利用動態記憶調整行為;監督式微調實現即時自我修改;強化學習則在遇到難題時針對性學習新能力。

跨測試自我演化(Inter-test-time self-evolution):在任務完成後進行,基於歷史經驗提升未來表現。情境學習利用過往任務回饋輔助新任務;監督式微調透過自我生成數據和評估實現迭代最佳化;強化學習藉助大量環境互動和課程設計最佳化策略。

圖片

圖|基於獎勵的自我演化策略概述

3.如何演化?

圖片

圖|代理自主演化過程中橫切式演化維度示意圖

自我完善的能力是高階智慧的基石。在 LLM 的情境下,這種機制表現為一種動態的獎勵驅動演化過程。模型透過不斷從自身輸出和互動中學習,逐步提升自身能力。作為引導回饋機制的獎勵訊號設計至關重要,它直接決定了學習過程的性質、效率和效果。獎勵設計的主要方法論,按回饋類型可分為四類:文本回饋、內部獎勵、外部獎勵和隱性獎勵。

更多詳情,請查看原綜述。

應用:通用領域、特定專業領域

自主演化代理將在多個領域和應用場景中推動技術進步,主要涉及兩大類:

通用領域演化:代理系統透過演化來擴展其在廣泛任務中的能力,主要集中在數位領域;

專業領域演化:代理系統透過演化來提升其在特定任務領域中的專業能力。

本質上,通用型助理的演化側重於將學習到的經驗遷移到更廣泛的任務集,而專用型代理的演化則強調在特定領域內深化專業知識。

圖片

圖|演化方向可劃分為通用領域和專業領域兩大類

通用領域演化,指的是為通用應用而設計的自我演化代理,即代理系統透過演化來拓展其在數位領域的多樣化任務能力,主要透過三種方式實現能力升級:記憶機制(Memory Mechanism)、課程驅動訓練(Curriculum-Driven Training)以及模型-代理協同演化(Model-Agent Co-Evolution)。這三大機制共同作用,使智慧助理能夠不斷適應複雜多變的使用者需求,提供更高效的服務回應。

專業領域演化,是指專注於提升特定任務領域的專業技能。在這些領域中,它們的演化被客製化為顯著提高狹窄任務集中的效能,重點是針對程式設計、GUI、金融、醫療、教育等領域的專業領域專長。其中:

在程式設計(Coding)方面,自我演化代理有著變革性的應用,其自主適應與改進能力可提升軟體開發效率與品質。例如,SICA 能自主編輯程式碼庫並提升基準任務效能;EvoMAC 透過最佳化多代理協作網路改善程式碼生成;AgentCoder 藉助多代理框架迭代最佳化程式碼;以及透過篩選優質答案等方式讓代理持續演化,建構機器學習函式庫等。

在圖形使用者介面(GUI)方面,自我演化代理將 LLM 能力從文本推論擴展到桌面、網頁和行動介面操作,需應對複雜的動作空間等挑戰。相關研究透過像素級視覺與自我強化提升準確性;Navi 代理透過分析失敗軌跡提升任務完成率;WebVoyager 結合截圖與反思提高未知網站成功率,ReAP 增加記憶進一步改善;AutoGUI 和 MobileUse 也透過各自機制增強能力,體現了自我演化的全方面特徵。

在金融(Financial)方面,為專業領域客製化代理的瓶頸在於高效建構和整合領域知識庫,而自我演化機制可緩解這一問題。QuantAgent 透過雙層框架迭代最佳化回應並增強知識庫,提升交易表現;TradingAgents 整合多種動態過程最佳化策略。

在醫療(Medical)方面,自我演化代理能應對臨床複雜性,包括醫院規模模擬、多代理協作、醫患代理對話演化、強化學習輔助診療、架構搜尋最佳化流程,以及生物醫學發現。

在教育(Education)方面,自我演化代理在教育領域應用廣泛。在學習者層面,PACE 根據學生情況調整提示和提問,MathVC 模擬協作學習過程;在教師層面,i-vip 的多代理團隊即時最佳化輸出,EduPlanner 透過對抗循環最佳化教案,SEFL 生成範例微調回饋模型。這些代理能動態適應師生需求,提升教育體驗。

除上述五大領域,自我演化代理在其他專業領域也展現出一定的優勢,如學術輔助、遊戲任務、外交策略等,它們憑藉持續學習等特性在各自領域體現出廣泛適用性。

未來方向:個人化、可泛化、安全可控

佈署個人化代理是重要的研究目標,在聊天機器人、數位孿生等應用中,需要讓 AI 精準捕捉並適應使用者獨特行為模式或偏好。現有方法依賴標註數據和後訓練,但實際中面臨冷啟動問題,即初始數據有限時如何完善個人化理解、解讀使用者意圖和建構使用者畫像。同時,在個人化規劃與執行中,長期記憶管理、外部工具整合適配及個人化生成可靠性等存在挑戰,且需避免強化現有偏見。

在評估方面,需要團隊進一步突破傳統框架,開發更輕量、適應性強的指標,建立靈活動態的基準測試體系,以精準評估代理在自我演化過程中管理長尾個人化數據時的表現。

同時,自我演化代理在跨任務領域和環境的穩健泛化上也存在挑戰,專業性與廣泛適應性的矛盾影響系統可擴展性、知識遷移和協作智慧。可擴展架構設計需建構能隨複雜度和場景擴展保持效能的架構,但當前系統常面臨權衡困境,且動態推論計算成本增長限制通用化能力。

在持續學習中,災難性遺忘現象加劇挑戰,平衡效率與防止模型漂移仍是難題。知識遷移存在缺陷,需理解知識泛化傳遞條件、量化遷移侷限性、建立促進穩健世界模型建構的機制,以提升協作效能。

此外,隨著自主 AI 代理的能力增強,佈署更安全、可控的代理成為研究的重點。當前代理仍難準確區分必要敏感資訊與無關資訊,在目標涉及不當手段時,管理行為更為困難,學習的不確定性、語義模糊情境和記憶模組的設計缺陷均會加劇安全挑戰。

透過收集大規模、多元真實場景數據以支持安全行為學習,完善代理架構的規則和案例庫,探索更安全的訓練演算法,調查隱私保護措施對代理效率的影響,才可能實現平衡且安全的佈署。

最後,多代理自我演化系統面臨的挑戰,要求其必須平衡個體與集體推論。研究表明,集體討論雖能提升診斷推論,但代理易過度依賴共識削弱獨立推論能力。

未來,研究團隊需要繼續深入探索動態機制調整個體與集體意見權重,避免決策被少數主導,建立顯式知識庫和標準化更新機制,增強協作中個體推論貢獻。同時,現有多代理評估基準多為靜態,難以捕捉角色長期適應性和演化,需開發高效演算法和自適應框架,使代理在保持自身決策優勢的同時有效協作。

研究團隊表示,自我演化代理的出現,標誌著 AI 領域的範式轉變,從靜態單一模型邁向具備持續學習與適應能力的動態智慧系統。隨著語言代理在開放式互動環境中的廣泛應用,建構新一代智慧系統的關鍵在於使其推論過程、工具和行為能根據新任務、知識和回饋實現演化與適應。

展望未來,充分發揮自我演化代理的潛力對建構超智慧人工智慧至關重要,這需要在模型、數據、演算法和評估等方面取得重大突破。解決災難性遺忘、實現自主演化中人類偏好對齊,以及代理與環境的協同演化等問題,是開發兼具適應性、可靠性且符合人類價值觀的代理的關鍵。

主標籤:自我進化AI代理

次標籤:大型語言模型超智慧人工智慧未來AI研究人工智慧應用


上一篇:大型語言模型的黑化開關!Anthropic團隊新作:大型語言模型的人格變數,人類終於找到了!提出人格漂移工具鏈,破解讓模型失控的黑箱

下一篇:史上最大高品質科學推理後訓練資料集開源,快速讓Qwen3等變「科學家」

分享短網址