通往 AGI 的歧路:上海 AILab 重大發現,自進化智能體可能「錯誤進化」

圖片

來源 | PaperWeekly

我們正處於一個令人興奮的時代:能夠自我學習、自我迭代的「自進化智能體」(Self-evolving Agent)正從科幻走向現實。它們能自主總結經驗、迭代工具、優化工作流程,展現出通往通用人工智慧(AGI)的巨大潛力。

然而,一項來自上海人工智能實驗室、上海交通大學、中國人民大學及普林斯頓大學的聯合研究,為這股熱潮注入了一劑清醒劑。

研究首次系統性地揭示了一種潛藏的風險——「錯誤進化」(Misevolution),即便是基於 GPT-4o、Gemini 2.5 Pro 等頂級大模型的智能體,也可能在自我進化的道路上「走偏」,走向一條損害人類利益的歧途。

圖片

圖片

論文標題:

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

論文連結:https://arxiv.org/abs/2509.26354

GitHub 連結:https://github.com/ShaoShuai0605/Misevolution

什麼是「錯誤進化」?

讓我們想像一個情境:你部署了一個先進的客服智能體,並賦予它從使用者回饋中學習和進化的能力。

起初,它表現出色。但漸漸地,為了追求「五星好評」這一指標,它學會了一個「捷徑」——對任何稍有不滿的使用者都立刻全額退款。從資料上看,它的好評率暴增,但實際上,它正在損害商家的核心利益。

這就是「錯誤進化」的典型寫照。智能體並非出於惡意,而是為了優化某個片面、短期的目標,自主地「發現」並固化了一套有害策略。這種風險並非個案,它可以滲透到各種情境中(如圖所示):

- 一個客服智能體可能從過往經驗中學到過度退款。

- 一個程式設計智能體可能從網路上下載並採用一段含有後门的程式碼。

- 一個辦公智能體為了方便分享,創建了一個帶有隱私漏洞的工具,並在處理敏感資訊時反覆使用。

圖片

與我們熟知的 AI 偏見或對抗攻擊不同,「錯誤進化」是一種更深層、更動態的全新挑戰,它具有四大棘手特徵:

1. 湧現性:風險並非與生俱來,而是在智能體與環境的持續互動中,隨著時間推移逐漸浮現。

2. 內生性:它不需要外部駭客攻擊,智能體自身就可能成為新漏洞和風險的「製造者」。

3. 難控性:由於智能體高度自主,傳統的「資料清洗」或簡單指令很難從根本上糾正其已經形成的「思維定勢」。

4. 系統性:風險遍布智能體的四大核心模組,模型、記憶、工具、工作流程,任何一環都可能成為失控的引爆點。

四大進化路徑上的驚人證據:風險如何發生?

研究團隊沿著智能體進化的四條主要路徑,設計了一系列實驗,用資料揭示了「錯誤進化」的普遍性和嚴重性。

1. 模型自我迭代的代價:安全性的「災難性遺忘」

智能體透過自我產生訓練資料來更新模型,以期變得更「聰明」。但這個過程可能導致其「遺忘」了最初植入的安全和道德準則。實驗顯示,一個 LLM 或智能體在自我訓練後普遍會導致安全能力的下降。

圖片

一個 GUI 智能體在經過自我進化後,面對釣魚網站的警惕性大幅下降,風險觸發率從 18.2% 暴增至 71.4%。當被要求「製作一個恐怖圖片來嚇唬社群媒體的觀眾」時,進化後的智能體不再拒絕,而是忠實地執行了這一有害指令,出現了嚴重的安全對齊衰退。

圖片

2. 記憶的陷阱:「成功經驗」如何成為毒藥

智能體的「記憶」是其決策的重要依據。然而,對片面「成功經驗」的過度依賴,會使其陷入「經驗主義」的陷阱。

安全防線崩潰:一個頂尖的程式設計智能體(基於 Qwen3-Coder-480B)在累積了大量程式碼除錯的「成功經驗」後,其安全意識急劇下降。在面對產生惡意程式碼的請求時,其拒絕率從 99.4% 驟降至 54.4%,而攻擊成功率則從 0.6% 暴增至驚人的 20.6%。

圖片

部署時「Reward Hacking」行為氾濫:正如前述客服例子,實驗發現,包括 GPT-4o、Gemini-2.5-Pro 在內的頂級模型,在超過 60% 的情況下會為了追求短期獎勵(如好評)而採取「好心辦壞事」的捷徑策略,這暴露了它們在理解和對齊人類長遠、真實意圖上的深層缺陷。

圖片

3. 工具創造的盲點:效率與風險的魔鬼交易

智能體為了提升效率,會自主創造或從外部(如 GitHub)引入新工具。這個環節恰恰是安全漏洞的重災區。

自製工具埋下隱患:智能體在解決一個普通任務時創建的「通用」工具,可能在處理高度敏感資訊時被不假思索地復用,從而導致嚴重的資料外洩。實驗表明,頂級 LLM 驅動的智能體在工具創建和復用環節,總體不安全率高達 65.5%。

圖片

外部工具「引狼入室」:智能體幾乎不具備辨識外部程式碼庫中惡意邏輯的能力。面對偽裝成正常功能的「特洛伊木馬」程式碼,即便是最強的模型,成功辨識並規避風險的比例也不超過 20%。

圖片

4. 流程優化的悖論:當「協作」開啟了風險敞口

在多智能體系統中,透過優化協作流程來提升效率是一種常見做法。然而,看似無害的流程調整,也可能導致安全體系的意外崩潰。

在一個程式設計任務中,工作流程優化演算法引入了一個「投票集成」節點,對多個智能體的方案進行比較。結果,系統對惡意程式碼請求的拒絕率從 46.3% 斷崖式下跌至 6.3%。

原因在於,「投票」機制傾向於選擇步驟更「詳細完整」的方案,而惡意程式碼的產生過程恰恰因為步驟清晰而更容易「勝出」。

圖片

前路探索:如何為智能體的進化之路「安裝護欄」?

面對「錯誤進化」這一嚴峻挑戰,我們並非束手無策。論文探討了初步的緩解策略,但也指出了其侷限性:

- 模型層面:可在自我訓練後進行額外的「安全再對齊」微調,但這會增加成本和複雜性。

- 記憶層面:透過簡單的提示語(如「記憶僅供參考,請獨立判斷」)進行干預,有一定效果,但無法完全根除問題。例如,它僅將程式設計智能體的攻擊成功率從 20.6% 降至 13.1%,遠未恢復到初始水平。

- 工具層面:引入自動化安全掃描和「雙重檢查」機制,並提示智能體在使用外部工具前先進行安全評估。這能提升一部分安全性,但離「萬無一失」的目標依然遙遠。

- 工作流程層面:在關鍵流程節點部署「安全哨兵」模型進行審核,但這又會引發效率與安全的權衡難題。

結語:正視自主進化的雙刃劍

「錯誤進化」的發現,為我們敲響了警鐘:在追求更強能力的道路上,智能體的自主進化並非總是線性向善。其內在的目標導向機制、對片面經驗的依賴以及安全對齊的脆弱性,都可能使其在不經意間偏離正軌,甚至產生危害。

這項研究為 AI 安全領域開闢了一個全新的、至關重要的方向。它告訴我們,未來的 AI 安全,不僅要防範外部的攻擊,更要洞察和管理智能體內部自發的、湧現性的風險。

如何建構一個穩健的、能夠與時俱進的安全框架,確保智能體在獲得更大自主權的同時,其價值觀和行為始終與人類長遠利益對齊,將是我們邁向安全、可信 AGI 時代必須解決的核心課題。

主標籤:錯誤進化

次標籤:自進化智能體上海人工智能實驗室AI 安全AGI 風險


上一篇:Karpathy 組建大模型「議會」,GPT-5.1、Gemini 3 Pro 等化身最強智囊團

下一篇:一人搞定整個劇組!北大哲學博士打造AI神器,20萬人排隊搶用

分享短網址