LSTM之父22年前構想將成真？AI「自我演化」論文一週內集中發表，新趨勢湧現？

機器之心報導

編輯：張倩、+0

讓 AI 實現自我演化是人類一直以來的夢想。

早在 2003 年，AI 先驅、LSTM 之父 Jürgen Schmidhuber 就提出過一種名為「哥德爾機（Gödel Machine）」的構想——它使用一種遞迴的自我改進協定，如果能夠證明新程式碼的策略較佳，就會重寫自己的程式碼。但這終究只是一個假想。

近年來，關於模型自我學習、演化的研究逐漸多了起來，很多研究者的目標在逐漸從單純的「訓練模型」向「讓模型學會自我學習和自我演化」轉變，谷歌最近發布的 AlphaEvolve 就是其中的重要代表。

在過去的一週，這一方向的進展尤其豐富。有人發現，幾篇關於「讓 LLM（或智能體）學會自我訓練」的論文在 arXiv 上集中出現，其中甚至包括受「哥德爾機」構想啟發而提出的「達爾文哥德爾機」。或許，AI 模型的自我演化能力正在加速提升。

在這篇文章中，我們將詳細介紹最近的幾篇論文，它們分別是：

Sakana AI 與不列顛哥倫比亞大學等機構合作的「達爾文哥德爾機（DGM）」：DGM 利用基礎模型和開放式演算法來創建和評估新的 AI 智能體，並能夠讀取和修改自身的 Python 程式碼庫以進行自我改進，還透過評估在編碼基準上的效能來判斷更改是否有效。實驗表明，DGM 可以持續自我改進，並能在不同模型和程式設計語言之間實現遷移。

CMU 的「自我獎勵訓練（SRT）」：提出了一種名為「自我獎勵訓練」的線上自我訓練強化學習演算法，旨在讓大型語言模型透過自身的判斷訊號進行自我監督和訓練，從而在沒有外部標籤的情況下提升效能。

上海交通大學等機構提出的多模態大型模型的持續自我改進框架「MM-UPT」：在完全無監督場景下，透過強化學習框架 GRPO 實現多模態大型模型的持續自我改進。他們提出了一種簡潔而高效的框架：MM-UPT（Multi-Modal Unsupervised Post-Training），並在多個圖文數學推理 benchmarks 上驗證了其有效性。

香港中文大學聯合 vivo 等機構的自改進框架「UI-Genie」：旨在解決 GUI 智能體中的兩大核心挑戰：一是軌跡結果的驗證十分困難，二是高品質訓練資料的規模化獲取不易。針對這兩個挑戰，研究團隊分別提出了一種獎勵模型和一個自改進流水線。

達爾文哥德爾機：讓 AI 透過重寫自己的程式碼實現自我改進

論文標題：Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents

論文連結：https://arxiv.org/abs/2505.22954

部落格：https://sakana.ai/dgm/

人工智慧研究的一個長期目標是創造能夠持續學習的 AI 系統。實現這一目標的一條誘人路徑是讓 AI 透過重寫自身程式碼（包括負責學習的程式碼）來實現自我改進。這一由 Jürgen Schmidhuber 數十年前提出的構想被稱為「哥德爾機」，是一種假想中的自我改進型 AI。當它在數學上證明存在更優策略時，它會透過遞迴地重寫自身程式碼來最佳化問題解決方案，因此成為元學習（即「學會學習」）領域的核心概念。

雖然理論上的哥德爾機能確保可證明的良性自我修改，但其實現依賴於一個不切實際的假設：AI 必須能在數學上證明程式碼修改會帶來淨效益才會實施變更。

針對此問題，Sakana AI 與不列顛哥倫比亞大學 Jeff Clune 實驗室合作，提出了一種更可行的方案：利用達爾文演化等開放式演算法的原理，透過實證檢驗來尋找能提升效能的改進方法。

他們將這一成果命名為「達爾文哥德爾機（DGM）」。DGM 系統利用基礎模型提出程式碼改進方案，並採用開放式演算法的最新創新來搜尋不斷增長的多樣化優質 AI 智能體庫。實驗表明，DGM 獲得的算力越多，自我改進效果就越顯著。鑒於依賴學習的 AI 系統終將超越人工設計系統這一明確趨勢，DGM 很可能在短期內超越人工設計的 AI 系統。

第一個 DGM 是一個編碼智能體，它能夠：

讀取並修改自己的程式碼；

評估修改是否提高了效能；

開放式地探索 AI 設計空間。

達爾文哥德爾機是一種透過重寫自身程式碼來提升程式設計任務效能的自我改進型程式設計智能體。它能實現多種自我改進，包括：增加修補驗證步驟、最佳化檔案檢視功能、增強編輯工具、生成並排序多個解決方案以選擇最佳選項，以及在實施新修改時記錄歷史嘗試記錄（包括失敗原因）。

達爾文哥德爾機透過運用開放式探索原則，逐步構建起一個不斷擴增的智能體庫。該系統透過交替執行自我修改與下游任務評估的方式，持續創建新智能體並對其進行評分。

在 sw-bench 上，DGM 自動將其效能從 20.0% 提高到 50.0%。在 Polyglot 上，DGM 的表現從最初的 14.2% 躍升至 30.7%，遠遠超過了 Aider 手工設計的代表性智能體。這些可觀的收益證明了 DGM 發現並實現對其自身程式碼的有益更改的能力。

模型的自我獎勵訓練：潛力、崩潰與緩解策略

論文標題：Can Large Reasoning Models Self-Train?

論文連結：https://arxiv.org/abs/2505.21444

專案地址：https://self-rewarding-llm-training.github.io/

程式碼地址：https://github.com/tajwarfahim/srt

資料集：https://huggingface.co/collections/ftajwar/self-rewarding-llm-training-6835218091832c3664176553

透過可驗證獎勵進行的強化學習顯著增強了大型語言模型的推理能力，尤其是在數學和編碼方面。然而，這種方法依賴於人工創建的真實標籤驗證器，這使得為每個問題生成獎勵訊號的成本高昂且受到限制。在這項工作中，研究團隊提出以下問題：

推理模型能否僅使用自身的反饋進行自我訓練，而無需存取真實標籤？

自我訓練的效能能否達到基於真實標籤的強化學習訓練的水平？

自我訓練能否無限期持續？其改進最終是否會受到限制？

哪些策略可以有效地維持模型的自我訓練？

自我獎勵訓練（SRT）

受先前基於一致性自我提升研究的啟發，研究團隊引入了一種簡單而有效的自我訓練強化學習方法論，稱為自我獎勵訓練（Self-Rewarded Training，SRT）。該方法在強化學習訓練期間，透過模型生成的多個解決方案之間的一致性來評估正確性，從而在沒有標註資料的情況下提供自監督訊號。

SRT 概覽。在 RLVR 方法中，系統透過真實驗證器生成用於強化學習訓練的獎勵訊號。與之相反，SRT 方法並不依賴真實驗證器，而是透過模型自身生成結果的多數投票機制來估算真實值，並利用這一替代性獎勵訊號來訓練模型。

SRT 與早期訓練階段的 RL 效能相匹配

研究團隊透過經驗證明，在早期訓練階段，SRT 能夠達到與那些在黃金標準答案上進行顯式訓練的標準強化學習方法相媲美的效能。測試資料集包括：AMC、AIME24、AIME25。然而，研究團隊發現其效能最終會崩潰，例如在最右圖中展示的 DAPO 資料集上的訓練情況。

自我訓練必然會崩潰

研究團隊分析了 SRT 在具有挑戰性的 DAPO 資料集上訓練時的訓練動態。

這些發現表明，模型透過產生一致（見上方第二個圖）但錯誤（見上方最左圖）的答案來學習最大化自我分配的獎勵。人工檢查證實了這一點：在崩潰之後，模型的輸出會退化為隨機的詞元序列，並帶有一個固定的、與提示無關的答案（例如，「答案是 1」）。這種行為有一個簡單而精確的理論依據：

由 SRT 目標定義的強化學習最佳化問題明確鼓勵輸出之間的一致性，而不考慮其正確性。因此，在該目標下的最佳策略會退化為無論輸入如何都產生相同的答案，從而人為地最大化獎勵。在這種代理 (proxy) 目標上持續進行自我訓練，自然會驅動模型朝向這種平凡解 (trivial solution) 發展，特別是當這種解比解決實際任務更簡單時。

緩解策略可能是有效的

研究團隊提出了一些策略來緩解獎勵作弊 (reward hacking)，為未來維持模型持續改進的有效方法奠定基礎。

（i）早停（Early Stopping）：一個小的驗證集可以可靠地偵測到模型的最佳效能點，並防止在自我訓練過程中發生崩潰。對於所有的留出集（heldout sets），最佳效能點幾乎出現在同一位置，因此使用任何一個留出集進行早停都是有效的。

（ii）使用離線生成的標籤進行自我訓練：一種有效的方法是從一個穩定的、先前固定的檢查點生成偽標籤，而不是利用來自演進中的策略的標籤。這樣做可以穩定訓練，同時達到與 SRT 相當的效能。

（iii）結合課程學習的自我訓練：研究團隊假設，在更具挑戰性的資料集上訓練時，模型崩潰會發生得更快，這一推測與研究團隊的經驗性發現一致。其直覺是，在更具挑戰性的資料集上，模型更容易放棄其預訓練知識，轉而最佳化自我一致性，而不是真正學習解決潛在的任務。研究團隊利用這一假設，透過根據（a）透過率和（b）多數投票的頻率來識別 DAPO 資料集中「最簡單」的子集，從而實施一種課程學習策略（更多細節請參閱論文）。

在這些課程子集上的效能達到了與在整個 DAPO 資料集上使用真實標籤進行標準強化學習訓練相當的水平。這些富有前景的結果表明，課程學習策略可能會進一步擴展 SRT 的益處，為未來的研究開闢了激動人心的途徑。

MM-UPT：多模態大型模型的持續自我演化

論文標題：Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

論文連結：https://arxiv.org/abs/2505.22453

專案程式碼：https://github.com/waltonfuture/MM-UPT

近年來，多模態大型語言模型在視覺問答、圖文推理等任務上取得了顯著進展。然而，要在這些強大的基礎模型之上進一步提升效能，往往需要依賴高品質人工標註資料進行監督微調或強化學習，這在成本與可擴展性上面臨嚴峻挑戰。過往研究雖然探索了無監督後訓練方法，但大多流程複雜、難以迭代、資料利用率低。

在這篇論文中，作者首次探索了在完全無監督場景下，透過強化學習框架 GRPO 實現多模態大型模型的持續自我改進。他們提出了一種簡潔而高效的框架：MM-UPT（Multi-Modal Unsupervised Post-Training），並在多個圖文數學推理 benchmarks 上驗證了其有效性。

MM-UPT 的核心思想主要為以下兩個關鍵點：

強化學習中的 GRPO 提供了穩定高效的線上策略最佳化能力；

多數投票可以在無標籤資料上為模型輸出生成偽標籤，驅動自我最佳化。

整個流程如下：

給定一張圖片和一個問題，模型生成多個候選回答；

使用多數投票選出出現頻率最高的回答，作為當前輸入的「偽標籤」；

使用這個「偽標籤」來計算 reward，引導模型根據 GRPO 策略更新；

這整個過程無需任何外部監督訊號或真實答案，使得模型可以基於自身的「共識」行為進行強化學習，從而實現持續的效能提升。

作者在四個多模態數學推理基準測試集（MathVisioan、MathVista、We-Math、MathVerse）上進行了廣泛實驗。表格 1 的結果顯示：

在使用標準的訓練集但不使用任何人工標註答案的情況下，MM-UPT 可以使 Qwen2.5-VL-7B 的準確率從 66.3% 提升至 72.9%（MathVista）；

超過之前的無監督自我改進方法（如 Genixer、STIC、SRLM 等）；

表現甚至媲美有監督的 GRPO；

在標準資料集上遮蓋答案進行無監督訓練後，作者進一步探究了一個更具挑戰性的問題：模型能否透過自己生成訓練資料來實現自我提升？為此，MM-UPT 引入了兩種簡單的合成資料生成策略：

In-Context Synthesizing（上下文引導生成）

模型在給定圖像、原問題和原答案的前提下生成一個新的問題。生成的問題與原問題在結構上相近，相當於進行語義改寫或條件替換來進行資料增強。

Direct Synthesizing（直接生成）

僅提供圖像輸入，模型完全基於圖片內容生成問題。這種方法生成的問題更加多樣，但也存在一定機率的幻覺。無論使用哪種方式生成問題，MM-UPT 都採用多數投票生成偽標籤，驅動模型進行強化學習更新。

表格 2 中的結果顯示：即便訓練資料完全由模型自己生成，MM-UPT 仍然能顯著提升多模態推理能力，甚至在部分任務上超越使用原始問題的資料。這表明，多模態大型模型具備一定的「自我提問 + 自我最佳化」的潛力，為未來依靠 AI 自行生成訓練語料進行自我演化的範式提供了堅實基礎。

MM-UPT 為什麼有效？作者用一個簡單的例子解釋了其有效性。假設模型對某個二分類問題，模型每次預測正確的機率較高，。從該模型獨立取樣個回答，多數投票選出出現頻率最高的答案作為偽標籤。定義隨機變數表示預測正確的次數，則多數投票正確的機率為：

由於，有：

即：多數投票比單次預測更可靠。這就是 MM-UPT 中用多數投票作為偽標籤的合理性所在 —— 它可以構造一個有效的自監督獎勵訊號。但作者也指出了邊界條件：當模型對任務缺乏先驗時（如在 ThinkLite-11K 這種困難的資料集上），多數投票會反而強化錯誤預測，導致效能下降。

總的來說，MM-UPT 為多模態大型模型的後訓練階段提供了一種無需人工標註、無需外部獎勵模型的自我提升方式，展現了強化學習在無監督場景下的潛力。後續可以探索結合更強的自我評估機制（如 LLM-as-a-Judge）、複雜 reward 設計等，進一步拓展 MM-UPT 框架的能力邊界。

UI-Genie：賦能 GUI 智能體高效自改進的新框架

論文標題：UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

論文連結：https://arxiv.org/abs/2505.21496

專案地址：https://github.com/Euphoria16/UI-Genie

在這篇論文中，研究團隊介紹了一種名為 UI-Genie 的自改進框架，旨在解決 GUI 智能體中的兩大核心挑戰：一是軌跡結果的驗證十分困難，二是高品質訓練資料的規模化獲取不易。針對這兩個挑戰，研究團隊分別提出了一種獎勵模型和一個自改進流水線。

該獎勵模型，即 UI-Genie-RM，採用了一種圖文交錯的架構，能夠高效處理歷史上下文信息，並統一了動作級別和任務級別的獎勵：

透過迭代式合成軌跡生成，消除人工標註

透過自改進循環，共同演進智能體和獎勵模型

無需人工干預即可生成高品質資料集

為了支援 UI-Genie-RM 的訓練，研究團隊開發了精心設計的資料生成策略，包括基於規則的驗證、受控的軌跡損壞以及難負例挖掘。

為應對第二個挑戰，研究團隊設計了一個自改進流水線，透過在動態環境中進行獎勵引導的探索和結果驗證，逐步增強智能體和獎勵模型的能力，從而擴展可解決的複雜 GUI 任務範圍。

在模型訓練方面，研究團隊生成了 UI-Genie-RM-517k 和 UI-Genie-Agent-16k 資料集，這不僅是首個針對 GUI 智能體的獎勵專用資料集，同時也展示了無需人工標註即可生成高品質合成軌跡的能力。

UI-Genie 資料集統計資訊。UI-Genie-RM-517k 是首個專用於 GUI 智能體的獎勵資料集，而 UI-Genie-Agent-16k 則包含了無需人工標註的合成軌跡。

實驗結果表明，經過三代資料與模型的自改進迭代，UI-Genie 在多個 GUI 智能體基準測試中均達到了業界領先水平。研究團隊已將完整的框架實現和生成資料集開源，以促進該領域的進一步研究。

UI-Genie、Qwen2.5-VL 和 UI-TARS 在三個基準上的效能比較。

關於模型自我改進的論文還有很多，如果你也在做相關研究，歡迎在評論區留言推薦自己的工作。

轉載請聯繫本公眾號獲得授權

投稿或尋求報導：liyazhou@jiqizhixin.com

LSTM之父22年前構想將成真？AI「自我演化」論文一週內集中發表，新趨勢湧現？

分享短網址