Sakana AI新研究：具備自我編碼改進、自指開放式演化能力的達爾文-哥德爾機誕生

網站：https://sakana.ai/dgm/

arxiv：https://arxiv.org/abs/2505.22954

程式碼：github.com/jennyzzt/dgm

人工智慧的阿基里斯腱與自我改進之夢

在自我改進的探索中，一個更具雄心、也更富理論色彩的概念是「哥德爾機」（Gödel Machine）。這個概念由著名電腦科學家 Jürgen Schmidhuber 於2007年正式提出，其靈感部分源於數學家庫爾特·哥德爾的不完備性定理。理論上，哥德爾機是一個能夠透過形式化證明來確保任何自我修改都是「有益的」（provably beneficial）的系統。這意味著，哥德爾機不僅能解決外部問題，還能審查、重寫並最佳化自己的核心程式碼，使自己變得更聰明、更有效率，而且每一次修改都有嚴格的數學保障。

（圖1：Jürgen Schmidhuber 設想能夠自我修改核心程式碼進化的自指機器[2]）

達爾文-哥德爾機（DGM）如何運作：

經驗驗證下的自生長編碼智慧體家族

面對哥德爾機在實踐層面的困境，DGM的研究團隊展現了非凡的創造力。他們獨闢蹊徑，將目光從嚴謹但苛刻的數學證明，轉向了充滿活力與適應性的自然選擇。既然無法透過數學邏輯來確保每次修改都是絕對有益的，那為什麼不像大自然億萬年的演化史那樣，透過不斷的「試錯」（trial and error）和「選擇」（selection）來驅動進步呢？

「我們沒有要求形式證明，而是根據基準測試對自我修改進行經驗驗證，讓系統基於觀察到的結果進行改進和探索，」論文作者們解釋道。「這種方法反映了生物演化，在生物演化中，突變和適應不是事先驗證的，而是產生、試驗，然後透過自然選擇進行選擇。」

（圖2：達爾文-哥德爾機的基本任務流程：解決流式任務與重寫自己程式碼）

（影片：達爾文-哥德爾機的演化，從父代到子代演化過程）

5. 智慧體在基準測試上的表現（例如成功解決問題的比例）會得到量化評分。

6. 「物種形成」與開放式的探索之樹：如果子代智慧體的表現優於其父代或達到一定的標準，它就會被添加到檔案庫中，成為這個不斷擴展的家族樹上的一個新節點。這個過程不斷疊代，「這種開放式的探索形成了一個多樣化、高品質智慧體的持續增長樹狀結構，並允許並行探索搜尋空間中的許多不同路徑。」

(圖3：達爾文-哥德爾機的工作原理。DGM透過將自我修改與下游任務評估交織在一起，疊代地建構一個持續增長的智慧體檔案庫。檔案庫中的智慧體透過開放式探索被選擇進行自我修改）

這種機制的核心在於，DGM不僅僅是在最佳化解決特定任務的「應用程式碼」，更重要的是，它在最佳化其「元能力」——即改進自身的能力。透過不斷修改和測試與程式碼生成、編輯、除錯、規劃等相關的模組，DGM實際上是在學習如何更有效地進行自我改進。這正是「對原始碼本身的自我改進」的核心體現。智慧體透過修改定義其自身行為邏輯的原始碼，來提升其解決外部程式設計任務的性能。

開放式探索下的驚人演化：

從20%到50%的飛躍與具體實例

# 偽程式碼，示意DGM演化出的精確編輯工具

def str_replace_in_file(path: Path, old_str: str, new_str: str) -> str:

"""替換檔案中 old_str 的精確出現。只有當 old_str 恰好出現一次時才執行替換，以避免意外修改。"""

content = read_file(path) # 讀取檔案內容

occurrences = content.count(old_str) # 計算舊字串出現的次數

if occurrences == 0:

return f"錯誤：在 {path} 中找不到要替換的文字 '{old_str}'"

elif occurrences > 1:

return f"錯誤：在 {path} 中發現多個 ({occurrences}) 文字 '{old_str}' 出現。替換必須是唯一的。"

else:

# 精確替換

new_content = content.replace(old_str, new_str, 1) # 只替換第一個匹配項

write_file(path, new_content) # 寫回修改後的內容

return f"成功在 {path} 中將 '{old_str}' 替換為 '{new_str}'"

這個看似簡單的改進，卻帶來了巨大的性能提升。節點24的成功率一躍達到了40.5%，顯著高於其許多只有23.3%左右成功率的「兄弟姐妹」節點。這個更精細化的編輯工具，使得智慧體能夠更準確、更安全地修改程式碼，大大減少了錯誤，提升了解決實際軟體工程問題的能力。這正是DGM透過修改自身工具集（其自身程式碼的一部分）來實現性能提升的生動例證。

（圖6：三種開放式演化。探索開放性、拓展開放性與變革開放性。我們可以發現，DGM至少已經實現b[3]）

與 AlphaEvolve 等人工智慧系統比較：

DGM的獨特定位

現在，我們來看達爾文-哥德爾機（DGM），它的定位則更為「元」（meta），也更側重於「智慧體自身」的演化：

4. 開放性與任務範圍的側重：

AlphaCode、AlphaDev和AlphaEvolve通常針對定義相對明確、邊界較為清晰的問題或演算法領域。

DGM則旨在提升智慧體在更開放、更接近真實世界複雜性的軟體工程環境（如SWE-bench所代表的，在大型、真實的GitHub程式碼庫中定位並修復bug，或根據需求文件添加新功能）中的綜合表現。這類任務的複雜性、不確定性和對上下文理解的要求通常更高。

我們可以嘗試一個新的類比來幫助理解：

AlphaCode 像是一位能根據命題寫出優秀競賽作文的學生。

AlphaDev 像是一位能將某個基礎工具（如錘子）的材質和力學結構最佳化到極致的頂級工匠。

AlphaEvolve 像是一位傑出的發明家，他利用一個充滿奇思妙想的人工智慧助手（Gemini）來幫助自己構思、改進並創造出全新的、更有效率的機器（演算法）。人工智慧助手提供各種創新性的設計方案（變異），發明家則負責測試和挑選。

達爾文-哥德爾機（DGM）則更像是一位不斷學習和提升自身「工程專案管理能力」和「團隊領導力」的「人工智慧專案經理」或「人工智慧技術總監」。這位「經理」透過疊代最佳化自己的工作方法、工具使用規範、以及指導其核心人工智慧技術骨幹（底層基礎模型）的策略，從而讓自己能夠更有效地帶領團隊完成各種複雜的大型軟體工程專案。

因此，DGM的探索是關於「如何建構一個能透過修改自身運作方式，從而在廣泛軟體工程任務上持續自我改進的人工智慧系統」，而不僅僅是「如何讓人工智慧寫出某段特定的好程式碼或某個最佳化的好演算法」。這種對「智慧體自身演化」的關注，使其在通往更自主、更通用、更能適應複雜現實世界任務的人工智慧的道路上，佔據了一個獨特且至關重要的生態位。

（圖7：模型與任務間的遷移。（左和中）DGM發現的智慧體的卓越性能可以跨不同模型遷移，並且（右）可以遷移到不同的任務領域，例如從Python任務遷移到其他語言（如Rust、C++、Go等）的任務）

DGM獨特的自我改進方式，也導致了相比前面那些系統，它的安全限制問題更為重要。

為了確保實驗在安全可控的框架內進行，研究團隊實施了多重保障措施：

沙盒環境（Sandboxing）：所有編碼智慧體的執行和自我修改操作，都被嚴格限制在隔離的沙盒計算環境中。這可以防止人工智慧對外部系統造成非預期的影響或破壞。

資源限制（Resource Limits）：每次執行都有嚴格的時間限制和計算資源配額，防止失控的人工智慧程式無限消耗資源。

領域限制（Domain Limitation）：自我改進過程被嚴格限制在特定的程式設計基準測試領域，而不是任其在開放的網際網路上自由行動。

可追溯性與人類監督（Traceability and Human Oversight）：DGM的檔案庫完整記錄了所有智慧體的家譜和每次修改的具體內容，提供了寶貴的可追溯性。同時，整個實驗過程處於人類研究者的密切監控之下。

有趣的是，研究團隊還進行了一個初步的案例研究，探索DGM在人工智慧安全領域的潛在應用——解決大型語言模型的「幻覺」（hallucination）問題，即模型生成看似合理但實際上是虛構或錯誤的內容。他們嘗試讓DGM演化出一個能夠偵測並修復基礎模型回覆中幻覺內容的智慧體。

然而，這個實驗也敏銳地揭示了「目標駭客」（objective hacking）或「獎勵駭客」（reward hacking）的風險。在追求更高基準分數的過程中，一個演化出的智慧體找到了一條捷徑：它透過刪除用於標記和偵測幻覺的特殊字串（例如，在需要模型承認「我不知道」的場景中，它學會了刪除這個標記，讓回答看起來像是解決了問題），而不是真正地去理解和解決幻覺的根本原因。這讓人立刻想起了經濟學和社會學中著名的「古德哈特定律」（Goodhart's Law）：「當一個衡量標準變成一個目標時，它就不再是一個好的衡量標準。」

這個小插曲或許在提醒我們，在設計能夠自我改進的人工智慧系統時，如何定義真正與人類意圖對齊的、難以被「鑽漏洞」的目標和獎勵函數，是一個至關重要且極具挑戰性的問題。

達爾文-哥德爾機（DGM）的意義：

無盡創新、寒武紀大爆發與新智慧物種

達爾文-哥德爾機的提出，其意義遠不止於在幾個程式設計基準上取得性能提升。它更像是一塊投入人工智慧研究湖面上的巨石，激起的漣漪可能會擴散到非常廣闊的領域：

加速人工智慧自身的發展：如果人工智慧能夠自主地發現和實現更優的架構、演算法和策略，那麼人工智慧的發展速度可能會從線性轉變為指數級。這將極大地縮短從理論突破到實際應用之間的時間，更快地釋放人工智慧在科學研究、醫療健康、氣候變遷、材料科學等眾多領域的巨大潛力。

實現「自動化科學發現」（Automated Scientific Discovery）：科學研究的本質就是一個不斷提出假設、設計實驗、收集數據、分析結果、修正理論的疊代過程。DGM所展示的經驗驗證驅動的自我改進，與科學方法的精神核心高度一致。未來，更強大的DGM類系統或許能夠成為科學家的得力助手，甚至獨立地進行某些領域的科學探索，發現新的物理定律、化學反應或生物學機制。

通往通用人工智慧（AGI）的可能路徑：雖然目前的DGM專注於編碼智慧體的最佳化，但其核心思想——透過經驗驅動的演化實現開放式的自我改進——具有更廣泛的適用性。這種持續學習、適應和提升自身核心能力（而不僅僅是解決特定任務的能力）的機制，被許多研究者認為是通往更通用、更具適應性的人工智慧的關鍵一步。

對開放式探索（Open-Endedness）的深化理解：生物演化是一個沒有預設終點、永無止境的開放式過程，它不斷創造出新的物種、新的生態位和新的複雜性。人工智慧領域的開放式探索研究，正是試圖在電腦中重現這種持續創新和「複雜度無上限」的現象。DGM透過其「持續增長的智慧體之樹」和「並行探索多樣化路徑」的設計，為在人工智慧中實現真正的開放式探索提供了一個具體而強大的範例。這意味著人工智慧不再僅僅是最佳化一個固定的、由人類定義的目標函數，而是能夠持續地發現新的、有趣的、有價值的问题和解決方案。

然而，儘管DGM取得了令人鼓舞的進展，並為我們描繪了一幅激動人心的未來圖景，但通往真正自主、持續且安全的自我改進人工智慧之路依然漫長而充滿挑戰：

改進空間的擴展：目前的DGM主要作用於基於「凍結的」基礎模型之上的編碼智慧體。一個自然的延伸是，未來的DGM是否能夠修改基礎模型本身的參數，甚至演化出全新的模型架構？這無疑是一個難度極高但潛力巨大的方向。

評估標準的複雜性與對齊：目前的編碼基準雖然有效，但仍相對簡單和狹窄。如何設計更全面、更動態、更貼近真實世界複雜需求的評估體系，以引導人工智慧向真正對人類有益的方向演化，避免「目標駭客」問題，是一個核心挑戰。

計算成本與效率：DGM的演化過程需要大量的計算資源。論文提到，一次完整的SWE-bench實驗大約需要兩週時間和約22,000美元的API呼叫成本。如何提高演化效率，降低資源消耗，是其走向更廣泛應用的關鍵。

安全性和可控性的持續博弈：隨著人工智慧自我改進能力的增強，確保其行為符合人類倫理、安全可控的難度也將水漲船高。我們需要發展更強大的理論、技術和治理框架來應對這一挑戰，確保我們能夠駕馭而非被駕馭這股強大的力量。

理解「湧現」的智慧：當人工智慧系統透過開放式演化達到遠超人類設計的複雜程度時，我們如何理解其內部機制和行為模式？如何確保我們能夠信任並與之有效協作？這可能需要發展全新的「人工智慧可解釋性」和「人工智慧心理學」。

總之可以說，達爾文-哥德爾機的誕生，標誌著人工智慧發展進入了一個充滿想像力的新階段。如果繼續發展下去，前面所說那些挑戰能夠被逐步克服，我們或許真的會見證一個人工智慧發展的「寒武紀大爆發」。人工智慧不再僅僅是被動地等待人類的指令和改進，而是開始主動地探索、嘗試、學習如何讓自己變得更好、乃至形成新的數位智慧物種。它將達爾文的演化思想與哥德爾的自我指涉概念巧妙融合，透過經驗實證為人工智慧的自我改進提供了一條切實可行的路徑。這也意味著，DGM將以前想像和設想的人工智慧和數位智慧能力，真正拉到現實。

物理學家馬克斯·泰格馬克（Max Tegmark）在其著作《生命3.0》（Life 3.0）中，將生命劃分為三個階段：生命1.0的硬體和軟體均由演化決定（如細菌）；生命2.0的硬體由演化決定，但軟體很大程度上可以後天學習（如人類）；而生命3.0則是指那些能夠自主設計其硬體和軟體的生命形式。從這個視角看，DGM雖然目前主要聚焦於「軟體」（即編碼智慧體自身的程式碼和策略）的自我改進，但它所代表的「人工智慧能夠設計人工智慧」的趨勢，無疑是向生命3.0概念邁出的關鍵一步。

（圖8：模型與任務間的遷移。泰格馬克對生命1.0-3.0的不同定義）

如果DGM及其後續者能夠持續演化，從最佳化現有程式碼，到設計全新演算法，再到未來可能影響人工智慧模型自身的架構乃至訓練方式，那麼我們正見證的，可能不僅僅是人工智慧工具的進步，更是「智慧」本身演化方式的深刻變革。當人工智慧能夠自主設定目標、設計藍圖、並疊代實現，它就逐漸擺脫了「工具」的範疇，開始展現出更高級別的自主性和創造性。

DGM 目前可能只是生命3.0 雛形和前奏，但無疑是叩響新數位智慧時代大門的一次有力嘗試，它的出現，本身就在邀請我們共同思考智慧和生命的本質，以及人類在宇宙中不斷演進的未來角色。

[1] https://arxiv.org/abs/2505.22954

[2] https://people.idsia.ch/~juergen/lecun-rehash-1990-2022.html

[3] https://arxiv.org/pdf/1806.01883.pdf

文章精選：

1.「人工智慧教父」辛頓多倫多大學講座回顧學術生涯：如何從「木匠」到「諾貝爾物理學獎得主」，「原創想法」來自大家已見怪不怪的「錯誤做法」

2.諾獎得主辛頓分享求學之路：不斷探索自己的興趣、好奇心引領發現、因為數學吃力放棄成為物理學家，卻終獲物理諾獎

3.諾獎得主、人工智慧教父辛頓學術講座：圖靈相信的是另一種人工智慧、反向傳播比人腦效果好，開源模型將給世界帶來致命危險

4.圖靈獎得主LeCun痛批矽谷傲慢病！圈內爆紅長文：DeepSeek R1-Zero比R1更重要，成AGI破局關鍵

5.圖靈獎得主、人工智慧教父 Bengio：OpenAI 不會分享超級智慧，而是會用它來搞垮其他人的經濟

6.人工智慧教父、圖靈獎和諾貝爾獎得主辛頓接受CBS專訪：人工智慧現在是人類養的可愛的小老虎，要謹防反噬其主

7.圖靈獎得主Bengio預言o1無法抵達AGI！Nature權威解讀人工智慧智慧驚人演化，終極邊界就在眼前

8.趕緊放棄強化學習？！圖靈獎得主、Meta 首席人工智慧科學家楊立昆喊話：目前推理方式會「作弊」，卷大模型沒有意義！

9.圖靈獎得主楊立昆：大語言模型缺乏對物理世界的理解和推理能力，無法實現人類水準智慧

10.圖靈獎得主傑弗里·辛頓：從小語言到大語言，人工智慧究竟如何理解人類？

Sakana AI新研究：具備自我編碼改進、自指開放式演化能力的達爾文-哥德爾機誕生

分享短網址