！離AGI更近了！！0.31元人民幣運行Google的AlphaEvolve和UBC的DGM「達爾文-哥德爾機」？

最近AI圈子裡有兩個特別有意思的專案，一個是Google DeepMind的AlphaEvolve，另一個是UBC大學的Darwin Gödel Machine（簡稱DGM）。

假期我花了0.31元人民幣，用Deepseek模型運行了一遍這兩個系統。結果讓我感到很震撼：

AlphaEvolve在3分鐘內將一個函數最佳化演算法的效能提升了8.52%

DGM更是將排序演算法的效能提升了345%——從簡單的泡沫排序直接演化成了高度最佳化的快速排序

就像看到AI在我面前重新發明了演算法。

成本對比震撼：DGM的官方實驗運行一次需要大約2.2萬美元的運算成本，而我用國產的Deepseek模型。僅僅花費了0.31元人民幣就體驗到了AI自我改進的核心能力，先別急著跟我爭辯，如果您也需要用Claude 3.6 sonnet和o3-mini運行SWE-bench花費0.31元人民幣斷然是不夠的，我說的是體驗，運行DGM主要程式碼並使用Deepseek-R1-0526模型進行體驗。

這讓我看到了一個重要訊號：AI自我改進技術正在加速，加速！加速。。。

更讓我感到震撼的是，AlphaEvolve能夠56年來首次改進Strassen矩陣乘法演算法——這可是1969年以來數學界的一個開放問題啊！這兩個系統有個共同的目標：讓AI自己改進自己的程式碼，不再需要我們人類手把手地最佳化演算法。

AlphaEvolve高階概覽

Darwin Gödel Machine系統概覽。DGM透過交替進行自我修改和下游任務評估，迭代建構不斷增長的智慧代理人檔案庫。

什麼是「自我改進」的AI？不是調整參數那麼簡單

您可能會想，AI自我改進不就是自動調整參數嗎？但這兩個系統做的事情完全不一樣。

傳統方式 vs 自我改進：

傳統AutoML/超參數最佳化：在人類設計的框架內打轉，就像給車換不同的輪胎，但車的基本結構不變

AlphaEvolve和DGM：讓車自己決定要不要長翅膀、要不要變成潛水艇，甚至重新設計整個交通工具的概念

這種自我改進的核心在於，系統能夠修改自己的原始碼，而不僅僅是調整參數。這意味著什麼？

意味著AI可以改變：

自己的演算法邏輯

工具組合

整個工作流程

複雜的數學運算

人類尚未發現的未知領域

。。。

就像一個程式設計師不僅能偵錯程式碼，還能重構架構、發明新的程式設計範式一樣。

AlphaEvolve：科學發現的演化引擎

Google是怎麼讓AI「演化」程式碼的

AlphaEvolve的工作方式其實挺像生物演化的，但比自然選擇聰明多了。

核心機制：

程式資料庫：存著各種不同版本的演算法程式碼

突變操作員：用Gemini 2.0這樣的大型語言模型分析現有程式碼，提出改進建議

自動評估：透過評估函數篩選，只有表現更好的程式碼才會被保留

完全自動化的演化迴圈：

提示取樣器從程式資料庫中選擇表現好的程式碼作為「父代」

大型語言模型基於這些程式碼和任務上下文生成新的程式碼修改（以diff格式輸出）

評估器運行這些新程式碼並評分

優秀的程式碼被加入資料庫

您可以把它想像成一個永不停止的程式碼審查和重構過程，只不過參與者都是AI。

AlphaEvolve發現過程的詳細檢視

從矩陣乘法到數學難題，AlphaEvolve都能解決

AlphaEvolve最讓人印象深刻的成果是什麼？它解決了一大堆人類專家幾十年都沒解決的問題。

矩陣乘法的歷史突破：

歷史問題：4×4矩陣相乘的最佳演算法一直是開放問題

Strassen演算法：1969年提出，需要49次純量乘法，56年來無人改進

AlphaEvolve突破：找到了只需48次乘法的演算法，複數域上的重大突破

AlphaEvolve與前一代系統FunSearch的能力對比

更廣泛的數學成就：研究者把AlphaEvolve應用到了50多個數學建構問題上：

Erdős的最小重疊問題

11維接吻數問題

各種幾何包裝問題

成功率引人注目：

75%的問題：重新發現了已知最佳解

20%的問題：找到了比已知方案更好的建構

這個成功率說明什麼？說明AI已經具備了在某些領域超越人類專家的發現能力。

AlphaEvolve發現的突破性數學建構範例

演化不是隨機搜尋，是有策略的探索

您可能覺得這聽起來像是暴力搜尋，但實際上AlphaEvolve的策略相當精妙。

評估級聯機制：

新生成的解決方案先在簡單測試案例上驗證

只有通過了才會進入更複雜的評估階段

就像招聘時的多輪面試，避免浪費運算資源

多目標最佳化策略：

同時追求多個評估指標的提升

即使只關心一個特定指標，多目標最佳化往往效果更好

不同評估標準產生結構不同的優秀程式，激發大型語言模型更有創意的解決方案

AlphaEvolve發現更快矩陣乘法演算法的程式碼變化過程

驗證AlphaEvolve，結果如何？

從理論到現實：一個函數最佳化任務的演進過程

說了這麼多理論，您可能好奇這些系統實際運行起來是什麼樣子。

我的實驗設定：

模型：Deepseek-V3

專案：AlphaEvolve的開源版本OpenEvolve（見文末Reference）

任務：經典的函數最小化問題

時間：大約3分鐘

疊代次數：5次程式碼演化

結果確實讓人印象深刻——不是那種誇張的「驚人」，而是實實在在看得見的改進。

上下滑動查看更多

Slide left and right to see more

圖：AlphaEvolve（OpenEvolve）使用Deepseek模型進行函數最佳化的實際運行過程

數據不會說謊：從0.9035到0.9886的飛躍

效能提升數據：

初始演算法評分：0.9035

5次疊代後：0.9886

提升幅度：8.52%

您可能覺得這個提升看起來不大，但要知道，這是在一個已經相當最佳化的基準任務上實現的改進。在實際的工程場景中，8%的效能提升往往意味著：

數百萬的成本節約

使用者體驗的顯著改善

更有趣的權衡策略：系統在不同維度上的表現：

speed_score：從1.0000降到0.9229（略有下降）

value_score、distance_score、standard_deviation_score：都有顯著提升

這說明AI學會了透過稍微增加運算複雜度來換取更好的解決方案品質——這種權衡策略正是優秀程式設計師會做的決策。

真實世界的不完美：錯誤處理和系統穩健性

運行過程中出現了一些有趣的現象，這讓我們看到了系統的真實表現。

語法錯誤處理：

系統生成的某些程式碼變體包含語法錯誤（比如括號未閉合）

這在自動程式碼生成中很常見

關鍵是：AlphaEvolve的評估系統能夠自動偵測這些錯誤

捨棄有問題的程式碼，繼續用其他有效的變體演化

工程化問題：

遇到了Unicode編碼問題（Windows環境下常見）

不影響核心演算法執行

提醒我們：將研究原型部署到生產環境時，仍需考量各種工程化問題

DGM：真正的「自我指涉」改進系統

從理論到實踐，Gödel機器的現實版本

Darwin Gödel Machine的名字聽起來就很有學術風格，它的靈感來自Schmidhuber在2006年提出的Gödel機器理論。

理論 vs 實踐的轉換：

原始Gödel機器：要求系統在修改自己之前必須能夠數學證明這種修改是有益的

現實問題：這在實踐中幾乎不可能做到

DGM的創新：放棄數學證明要求，改用經驗驗證——透過程式設計基準測試判斷修改效果

DGM的核心特徵：自我指涉性

DGM和AlphaEvolve最大的不同在於「自我指涉性」：

DGM不僅要解決程式設計任務

還要改進自己解決程式設計任務的能力

而改進自身的過程本身就是一個程式設計任務

這形成了一個遞迴迴圈：

更好的程式設計能力 → 更好的自我改進能力 → 更好的程式設計能力

精妙之處：下游任務的改進直接反映了系統自我改進能力的提升

開放式探索：為什麼要保留「失敗」的嘗試

DGM採用了一種叫做「開放式探索」的策略，這點特別值得注意。

核心理念：

系統維護一個包含所有歷史智慧代理人的檔案庫

即使某些智慧代理人在當時看起來表現不佳，也不會被捨棄

原因：看似「失敗」的嘗試可能包含有價值的創新點

DGM的自動改進過程

真實案例證明：在SWE-bench實驗中：

DGM在第4次和第56次疊代時效能都出現了暫時下降

系統沒有回復到之前的版本

繼續基於這些「退步」的版本進行探索

結果：這些看似退步的分支最終產生了超越所有前代的優秀智慧代理人

就像科學研究中的「偶然發現」——很多重大突破都來自於看似失敗的實驗。

從20%到50%，DGM在程式設計任務上的突破

基準測試表現：

SWE-bench：從20.0%提升到50.0%

Polyglot：從14.2%提升到30.7%

但更重要的是它是怎麼做到的——系統自動發現了：

自動發現的改進：

更精細的檔案編輯工具（支援按行檢視和字串取代）

改進的多輪嘗試機制

同儕審查機制（用另一個FM來評估和選擇最佳解決方案）

關鍵點：這些改進都不是人類預先設計的，完全是系統在自我探索過程中發現的。

自我改進和開放式探索使DGM能夠持續進步

DGM實踐：從泡沫排序看AI演化之路

345%效能提升背後的智慧決策

相比AlphaEvolve的漸進式最佳化，DGM展現出了更加激進的自我改進策略。

我的實驗結果：

模型：Deepseek

任務：排序演算法最佳化演示

疊代輪次：3輪

效能跨越：從16.97到83.63

整體提升：345.4%

更重要的是，我們可以清楚地看到AI是如何一步步進行「演算法重構」的，這種改進遠遠超出了傳統的參數調整範疇。

上下滑動查看更多

Slide left and right to see more

圖：DGM使用Deepseek模型進行排序演算法自我改進的完整過程

不是參數調整，是演算法重新發明

第一輪改進：最震撼的演算法典範轉變

AI直接放棄了原來的泡沫排序實作，完全重寫成了疊代式快速排序。

這不是簡單的程式碼最佳化，而是演算法典範的根本轉變：

從：O(n²)的泡沫排序

到：O(n log n)的快速排序

AI自己「意識到」了泡沫排序的本質缺陷，並選擇了更適合的演算法結構。這種決策能力已經接近了一個資深演算法工程師的水準。

第二輪和第三輪：精深的演算法最佳化

展現了AI對演算法細節的精深理解：

混合排序策略：小陣列用插入排序

三數取中的基準選擇

堆疊空間使用模式最佳化

這些都是教科書級別的快速排序最佳化技巧，證明AI已經掌握了演算法設計的核心原理，而不僅僅是在模仿現有程式碼。

真實的探索過程：有進有退才是常態

DGM的運行過程真實地反映了探索的不確定性。

效能波動的真實性：

第三輪評分：83.63

第二輪評分：91.36

現象：第三輪實際上比第二輪有所下降

系統行為：沒有簡單地回復到前一個版本

這種「容忍暫時退步」的策略正是開放式探索的精髓——有時候看似的退步可能為更大的突破鋪路。

多維度權衡能力：我們可以觀察到AI在不同維度上的權衡策略：

演算法正確性

執行效率

程式碼可讀性

記憶體使用

這種多目標最佳化的能力說明，DGM已經具備了相當成熟的工程判斷力。

專用vs通用兩套系統的核心差異

應用領域的分化：科學發現 vs 程式設計智慧代理人

雖然AlphaEvolve和DGM都採用演化演算法和LLM驅動的程式碼修改，但它們的應用重點完全不同。

AlphaEvolve：科學發現引擎

定位：專門解決有明確評估標準的科學和工程問題

應用領域：

矩陣乘法

數學建構

系統最佳化

強項：能夠處理各種不同問題類型，從數學證明到工程最佳化

DGM：通用智慧代理人

定位：建構能夠持續自我改進的系統

專注領域：程式設計任務

核心假設：如果系統能夠更好地編寫程式碼，就能更好地改進自己

理論潛力：具有無限改進潛力的自我指涉設計

技術架構的不同選擇

AlphaEvolve的架構特點：

分散式非同步架構：可以同時運行數千個評估任務

適用場景：運算密集型的科學問題

評估級聯：先用簡單測試篩選，再進行深度評估

優勢：大大提高效率

DGM的架構特點：

相對簡單的架構：但在「開放式探索」下功夫

父代選擇機制：考量效能表現和已有子代數量

平衡策略：既利用優秀解決方案，又保持探索多樣性

可追溯性：每個智慧代理人的修改歷史都有完整記錄

實際應用：這些系統能為您的AI專案帶來什麼

AlphaEvolve的工程價值：從演算法最佳化到系統加速

如果您正在開發需要高效能運算的AI產品，AlphaEvolve展示的能力就很有參考價值。

Google的實際應用：研究者用它最佳化了Google運算堆疊的多個關鍵元件：

資料中心排程演算法

LLM訓練用的矩陣乘法核心

TPU內部的算術電路

Transformer的注意力機制運算加速

這些都是實際生產環境中的關鍵瓶頸，任何微小的改進都能帶來巨大的經濟價值。不過，AlphaEvolve的原始碼是需要向Google申請的，以上運行的openEvolve版本僅是重現。

對您專案的啟示：如果把AlphaEvolve應用到您的推論服務最佳化上，系統可能會自動發現：

新的批次處理策略

記憶體管理方法

您從未想過的演算法組合

關鍵優勢：這種最佳化是端到端的，不需要您預先定義搜尋空間，系統會自己探索各種可能性。

DGM的產品啟示：自我改進的智慧代理人架構

DGM的價值更多體現在系統架構層面。

應用場景舉例：如果您在建構複雜的AI智慧代理人系統，比如：

您的客服機器人不僅能回答使用者問題

還能根據使用者回饋自動改進自己的對話策略

最佳化知識檢索方法

甚至改進整個互動流程

實證：DGM證明了這種自我改進並非空想：

SWE-bench：表現已經接近開源SOTA水準

Polyglot：甚至超越了人類專家長期最佳化的Aider工具

這說明，給AI足夠的自主權和合適的回饋機制，它確實能夠實現持續的自我提升。

DGM發現的改進可以在不同模型和任務間遷移

挑戰：理想很豐滿，現實很骨感

運算成本：燒錢的自我改進

說到實際部署，我們不得不面對一個現實問題：這些系統的運算成本都不低。

成本現狀：

DGM：SWE-bench上一次完整運行需要大約2週時間，API呼叫費用本文開頭時所示，2.2萬美元

AlphaEvolve：雖然在取樣效率上有所改進，但對於複雜問題仍然需要大量的大型語言模型呼叫

投資報酬思考：換個角度想，如果系統能夠自動發現像矩陣乘法演算法那樣的突破性改進，這種一次性投入是完全值得的。換句話說，看你用這種自演化系統想獲得什麼樣的關鍵發現，認為值得就運行起來。。。

關鍵策略：選擇合適的應用場景——那些改進後能帶來長期效益的核心演算法和系統元件。

安全性：雙面刃的自我修改

讓AI系統修改自己的程式碼，這事聽起來就有點危險。

DGM的安全措施：研究者認真考量了安全問題：

沙盒環境

時間限制

人工監督

完整的修改追蹤

現實挑戰：但老實說，這些措施在真正的生產環境中肯定不夠，潘朵拉魔盒早已打開，做好拔插頭的準備就好了~

AlphaEvolve的相對優勢：在這方面相對保守一些：

主要針對有明確評估標準的科學問題

風險相對可控（僅從論文和重現程式碼觀察）

如果要把這種自我修改能力應用到更廣泛的AI系統中，安全機制還需要更多的研究和完善。

基礎模型的限制：巧婦難為無米之炊

這兩個系統都嚴重依賴底層大型語言模型的能力。

模型能力的制約：

AlphaEvolve的實驗顯示，使用更強的模型確實能得到更好的結果

系統的上限受到目前大型語言模型能力的制約

如果底層模型無法理解某個領域的複雜概念，再精妙的演化演算法也無濟於事

一些啟發

重新思考AI系統的設計模式

這兩個專案最重要的啟示可能是：我們需要重新思考AI系統的設計模式了。

傳統 vs 新典範：

傳統做法：人類設計架構，AI在框架內學習與最佳化

新的可能性：AI已經具備了參與甚至主導系統設計的能力

設計建議：您在設計下一個AI產品時，不妨考量留出一些「可演化」的空間：

把某些關鍵元件設計成可替換的模組

配置自動化的評估機制

讓系統能夠實驗不同的實作方案

仔細借鑒下這些程式碼的精華，這樣您的產品或許也就具備了持續自我改進的潛力。

評估機制的重要性：沒有回饋就沒有演化

兩個系統都強調了自動化評估的重要性，這對我們設計AI產品很有啟發。

核心要求：如果您想讓AI系統持續改進，就必須設計出能夠：

快速、準確評估系統效能的機制

衡量最終效果

提供足夠的訊號來指導改進方向

設計原則：找到「代理指標」——既容易自動化評估，又能真實反映系統的核心能力。

DGM選擇程式設計基準作為評估標準，是因為程式設計能力和自我改進能力有直接聯繫。

或許是AGI的新路徑？

自我改進：通往AGI的必經之路

從某種意義上說，自我改進能力可能是AGI的必要條件之一。

人類智慧的特徵：人類智慧的一個重要特徵就是能夠：

反思與改進自己的思維方式

學會學習

學會思考

目前進展：AlphaEvolve和DGM在這個方向上做出了重要探索，證明了AI系統確實可以獲得某種程度的自我改進能力。

現實評估：當然，目前這些系統還遠遠達不到AGI的水準，它們的自我改進還侷限在特定領域內。

但這個開始很重要——就像最早的神經網路只能識別簡單圖案，但為深度學習革命奠定了基礎一樣。

科學發現的自動化：人機協作的新模式

AlphaEvolve在數學與演算法發現上的成功，讓我們看到了科學研究自動化的可能性。

未來科研模式：未來的科學發現可能不再是純粹的人類活動，而是：

人類直覺 + AI運算能力的深度結合

人類提供問題定義與評估標準

AI負責大規模探索與驗證

實證：這種模式已經在AlphaEvolve的數學問題研究中得到了驗證：

許多問題都是由數學家Javier Gomez Serrano和Terence Tao建議的

然後由AI系統去尋找解決方案

這種人機協作的模式可能會成為未來科研的新典範。

既要又要還要

不管怎麼說，AlphaEvolve和DGM都代表了AI發展的一個重要節點。

它們告訴我們，AI已經不再滿足於：

被動地執行人類設計的任務

而是開始：

主動探索改進自身的可能性

身為AI產品的開發者，我們既要：

抓住這種技術進步帶來的機會

又要認真對待其中的挑戰與風險

最後的問題：您準備好迎接這個AI自我改進的時代了嗎？當Google和USC等用OpenAI和Claude的模型，運行成功了AI自演化系統，無論如何，您至少還要像我這樣，用DeepSeek把程式碼運行起來體驗一下。

參考文獻：

AlphaEvolve

論文：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf

程式碼：https://github.com/codelion/openevolve（並非Google官方原始碼，請注意辨識）

DGM

論文：https://arxiv.org/pdf/2505.22954

程式碼：https://github.com/jennyzzt/dgm

未來已來，有緣一同前行

本文完結，作者：修貓

轉載請與我聯絡

🎉讓我們一起創造更多美好！🎉

如果您覺得這篇文章對您有幫助

感謝您為我【按讚】、【追蹤】

<您為我按讚追蹤，只有我能看到>

👉微訊號：xiumaoprompt

新增請註明來意！

！離AGI更近了！！0.31元人民幣運行Google的AlphaEvolve和UBC的DGM「達爾文-哥德爾機」？

分享短網址