!離AGI更近了!!0.31元人民幣運行Google的AlphaEvolve和UBC的DGM「達爾文-哥德爾機」?

最近AI圈子裡有兩個特別有意思的專案,一個是Google DeepMind的AlphaEvolve,另一個是UBC大學的Darwin Gödel Machine(簡稱DGM)。

圖片圖片

假期我花了0.31元人民幣,用Deepseek模型運行了一遍這兩個系統。結果讓我感到很震撼:

AlphaEvolve在3分鐘內將一個函數最佳化演算法的效能提升了8.52%

DGM更是將排序演算法的效能提升了345%——從簡單的泡沫排序直接演化成了高度最佳化的快速排序

就像看到AI在我面前重新發明了演算法。

圖片

成本對比震撼:DGM的官方實驗運行一次需要大約2.2萬美元的運算成本,而我用國產的Deepseek模型。僅僅花費了0.31元人民幣就體驗到了AI自我改進的核心能力,先別急著跟我爭辯,如果您也需要用Claude 3.6 sonnet和o3-mini運行SWE-bench花費0.31元人民幣斷然是不夠的,我說的是體驗,運行DGM主要程式碼並使用Deepseek-R1-0526模型進行體驗。

圖片

這讓我看到了一個重要訊號:AI自我改進技術正在加速,加速!加速。。。

更讓我感到震撼的是,AlphaEvolve能夠56年來首次改進Strassen矩陣乘法演算法——這可是1969年以來數學界的一個開放問題啊!這兩個系統有個共同的目標:讓AI自己改進自己的程式碼,不再需要我們人類手把手地最佳化演算法。

圖片

AlphaEvolve高階概覽

圖片

Darwin Gödel Machine系統概覽。DGM透過交替進行自我修改和下游任務評估,迭代建構不斷增長的智慧代理人檔案庫。

什麼是「自我改進」的AI?不是調整參數那麼簡單

您可能會想,AI自我改進不就是自動調整參數嗎?但這兩個系統做的事情完全不一樣。

傳統方式 vs 自我改進:

傳統AutoML/超參數最佳化:在人類設計的框架內打轉,就像給車換不同的輪胎,但車的基本結構不變

AlphaEvolve和DGM:讓車自己決定要不要長翅膀、要不要變成潛水艇,甚至重新設計整個交通工具的概念

這種自我改進的核心在於,系統能夠修改自己的原始碼,而不僅僅是調整參數。這意味著什麼?

意味著AI可以改變:

自己的演算法邏輯

工具組合

整個工作流程

複雜的數學運算

人類尚未發現的未知領域

。。。

就像一個程式設計師不僅能偵錯程式碼,還能重構架構、發明新的程式設計範式一樣。

AlphaEvolve:科學發現的演化引擎

Google是怎麼讓AI「演化」程式碼的

AlphaEvolve的工作方式其實挺像生物演化的,但比自然選擇聰明多了。

核心機制:

程式資料庫:存著各種不同版本的演算法程式碼

突變操作員:用Gemini 2.0這樣的大型語言模型分析現有程式碼,提出改進建議

自動評估:透過評估函數篩選,只有表現更好的程式碼才會被保留

完全自動化的演化迴圈:

提示取樣器從程式資料庫中選擇表現好的程式碼作為「父代」

大型語言模型基於這些程式碼和任務上下文生成新的程式碼修改(以diff格式輸出)

評估器運行這些新程式碼並評分

優秀的程式碼被加入資料庫

您可以把它想像成一個永不停止的程式碼審查和重構過程,只不過參與者都是AI。

圖片

AlphaEvolve發現過程的詳細檢視

從矩陣乘法到數學難題,AlphaEvolve都能解決

AlphaEvolve最讓人印象深刻的成果是什麼?它解決了一大堆人類專家幾十年都沒解決的問題。

矩陣乘法的歷史突破:

歷史問題:4×4矩陣相乘的最佳演算法一直是開放問題

Strassen演算法:1969年提出,需要49次純量乘法,56年來無人改進

AlphaEvolve突破:找到了只需48次乘法的演算法,複數域上的重大突破

圖片

AlphaEvolve與前一代系統FunSearch的能力對比

更廣泛的數學成就:研究者把AlphaEvolve應用到了50多個數學建構問題上:

Erdős的最小重疊問題

11維接吻數問題

各種幾何包裝問題

成功率引人注目:

75%的問題:重新發現了已知最佳解

20%的問題:找到了比已知方案更好的建構

這個成功率說明什麼?說明AI已經具備了在某些領域超越人類專家的發現能力。

圖片

AlphaEvolve發現的突破性數學建構範例

演化不是隨機搜尋,是有策略的探索

您可能覺得這聽起來像是暴力搜尋,但實際上AlphaEvolve的策略相當精妙。

評估級聯機制:

新生成的解決方案先在簡單測試案例上驗證

只有通過了才會進入更複雜的評估階段

就像招聘時的多輪面試,避免浪費運算資源

多目標最佳化策略:

同時追求多個評估指標的提升

即使只關心一個特定指標,多目標最佳化往往效果更好

不同評估標準產生結構不同的優秀程式,激發大型語言模型更有創意的解決方案

圖片

AlphaEvolve發現更快矩陣乘法演算法的程式碼變化過程

驗證AlphaEvolve,結果如何?

從理論到現實:一個函數最佳化任務的演進過程

說了這麼多理論,您可能好奇這些系統實際運行起來是什麼樣子。

我的實驗設定:

模型:Deepseek-V3

專案:AlphaEvolve的開源版本OpenEvolve(見文末Reference)

任務:經典的函數最小化問題

時間:大約3分鐘

疊代次數:5次程式碼演化

結果確實讓人印象深刻——不是那種誇張的「驚人」,而是實實在在看得見的改進。

圖片圖片圖片

上下滑動查看更多

Slide left and right to see more

圖:AlphaEvolve(OpenEvolve)使用Deepseek模型進行函數最佳化的實際運行過程

數據不會說謊:從0.9035到0.9886的飛躍

效能提升數據:

初始演算法評分:0.9035

5次疊代後:0.9886

提升幅度:8.52%

您可能覺得這個提升看起來不大,但要知道,這是在一個已經相當最佳化的基準任務上實現的改進。在實際的工程場景中,8%的效能提升往往意味著:

數百萬的成本節約

使用者體驗的顯著改善

更有趣的權衡策略:系統在不同維度上的表現:

speed_score:從1.0000降到0.9229(略有下降)

value_score、distance_score、standard_deviation_score:都有顯著提升

這說明AI學會了透過稍微增加運算複雜度來換取更好的解決方案品質——這種權衡策略正是優秀程式設計師會做的決策。

真實世界的不完美:錯誤處理和系統穩健性

運行過程中出現了一些有趣的現象,這讓我們看到了系統的真實表現。

語法錯誤處理:

系統生成的某些程式碼變體包含語法錯誤(比如括號未閉合)

這在自動程式碼生成中很常見

關鍵是:AlphaEvolve的評估系統能夠自動偵測這些錯誤

捨棄有問題的程式碼,繼續用其他有效的變體演化

工程化問題:

遇到了Unicode編碼問題(Windows環境下常見)

不影響核心演算法執行

提醒我們:將研究原型部署到生產環境時,仍需考量各種工程化問題

DGM:真正的「自我指涉」改進系統

從理論到實踐,Gödel機器的現實版本

Darwin Gödel Machine的名字聽起來就很有學術風格,它的靈感來自Schmidhuber在2006年提出的Gödel機器理論。

理論 vs 實踐的轉換:

原始Gödel機器:要求系統在修改自己之前必須能夠數學證明這種修改是有益的

現實問題:這在實踐中幾乎不可能做到

DGM的創新:放棄數學證明要求,改用經驗驗證——透過程式設計基準測試判斷修改效果

DGM的核心特徵:自我指涉性

DGM和AlphaEvolve最大的不同在於「自我指涉性」:

DGM不僅要解決程式設計任務

還要改進自己解決程式設計任務的能力

而改進自身的過程本身就是一個程式設計任務

這形成了一個遞迴迴圈:

更好的程式設計能力 → 更好的自我改進能力 → 更好的程式設計能力

精妙之處:下游任務的改進直接反映了系統自我改進能力的提升

開放式探索:為什麼要保留「失敗」的嘗試

DGM採用了一種叫做「開放式探索」的策略,這點特別值得注意。

核心理念:

系統維護一個包含所有歷史智慧代理人的檔案庫

即使某些智慧代理人在當時看起來表現不佳,也不會被捨棄

原因:看似「失敗」的嘗試可能包含有價值的創新點

圖片

DGM的自動改進過程

真實案例證明:在SWE-bench實驗中:

DGM在第4次和第56次疊代時效能都出現了暫時下降

系統沒有回復到之前的版本

繼續基於這些「退步」的版本進行探索

結果:這些看似退步的分支最終產生了超越所有前代的優秀智慧代理人

就像科學研究中的「偶然發現」——很多重大突破都來自於看似失敗的實驗。

從20%到50%,DGM在程式設計任務上的突破

基準測試表現:

SWE-bench:從20.0%提升到50.0%

Polyglot:從14.2%提升到30.7%

但更重要的是它是怎麼做到的——系統自動發現了:

自動發現的改進:

更精細的檔案編輯工具(支援按行檢視和字串取代)

改進的多輪嘗試機制

同儕審查機制(用另一個FM來評估和選擇最佳解決方案)

關鍵點:這些改進都不是人類預先設計的,完全是系統在自我探索過程中發現的。

圖片

自我改進和開放式探索使DGM能夠持續進步

DGM實踐:從泡沫排序看AI演化之路

345%效能提升背後的智慧決策

相比AlphaEvolve的漸進式最佳化,DGM展現出了更加激進的自我改進策略。

我的實驗結果:

模型:Deepseek

任務:排序演算法最佳化演示

疊代輪次:3輪

效能跨越:從16.97到83.63

整體提升:345.4%

更重要的是,我們可以清楚地看到AI是如何一步步進行「演算法重構」的,這種改進遠遠超出了傳統的參數調整範疇。

圖片圖片圖片圖片圖片圖片圖片

上下滑動查看更多

Slide left and right to see more

圖:DGM使用Deepseek模型進行排序演算法自我改進的完整過程

不是參數調整,是演算法重新發明

第一輪改進:最震撼的演算法典範轉變

AI直接放棄了原來的泡沫排序實作,完全重寫成了疊代式快速排序。

這不是簡單的程式碼最佳化,而是演算法典範的根本轉變:

從:O(n²)的泡沫排序

到:O(n log n)的快速排序

AI自己「意識到」了泡沫排序的本質缺陷,並選擇了更適合的演算法結構。這種決策能力已經接近了一個資深演算法工程師的水準。

第二輪和第三輪:精深的演算法最佳化

展現了AI對演算法細節的精深理解:

混合排序策略:小陣列用插入排序

三數取中的基準選擇

堆疊空間使用模式最佳化

這些都是教科書級別的快速排序最佳化技巧,證明AI已經掌握了演算法設計的核心原理,而不僅僅是在模仿現有程式碼。

真實的探索過程:有進有退才是常態

DGM的運行過程真實地反映了探索的不確定性。

效能波動的真實性:

第三輪評分:83.63

第二輪評分:91.36

現象:第三輪實際上比第二輪有所下降

系統行為:沒有簡單地回復到前一個版本

這種「容忍暫時退步」的策略正是開放式探索的精髓——有時候看似的退步可能為更大的突破鋪路。

多維度權衡能力:我們可以觀察到AI在不同維度上的權衡策略:

演算法正確性

執行效率

程式碼可讀性

記憶體使用

這種多目標最佳化的能力說明,DGM已經具備了相當成熟的工程判斷力。

專用vs通用兩套系統的核心差異

應用領域的分化:科學發現 vs 程式設計智慧代理人

雖然AlphaEvolve和DGM都採用演化演算法和LLM驅動的程式碼修改,但它們的應用重點完全不同。

AlphaEvolve:科學發現引擎

定位:專門解決有明確評估標準的科學和工程問題

應用領域:

矩陣乘法

數學建構

系統最佳化

強項:能夠處理各種不同問題類型,從數學證明到工程最佳化

DGM:通用智慧代理人

定位:建構能夠持續自我改進的系統

專注領域:程式設計任務

核心假設:如果系統能夠更好地編寫程式碼,就能更好地改進自己

理論潛力:具有無限改進潛力的自我指涉設計

技術架構的不同選擇

AlphaEvolve的架構特點:

分散式非同步架構:可以同時運行數千個評估任務

適用場景:運算密集型的科學問題

評估級聯:先用簡單測試篩選,再進行深度評估

優勢:大大提高效率

DGM的架構特點:

相對簡單的架構:但在「開放式探索」下功夫

父代選擇機制:考量效能表現和已有子代數量

平衡策略:既利用優秀解決方案,又保持探索多樣性

可追溯性:每個智慧代理人的修改歷史都有完整記錄

實際應用:這些系統能為您的AI專案帶來什麼

AlphaEvolve的工程價值:從演算法最佳化到系統加速

如果您正在開發需要高效能運算的AI產品,AlphaEvolve展示的能力就很有參考價值。

Google的實際應用:研究者用它最佳化了Google運算堆疊的多個關鍵元件:

資料中心排程演算法

LLM訓練用的矩陣乘法核心

TPU內部的算術電路

Transformer的注意力機制運算加速

這些都是實際生產環境中的關鍵瓶頸,任何微小的改進都能帶來巨大的經濟價值。不過,AlphaEvolve的原始碼是需要向Google申請的,以上運行的openEvolve版本僅是重現。

對您專案的啟示:如果把AlphaEvolve應用到您的推論服務最佳化上,系統可能會自動發現:

新的批次處理策略

記憶體管理方法

您從未想過的演算法組合

關鍵優勢:這種最佳化是端到端的,不需要您預先定義搜尋空間,系統會自己探索各種可能性。

DGM的產品啟示:自我改進的智慧代理人架構

DGM的價值更多體現在系統架構層面。

應用場景舉例:如果您在建構複雜的AI智慧代理人系統,比如:

您的客服機器人不僅能回答使用者問題

還能根據使用者回饋自動改進自己的對話策略

最佳化知識檢索方法

甚至改進整個互動流程

實證:DGM證明了這種自我改進並非空想:

SWE-bench:表現已經接近開源SOTA水準

Polyglot:甚至超越了人類專家長期最佳化的Aider工具

這說明,給AI足夠的自主權和合適的回饋機制,它確實能夠實現持續的自我提升。

圖片

DGM發現的改進可以在不同模型和任務間遷移

挑戰:理想很豐滿,現實很骨感

運算成本:燒錢的自我改進

說到實際部署,我們不得不面對一個現實問題:這些系統的運算成本都不低。

成本現狀:

DGM:SWE-bench上一次完整運行需要大約2週時間,API呼叫費用本文開頭時所示,2.2萬美元

AlphaEvolve:雖然在取樣效率上有所改進,但對於複雜問題仍然需要大量的大型語言模型呼叫

投資報酬思考:換個角度想,如果系統能夠自動發現像矩陣乘法演算法那樣的突破性改進,這種一次性投入是完全值得的。換句話說,看你用這種自演化系統想獲得什麼樣的關鍵發現,認為值得就運行起來。。。

關鍵策略:選擇合適的應用場景——那些改進後能帶來長期效益的核心演算法和系統元件。

安全性:雙面刃的自我修改

讓AI系統修改自己的程式碼,這事聽起來就有點危險。

DGM的安全措施:研究者認真考量了安全問題:

沙盒環境

時間限制

人工監督

完整的修改追蹤

現實挑戰:但老實說,這些措施在真正的生產環境中肯定不夠,潘朵拉魔盒早已打開,做好拔插頭的準備就好了~

AlphaEvolve的相對優勢:在這方面相對保守一些:

主要針對有明確評估標準的科學問題

風險相對可控(僅從論文和重現程式碼觀察)

如果要把這種自我修改能力應用到更廣泛的AI系統中,安全機制還需要更多的研究和完善。

基礎模型的限制:巧婦難為無米之炊

這兩個系統都嚴重依賴底層大型語言模型的能力。

模型能力的制約:

AlphaEvolve的實驗顯示,使用更強的模型確實能得到更好的結果

系統的上限受到目前大型語言模型能力的制約

如果底層模型無法理解某個領域的複雜概念,再精妙的演化演算法也無濟於事

一些啟發

重新思考AI系統的設計模式

這兩個專案最重要的啟示可能是:我們需要重新思考AI系統的設計模式了。

傳統 vs 新典範:

傳統做法:人類設計架構,AI在框架內學習與最佳化

新的可能性:AI已經具備了參與甚至主導系統設計的能力

設計建議:您在設計下一個AI產品時,不妨考量留出一些「可演化」的空間:

把某些關鍵元件設計成可替換的模組

配置自動化的評估機制

讓系統能夠實驗不同的實作方案

仔細借鑒下這些程式碼的精華,這樣您的產品或許也就具備了持續自我改進的潛力。

評估機制的重要性:沒有回饋就沒有演化

兩個系統都強調了自動化評估的重要性,這對我們設計AI產品很有啟發。

核心要求:如果您想讓AI系統持續改進,就必須設計出能夠:

快速、準確評估系統效能的機制

衡量最終效果

提供足夠的訊號來指導改進方向

設計原則:找到「代理指標」——既容易自動化評估,又能真實反映系統的核心能力。

DGM選擇程式設計基準作為評估標準,是因為程式設計能力和自我改進能力有直接聯繫。

或許是AGI的新路徑?

自我改進:通往AGI的必經之路

從某種意義上說,自我改進能力可能是AGI的必要條件之一。

人類智慧的特徵:人類智慧的一個重要特徵就是能夠:

反思與改進自己的思維方式

學會學習

學會思考

目前進展:AlphaEvolve和DGM在這個方向上做出了重要探索,證明了AI系統確實可以獲得某種程度的自我改進能力。

現實評估:當然,目前這些系統還遠遠達不到AGI的水準,它們的自我改進還侷限在特定領域內。

但這個開始很重要——就像最早的神經網路只能識別簡單圖案,但為深度學習革命奠定了基礎一樣。

科學發現的自動化:人機協作的新模式

AlphaEvolve在數學與演算法發現上的成功,讓我們看到了科學研究自動化的可能性。

未來科研模式:未來的科學發現可能不再是純粹的人類活動,而是:

人類直覺 + AI運算能力的深度結合

人類提供問題定義與評估標準

AI負責大規模探索與驗證

實證:這種模式已經在AlphaEvolve的數學問題研究中得到了驗證:

許多問題都是由數學家Javier Gomez Serrano和Terence Tao建議的

然後由AI系統去尋找解決方案

這種人機協作的模式可能會成為未來科研的新典範。

既要又要還要

不管怎麼說,AlphaEvolve和DGM都代表了AI發展的一個重要節點。

它們告訴我們,AI已經不再滿足於:

被動地執行人類設計的任務

而是開始:

主動探索改進自身的可能性

身為AI產品的開發者,我們既要:

抓住這種技術進步帶來的機會

又要認真對待其中的挑戰與風險

最後的問題:您準備好迎接這個AI自我改進的時代了嗎?當Google和USC等用OpenAI和Claude的模型,運行成功了AI自演化系統,無論如何,您至少還要像我這樣,用DeepSeek把程式碼運行起來體驗一下。

參考文獻:

AlphaEvolve

論文:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf

程式碼:https://github.com/codelion/openevolve(並非Google官方原始碼,請注意辨識)

DGM

論文:https://arxiv.org/pdf/2505.22954

程式碼:https://github.com/jennyzzt/dgm

未來已來,有緣一同前行

圖片

本文完結,作者:修貓

轉載請與我聯絡

🎉讓我們一起創造更多美好!🎉

如果您覺得這篇文章對您有幫助

感謝您為我【按讚】、【追蹤】

<您為我按讚追蹤,只有我能看到>

👉微訊號:xiumaoprompt

新增請註明來意!

主標籤:AI自我改進

次標籤:演化式AI類通用人工智慧程式碼生成演算法優化


上一篇:陶哲軒再發驚人消息:AlphaEvolve一個月內三度突破18年數學懸案,徹底改寫數學研究規則!

下一篇:萬字追問:如何用「時間的本質」,丈量人腦、意識與人工智慧?

分享短網址