AGIへの道がさらに近くに！0.31元でGoogleのAlphaEvolveとUBCのDGM「ダーウィン・ゲーデル・マシン」を動かす？

最近、AIコミュニティで特に興味深いプロジェクトが2つあります。1つはGoogle DeepMindのAlphaEvolve、もう1つはUBC大学のDarwin Gödel Machine（略称DGM）です。

休暇中、私は0.31元を費やし、Deepseekモデルを使ってこれら2つのシステムを実行しました。その結果は非常に衝撃的でした。

AlphaEvolveは3分間で関数最適化アルゴリズムの性能を8.52%向上させました。

DGMはさらにソートアルゴリズムの性能を345%も向上させました。単純なバブルソートから、高度に最適化されたクイックソートへと直接進化させたのです。

まるでAIが私の目の前でアルゴリズムを再発明しているかのようでした。

コスト比較の衝撃：DGMの公式実験では1回の実行に約2.2万ドルの計算コストがかかりますが、私は国産のDeepseekモデルを使いました。わずか0.31元でAIの自己改善の核心能力を体験できたのです。早とちりしないでください。Claude 3.6 sonnetやo3-miniでSWE-benchを実行する場合、0.31元では断じて足りません。私が言っているのは「体験」です。DGMの主要コードを実行し、Deepseek-R1-0526モデルを使って体験したのです。

これは私に重要なシグナルを見せてくれました。AIの自己改善技術が加速しています、加速！加速中。。。

さらに衝撃的だったのは、AlphaEvolveが56年ぶりにStrassenの行列乗算アルゴリズムを改善できたことです。これは1969年以来の数学界の未解決問題でした！これらの2つのシステムには共通の野心があります。AI自身が自分のコードを改善し、私たち人間が手取り足取りアルゴリズムを最適化する必要をなくすことです。

AlphaEvolveの全体像

ダーウィン・ゲーデル・マシンのシステム概要。DGMは自己修正と下流タスクの評価を交互に行い、増大するエージェントアーカイブを構築します。

「自己改善型」AIとは？パラメータ調整とは違う

AIの自己改善は、自動パラメータ調整と同じだと思われるかもしれません。しかし、これら2つのシステムが行うことは全く異なります。

従来方式 vs 自己改善：

従来のAutoML/ハイパーパラメータ最適化：人間が設計した枠組みの中で回転するだけで、車に異なるタイヤを交換するようなもので、車の基本構造は変わりません。

AlphaEvolveとDGM：車自身が翼を生やすか、潜水艦になるか、さらには交通手段の概念全体を再設計するかどうかを決定するようにします。

この自己改善の核心は、システムが自身のソースコードを修正できる点にあり、単にパラメータを調整するだけではありません。これは何を意味するのでしょうか？

AIが変更できること：

自身のアルゴリズムロジック

ツールの組み合わせ

ワークフロー全体

複雑な数学的演算

人類がまだ発見していない未知の領域

。。。

まるでプログラマーがコードをデバッグするだけでなく、アーキテクチャをリファクタリングし、新しいプログラミングパラダイムを発明できるかのようです。

AlphaEvolve：科学的発見の進化エンジン

GoogleはいかにしてAIにコードを「進化」させたか

AlphaEvolveの働き方は、生物の進化に非常に似ていますが、自然淘汰よりもはるかに賢いです。

核心メカニズム：

プログラムデータベース：様々なバージョンのアルゴリズムコードが保存されています。

変異オペレーター：Gemini 2.0のようなLLMを使用して既存のコードを分析し、改善案を提案します。

自動評価：評価関数を通じてフィルタリングし、性能が向上したコードのみが保持されます。

完全に自動化された進化サイクル：

プロンプトサンプラーは、プログラムデータベースから優れたコードを「親」として選択します。

LLMはこれらのコードとタスクのコンテキストに基づいて新しいコードの変更（diff形式で出力）を生成します。

評価器はこれらの新しいコードを実行し、スコアを付けます。

優れたコードはデータベースに追加されます。

これは、AIだけが参加する絶え間ないコードレビューとリファクタリングのプロセスだと想像してください。

AlphaEvolveの発見プロセスの詳細ビュー

行列乗算から数学的難問まで、AlphaEvolveはすべてこなせる

AlphaEvolveの最も印象的な成果は何でしょうか？人類の専門家が何十年も解決できなかった問題の山を解決したことです。

行列乗算の歴史的突破：

歴史的問題：4×4行列の乗算の最適アルゴリズムは常に未解決問題でした。

Strassenアルゴリズム：1969年に提案され、49回のスカラー乗算が必要でしたが、56年間改善されませんでした。

AlphaEvolveの突破：わずか48回の乗算で済むアルゴリズムを発見し、複素数領域での大きな突破となりました。

AlphaEvolveと前世代システムFunSearchの能力比較

より広範な数学的成果：研究者はAlphaEvolveを50以上の数学的構成問題に適用しました。

Erdősの最小重なり問題

11次元のキッシング数問題

様々な幾何学的パッキング問題

成功率は目覚ましい：

75%の問題：既知の最適解を再発見しました。

20%の問題：既知の解法よりも優れた構成を発見しました。

この成功率は何を意味するのでしょうか？AIが特定の分野で人間の専門家を超える発見能力をすでに持っていることを意味します。

AlphaEvolveが発見した画期的な数学的構成例

進化はランダム探索ではなく、戦略的な探索である

これは力任せの探索のように聞こえるかもしれませんが、実際にはAlphaEvolveの戦略は非常に巧妙です。

評価カスケードメカニズム：

新しく生成されたソリューションはまず単純なテストケースで検証されます。

合格した場合のみ、より複雑な評価段階に進みます。

まるで採用における多段階面接のように、計算リソースの無駄を避けます。

多目的最適化戦略：

複数の評価指標の向上を同時に追求します。

たとえ特定の指標のみに関心がある場合でも、多目的最適化の方が効果的であることが多いです。

異なる評価基準は構造的に異なる優れたプログラムを生み出し、LLMのより創造的なソリューションを刺激します。

AlphaEvolveがより高速な行列乗算アルゴリズムを発見する際のコード変更プロセス

AlphaEvolveの検証、結果は？

理論から現実へ：関数最適化タスクの進化プロセス

これまでに多くの理論について述べてきましたが、これらのシステムが実際にどのように動作するのか、ご興味があるかもしれません。

私の実験設定：

モデル：Deepseek-V3

プロジェクト：AlphaEvolveのオープンソースバージョンOpenEvolve（巻末のReference参照）

タスク：古典的な関数最小化問題

時間：約3分

イテレーション回数：5回のコード進化

結果は確かに印象的でした。それは「驚異的」という誇張されたものではなく、目に見える着実な改善でした。

図：AlphaEvolve（OpenEvolve）がDeepseekモデルを使用して関数最適化を行う実際の実行プロセス

データは嘘をつかない：0.9035から0.9886への飛躍

性能向上データ：

初期アルゴリズムスコア：0.9035

5回のイテレーション後：0.9886

向上幅：8.52%

この向上は小さく見えるかもしれませんが、これはすでにかなり最適化されたベンチマークタスクで達成された改善であることを知るべきです。実際のエンジニアリングシナリオでは、8%の性能向上はしばしば以下を意味します。

数百万のコスト削減

ユーザーエクスペリエンスの大幅な改善

より興味深いトレードオフ戦略：システムは異なる次元で以下のような振る舞いを見せます。

speed_score：1.0000から0.9229に減少（わずかな低下）

value_score、distance_score、standard_deviation_score：すべて著しく向上

これはAIが、計算複雑度をわずかに増やすことでより良いソリューション品質を獲得することを学んだことを示しています。このトレードオフ戦略こそ、優れたプログラマーが行う意思決定です。

現実世界の不完全性：エラー処理とシステムロバスト性

実行中にいくつかの興味深い現象が現れ、システムの実際の動作を見ることができました。

構文エラー処理：

システムが生成した一部のコードバリアントには構文エラー（例えば括弧の未閉じ）が含まれていました。

これは自動コード生成ではよくあることです。

重要なのは：AlphaEvolveの評価システムがこれらのエラーを自動的に検出できることです。

問題のあるコードを破棄し、他の有効なバリアントで進化を続けます。

エンジニアリング上の問題：

Unicodeエンコーディングの問題に遭遇しました（Windows環境でよく発生します）。

これはコアアルゴリズムの実行には影響しませんでした。

これは、研究プロトタイプを本番環境にデプロイする際には、様々なエンジニアリング上の問題を考慮する必要があることを思い出させます。

DGM：真の「自己参照的」改善システム

理論から実践へ、ゲーデル・マシンの現実版

ダーウィン・ゲーデル・マシンという名前は、いかにも学術的で、Schmidhuberが2006年に提案したゲーデル・マシン理論にインスパイアされています。

理論から実践への変換：

元のゲーデル・マシン：システムが自己を修正する前に、その修正が有益であることを数学的に証明できなければならないと要求しています。

現実の問題：これは実際にはほぼ不可能です。

DGMの革新：数学的証明の要件を放棄し、経験的検証（プログラミングベンチマークを通じて修正効果を判断する）に切り替えました。

DGMの核心的特徴：自己参照性

DGMとAlphaEvolveの最大の違いは「自己参照性」です。

DGMはプログラミングタスクを解決するだけでなく

プログラミングタスクを解決する自身の能力を改善します。

そして、自身を改善するプロセス自体がプログラミングタスクなのです。

これは再帰的なループを形成します。

より良いプログラミング能力 → より良い自己改善能力 → より良いプログラミング能力

巧妙な点：下流タスクの改善は、システムの自己改善能力の向上を直接的に反映しています。

オープンエンド探索：なぜ「失敗」した試みを保持するのか

DGMは「オープンエンド探索」と呼ばれる戦略を採用しており、この点は特に注目に値します。

核心的な考え方：

システムはすべての履歴エージェントを含むアーカイブを維持します。

一部のエージェントがその時点では性能が悪いように見えても、破棄されません。

理由：「失敗」に見える試みでも、価値ある革新的な点が含まれている可能性があるためです。

DGMの自動改善プロセス

実例の証明：SWE-bench実験では：

DGMは4回目と56回目のイテレーションで一時的に性能が低下しました。

システムは以前のバージョンにロールバックしませんでした。

これらの「退歩」に見えるバージョンに基づいて探索を続けました。

結果：これらの退歩に見えるブランチが、最終的にすべての先行エージェントを上回る優れたエージェントを生み出しました。

まるで科学研究における「偶然の発見」のように、多くの重要なブレークスルーは、失敗に見える実験から生まれています。

20%から50%へ、DGMのプログラミングタスクにおけるブレークスルー

ベンチマークパフォーマンス：

SWE-bench：20.0%から50.0%に向上。

Polyglot：14.2%から30.7%に向上。

しかし、より重要なのはどのようにしてそれを達成したかです。システムは自動的に以下を発見しました。

自動発見された改善点：

より精密なファイル編集ツール（行単位の表示と文字列置換をサポート）。

改善された多段階試行メカニズム。

ピアレビューメカニズム（別のFMを使用して最適なソリューションを評価・選択）。

重要な点：これらの改善は人間が事前に設計したものではなく、システムが自己探索の過程で完全に発見したものです。

自己改善とオープンエンド探索により、DGMは継続的に進化することができます

DGM実践：バブルソートから見るAI進化の道

345%の性能向上を支えるインテリジェントな意思決定

AlphaEvolveの漸進的な最適化と比較して、DGMはよりアグレッシブな自己改善戦略を示しました。

私の実験結果：

モデル：Deepseek

タスク：ソートアルゴリズム最適化デモ

イテレーション回数：3回

性能の飛躍：16.97から83.63へ

全体的な向上：345.4%

さらに重要なのは、AIがどのように一歩一歩「アルゴリズムの再構築」を行っているかを明確に確認できることです。この改善は、従来のパラメータ調整の範疇をはるかに超えています。

図：DGMがDeepseekモデルを使用してソートアルゴリズムを自己改善する完全なプロセス

パラメータ調整ではなく、アルゴリズムの再発明である

第一段階の改善：最も衝撃的なアルゴリズムパラダイムシフト

AIは元のバブルソートの実装を直接放棄し、完全に反復型クイックソートに書き換えました。

これは単純なコード最適化ではなく、アルゴリズムパラダイムの根本的な転換です。

から：O(n²)のバブルソート

へ：O(n log n)のクイックソート

AIはバブルソートの本質的な欠陥を自ら「認識」し、より適切なアルゴリズム構造を選択しました。この意思決定能力は、ベテランアルゴリズムエンジニアのレベルに近づいています。

第二段階と第三段階：洗練されたアルゴリズム最適化

AIがアルゴリズムの詳細を深く理解していることを示しています。

ハイブリッドソート戦略：小さい配列には挿入ソートを使用。

中央値の3点選択によるピボット選択。

スタック空間使用パターンの最適化。

これらはすべて教科書レベルのクイックソート最適化テクニックであり、AIが既存のコードを模倣するだけでなく、アルゴリズム設計の核心原理を習得していることを証明しています。

実際の探索プロセス：進退があるのが常

DGMの実行プロセスは、探索の不確実性を真に反映しています。

性能変動の真実性：

第三段階のスコア：83.63

第二段階のスコア：91.36

現象：第三段階は実際には第二段階よりも低下していました。

システム動作：前のバージョンに単純にロールバックしませんでした。

このような「一時的な退歩を許容する」戦略こそが、オープンエンド探索の核心です。時には退歩に見えるものが、より大きなブレークスルーへの道を開くことがあります。

多次元トレードオフ能力：AIが異なる次元でどのようにトレードオフ戦略をとるかを観察できます。

アルゴリズムの正確性

実行効率

コードの可読性

メモリ使用量

この多目的最適化能力は、DGMが十分に成熟したエンジニアリング判断力を持っていることを示しています。

専用システム vs 汎用システム：両者の核心的な違い

応用分野の分化：科学的発見 vs プログラミングエージェント

AlphaEvolveとDGMはどちらも進化アルゴリズムとLLM駆動のコード修正を採用していますが、その応用重点は全く異なります。

AlphaEvolve：科学的発見エンジン

位置付け：明確な評価基準を持つ科学的および工学的な問題を専門的に解決します。

応用分野：

行列乗算

数学的構成

システム最適化

強み：数学的証明から工学最適化まで、様々な問題タイプを処理できます。

DGM：汎用インテリジェントエージェント

位置付け：継続的に自己改善できるシステムを構築します。

専門分野：プログラミングタスク。

核心的な仮説：システムがより良いコードを書ければ、自身をより良く改善できるということです。

理論的な可能性：無限の改善の可能性を秘めた自己参照的な設計です。

技術アーキテクチャの異なる選択

AlphaEvolveのアーキテクチャ的特徴：

分散非同期アーキテクチャ：数千の評価タスクを同時に実行できます。

適用シナリオ：計算集約型の科学的問題。

評価カスケード：まず簡単なテストでフィルタリングし、その後詳細な評価を行います。

利点：効率を大幅に向上させます。

DGMのアーキテクチャ的特徴：

比較的シンプルなアーキテクチャ：しかし、「オープンエンド探索」に注力しています。

親選択メカニズム：性能と既存の子孫の数を考慮します。

バランス戦略：優れたソリューションを活用しつつ、探索の多様性を維持します。

トレーサビリティ：各エージェントの修正履歴は完全に記録されます。

実際の応用：これらのシステムがあなたのAIプロジェクトにもたらすもの

AlphaEvolveの工学的価値：アルゴリズム最適化からシステム高速化まで

もしあなたが高性能計算を必要とするAI製品を開発しているのであれば、AlphaEvolveが示した能力は非常に参考になるでしょう。

Googleでの実際の応用：研究者はこれを使ってGoogleの計算スタックのいくつかの主要コンポーネントを最適化しました。

データセンターのスケジューリングアルゴリズム

LLMトレーニング用の行列乗算カーネル

TPU内部の算術回路

Transformerのattention計算の高速化

これらは実際の生産環境における主要なボトルネックであり、わずかな改善でも莫大な経済的価値をもたらします。ただし、AlphaEvolveのソースコードはGoogleに申請する必要があります。上記のOpenEvolveバージョンは再現に過ぎません。

あなたのプロジェクトへの示唆：AlphaEvolveを推論サービス最適化に適用すれば、システムは自動的に以下を発見するかもしれません。

新しいバッチ処理戦略

メモリ管理方法

あなたが思いつかなかったアルゴリズムの組み合わせ

主要な利点：この最適化はエンドツーエンドであり、事前に探索空間を定義する必要がなく、システム自身が様々な可能性を探求します。

DGMの製品への示唆：自己改善型エージェントアーキテクチャ

DGMの価値は、システムアーキテクチャレベルでより多く発揮されます。

応用シナリオの例：複雑なAIエージェントシステムを構築している場合、例えば：

あなたのカスタマーサービスロボットは、ユーザーの質問に答えるだけでなく

ユーザーのフィードバックに基づいて、自身の対話戦略を自動的に改善したり

知識検索方法を最適化したり

さらには、インタラクションプロセス全体を改善したりすることができます。

現在の実験的検証：DGMはこのような自己改善が空想ではないことを証明しました。

SWE-bench：パフォーマンスはオープンソースSOTAレベルに近づいています。

Polyglot：人間が長期間最適化してきたAiderツールさえも超えました。

これは、AIに十分な自律性と適切なフィードバックメカニズムを与えれば、継続的な自己向上を確かに実現できることを示しています。

DGMが発見した改善は、異なるモデルやタスク間で転移可能

課題：理想は豊かだが、現実は骨太

計算コスト：自己改善にかかる費用

実際のデプロイメントについて言えば、現実的な問題に直面せざるを得ません。これらのシステムの計算コストは決して低くありません。

現在のコスト状況：

DGM：SWE-benchでの完全な1回の実行には約2週間かかり、API呼び出し費用は本文の冒頭で示されたとおり、2.2万ドルです。

AlphaEvolve：サンプリング効率は改善されたものの、複雑な問題には依然として大量のLLM呼び出しが必要です。

投資対効果の考察：別の角度から考えると、システムが行列乗算アルゴリズムのような画期的な改善を自動的に発見できるのであれば、このような一回限りの投資は十分に価値があります。言い換えれば、この自己進化システムでどのような重要な発見をしたいかによって、価値があると判断すれば実行すればよいのです。。。

重要な戦略：適切な応用シナリオを選択することです。それは、改善によって長期的な利益をもたらす可能性のある核心的なアルゴリズムやシステムコンポーネントです。

安全性：自己修正の諸刃の剣

AIシステムに自身のコードを修正させるというのは、少し危険な話に聞こえます。

DGMの安全対策：研究者は安全性の問題を真剣に検討しました。

サンドボックス環境

時間制限

人間による監督

完全な修正追跡

現実の課題：しかし正直なところ、これらの対策は実際の生産環境では明らかに不十分です。パンドラの箱はすでに開かれており、プラグを抜く準備をしておくべきでしょう。

AlphaEvolveの相対的な優位性：この点では比較的保守的です。

主に明確な評価基準を持つ科学的問題を対象としています。

リスクは比較的制御可能です（論文と再現コードからの観察のみ）。

このような自己修正能力をより広範なAIシステムに適用する場合、安全メカニズムはさらなる研究と改善が必要です。

基盤モデルの限界：米がなければ料理もできない

これら2つのシステムはどちらも、基盤となる大規模言語モデルの能力に大きく依存しています。

モデル能力の制約：

AlphaEvolveの実験では、より強力なモデルを使用すると確かに良い結果が得られることが示されています。

システムの限界は、現在のLLM能力によって制約されています。

基盤モデルが特定の分野の複雑な概念を理解できなければ、どれほど巧妙な進化アルゴリズムも役に立ちません。

いくつかの示唆

AIシステムの設計パターンを再考する

これら2つのプロジェクトの最も重要な示唆は、おそらく「AIシステムの設計パターンを再考する必要がある」ということでしょう。

従来と新しいパラダイム：

従来のやり方：人間がアーキテクチャを設計し、AIはその枠組みの中で学習し最適化する。

新しい可能性：AIはすでにシステム設計に参加し、あるいは主導する能力を備えています。

設計の提案：次のAI製品を設計する際には、いくつかの「進化可能なスペース」を残しておくことを検討してみてはいかがでしょうか。

特定の主要コンポーネントを交換可能なモジュールとして設計する。

自動評価メカニズムを構成する。

システムが異なる実装案を実験できるようにする。

これらのコードの核心を注意深く参考にすれば、あなたの製品も継続的な自己改善の可能性を秘めるようになるかもしれません。

評価メカニズムの重要性：フィードバックがなければ進化はない

両システムは自動評価の重要性を強調しており、これはAI製品設計において非常に示唆に富んでいます。

核心的な要求：AIシステムを継続的に改善させたいのであれば、以下の能力を持つメカニズムを設計する必要があります。

システムの性能を迅速かつ正確に評価できるメカニズム。

最終的な効果を測定できること。

改善方向を導くための十分なシグナルを提供すること。

設計原則：「代理指標」を見つけることです。これは自動評価が容易であり、システムの核心能力を真に反映するものです。

DGMがプログラミングベンチマークを評価基準として選んだのは、プログラミング能力と自己改善能力が直接関連しているからです。

もしかしたらAGIの新しい道筋？

自己改善：AGIへの不可欠な道

ある意味では、自己改善能力はAGIの必要条件の一つかもしれません。

人間知能の特徴：人間知能の重要な特徴の一つは、以下の能力です。

自身の思考方法を反省し改善する。

学習の仕方を学ぶ。

思考の仕方を学ぶ。

現在の進捗：AlphaEvolveとDGMはこの方向で重要な探索を行い、AIシステムが確かに一定レベルの自己改善能力を獲得できることを証明しました。

現実的な評価：もちろん、現在のこれらのシステムはAGIのレベルにはまだ遠く、その自己改善は特定の領域に限定されています。

しかし、この始まりは非常に重要です。初期のニューラルネットワークが単純なパターンしか認識できなかったが、深層学習革命の基礎を築いたのと同じようにです。

科学的発見の自動化：人間と機械の協働の新しいモデル

AlphaEvolveが数学的・アルゴリズム的発見で成功したことは、科学研究の自動化の可能性を示しています。

未来の研究モード：未来の科学的発見は、純粋に人間だけの活動ではなくなるかもしれません。それは：

人間の直感 + AIの計算能力の深い結合

人間が問題定義と評価基準を提供し

AIが大規模な探索と検証を担当する。

現在の実験的検証：このモードはAlphaEvolveの数学問題研究ですでに検証されています。

多くの問題は数学者のJavier Gomez SerranoやTerence Taoによって提案され

その後、AIシステムが解決策を探しました。

このような人間と機械の協働モデルが、未来の研究の新しいパラダイムとなるかもしれません。

すべてを求めて

いずれにせよ、AlphaEvolveとDGMはAI発展の重要な節目を表しています。

これらが私たちに告げているのは、AIがもはや以下に満足していないということです。

人間が設計したタスクを受動的に実行すること

代わりに、AIは以下を始めています。

自身の改善の可能性を積極的に探索すること

AI製品の開発者として、私たちは：

この技術進歩がもたらす機会を捉え

同時に、それに伴う課題とリスクに真剣に向き合う

最後の質問：あなたはこのAI自己改善の時代を迎える準備ができていますか？GoogleやUBCなどがOpenAIやClaudeのモデルを使ってAI自己進化システムを成功させた今、いずれにせても、あなたは少なくとも私のように、DeepSeekを使ってコードを実行し、体験してみるべきです。

Reference：

AlphaEvolve

論文：https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf

コード：https://github.com/codelion/openevolve（Google公式ソースコードではありません。ご注意ください）

DGM

論文：https://arxiv.org/pdf/2505.22954

コード：https://github.com/jennyzzt/dgm

未来はすでに到来しています。縁があれば共に歩みましょう。

本文完結、著者：修猫

　　　　　　　　　　　　　　　転載は私にご連絡ください

🎉一緒に素晴らしいものをたくさん作りましょう！🎉

この記事がお役に立ったと感じたら

【いいね】、【表示】をお願いします

あなたが私に「いいね」「表示」をしても、私にしか見えません

👉WeChat ID：xiumaoprompt

追加する際は意図を明記してください！

AGIへの道がさらに近くに！0.31元でGoogleのAlphaEvolveとUBCのDGM「ダーウィン・ゲーデル・マシン」を動かす？

短いURLをシェア