機器之心報道
編集:張倩、+0
AIに自己進化を実現させることは、人類にとって長年の夢でした。
2003年早くも、AIの先駆者であり、LSTMの父であるJürgen Schmidhuberは、「ゲーデルマシン(Gödel Machine)」という構想を提唱しました。これは再帰的な自己改善プロトコルを使用し、新しいコードがより良い戦略を持つことを証明できれば、自身のコードを書き換えるというものです。しかし、これはあくまで仮説に過ぎませんでした。
近年、モデルの自己学習や進化に関する研究が徐々に増えてきており、多くの研究者の目標は、単に「モデルを訓練する」ことから「モデルが自己学習し、自己進化する能力を獲得する」ことへと変化しています。Googleが最近発表したAlphaEvolveはその重要な代表例です。
過去1週間で、この方向の進展は特に豊富でした。LLM(またはエージェント)が自己訓練を学ぶことに関するいくつかの論文がarXivに集中して公開され、中には「ゲーデルマシン」の構想に触発されて提案された「ダーウィン・ゲーデルマシン」さえ含まれていました。おそらく、AIモデルの自己進化能力は加速的に向上しているのかもしれません。
この記事では、最近のいくつかの論文について詳しくご紹介します。それらは以下の通りです。
Sakana AIとブリティッシュコロンビア大学などの機関が共同で発表した「ダーウィン・ゲーデルマシン(DGM)」:DGMは基盤モデルとオープンエンドなアルゴリズムを利用して、新しいAIエージェントを作成・評価し、自身のPythonコードベースを読み書きして自己改善を行うことができます。また、コーディングベンチマークでの性能を評価することで、変更が有効かどうかを判断します。実験により、DGMは継続的に自己改善でき、異なるモデルやプログラミング言語間で移行可能であることが示されました。
CMUの「自己報酬訓練(SRT)」:大規模言語モデルが外部ラベルなしで自身の判断信号を通じて自己教師あり学習と訓練を行い、性能を向上させることを目指す「自己報酬訓練」というオンライン自己訓練強化学習アルゴリズムを提案しました。
上海交通大学などの機関が提案したマルチモーダル大規模モデルの継続的自己改善フレームワーク「MM-UPT」:完全に教師なしのシナリオで、強化学習フレームワークGRPOを通じてマルチモーダル大規模モデルの継続的な自己改善を実現します。彼らは簡潔で効率的なフレームワークMM-UPT(Multi-Modal Unsupervised Post-Training)を提案し、複数の画像-テキスト数学推論ベンチマークでその有効性を検証しました。
香港中文大学がvivoなどの機関と共同で発表した自己改善フレームワーク「UI-Genie」:GUIエージェントにおける2つの主要な課題、すなわち軌跡結果の検証の難しさと高品質な訓練データの規模化された取得の困難さを解決することを目的としています。これらの課題に対処するため、研究チームはそれぞれ報酬モデルと自己改善パイプラインを提案しました。
ダーウィン・ゲーデルマシン:AIが自身のコードを書き換えることで自己改善を実現
論文タイトル:Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents
論文リンク:https://arxiv.org/abs/2505.22954
ブログ:https://sakana.ai/dgm/
人工知能研究の長期的目標の一つは、継続的に学習できるAIシステムを創造することです。この目標を達成する魅力的な道筋の一つは、AIが自身のコード(学習を担当するコードを含む)を書き換えることで自己改善を実現することです。これはJürgen Schmidhuberが数十年前から提唱してきた構想で、「ゲーデルマシン」と呼ばれる仮説上の自己改善型AIです。数学的に新しいコードがより良い戦略を持つことが証明された場合、それは再帰的に自身のコードを書き換えることで問題解決策を最適化し、したがってメタ学習(すなわち「学習を学ぶ」)の分野における核心的な概念となっています。
理論上のゲーデルマシンは、証明可能な良性自己修正を保証しますが、その実現は非現実的な仮定に依存しています。AIは、コード修正が純粋な利益をもたらすことを数学的に証明できる場合にのみ変更を実施しなければなりません。
この問題に対し、Sakana AIはブリティッシュコロンビア大学のJeff Clune研究室と協力し、より実現可能な解決策を提案しました。それは、ダーウィン進化のようなオープンエンドなアルゴリズムの原理を利用し、経験的検証を通じて性能を向上させる改善方法を見つけることです。
彼らはこの成果を「ダーウィン・ゲーデルマシン(DGM)」と名付けました。DGMシステムは、基盤モデルを利用してコード改善案を提案し、オープンエンドなアルゴリズムの最新の革新を採用して、増え続ける多様な高品質AIエージェントのライブラリを探索します。実験により、DGMは計算能力を得るほど、自己改善効果が顕著になることが示されました。学習に依存するAIシステムが最終的には人工設計システムを凌駕するという明確な傾向を鑑みると、DGMは短期間で人工設計のAIシステムを凌駕する可能性が高いです。
最初のDGMはコーディングエージェントであり、以下のことが可能です。
自身のコードを読み取り、修正する。
修正が性能を向上させたかを評価する。
AI設計空間をオープンエンドに探索する。
ダーウィン・ゲーデルマシンは、自身のコードを書き換えることでプログラミングタスクの性能を向上させる自己改善型プログラミングエージェントです。パッチ検証ステップの追加、ファイル表示機能の最適化、編集ツールの強化、複数のソリューションを生成して最適なものを選択する機能、新しい修正を実施する際に過去の試行記録(失敗原因を含む)を記録するなど、さまざまな自己改善を実現できます。
ダーウィン・ゲーデルマシンは、オープンエンドな探索原則を適用することで、拡大し続けるエージェントのライブラリを段階的に構築します。このシステムは、自己修正と下流タスクの評価を交互に実行することで、新しいエージェントを継続的に作成し、評価します。
sw-benchにおいて、DGMは自動的にその性能を20.0%から50.0%に向上させました。Polyglotでは、DGMの性能は初期の14.2%から30.7%へと飛躍的に向上し、Aiderの手作業で設計された代表的なエージェントをはるかに上回りました。これらの目覚ましい成果は、DGMが自身のコードに対する有益な変更を発見し、実現する能力を証明しています。
モデルの自己報酬訓練:潜在能力、崩壊、および緩和戦略
論文タイトル:Can Large Reasoning Models Self-Train?
論文リンク:https://arxiv.org/abs/2505.21444
プロジェクトアドレス:https://self-rewarding-llm-training.github.io/
コードアドレス:https://github.com/tajwarfahim/srt
データセット:https://huggingface.co/collections/ftajwar/self-rewarding-llm-training-6835218091832c3664176553
検証可能な報酬を用いた強化学習は、大規模言語モデルの推論能力を著しく向上させ、特に数学やコーディングの分野で顕著です。しかし、この方法は人手で作成された真のラベル検証器に依存しており、各問題に対して報酬信号を生成するコストが高く、制約があります。本研究では、研究チームは以下の問題を提起します。
推論モデルは、真のラベルにアクセスすることなく、自身のフィードバックのみを使用して自己訓練できるか?
自己訓練の性能は、真のラベルに基づく強化学習訓練のレベルに達するか?
自己訓練は無期限に継続できるか?その改善は最終的に制限されるか?
モデルの自己訓練を効果的に維持するためにどのような戦略が有効か?
自己報酬訓練(SRT)
先行する一貫性に基づく自己改善研究に触発され、研究チームは自己報酬訓練(Self-Rewarded Training、SRT)と呼ばれる、シンプルで効果的な自己訓練強化学習手法を導入しました。この方法は、強化学習訓練中に、モデルが生成した複数のソリューション間の一貫性によって正確性を評価することで、ラベル付けされたデータがない状況で自己教師あり信号を提供します。
SRTの概要。RLVR法では、システムは真の検証器を介して強化学習訓練のための報酬信号を生成します。これに対し、SRT法は真の検証器に依存せず、モデル自身が生成した結果の多数決メカニズムを介して真値を推定し、この代替報酬信号を利用してモデルを訓練します。
SRTと早期訓練段階におけるRL性能の一致
研究チームは、経験的に、訓練の早期段階においてSRTが、黄金標準の回答で明示的に訓練された標準的な強化学習手法に匹敵する性能を達成できることを示しました。テストデータセットには、AMC、AIME24、AIME25が含まれます。しかし、研究チームは、右端の図に示されているDAPOデータセットでの訓練状況のように、その性能が最終的に崩壊することを発見しました。
自己訓練は必然的に崩壊する
研究チームは、挑戦的なDAPOデータセットでSRTを訓練した際の訓練ダイナミクスを分析しました。
これらの発見は、モデルが矛盾のない(上図の2番目の図参照)が誤った(上図の最も左の図参照)回答を生成することで、自己割り当てられた報酬を最大化することを学習していることを示唆しています。人間の検査によってこのことが確認されました。崩壊後、モデルの出力はランダムなトークンシーケンスに退化し、固定された、プロンプトとは無関係な回答(例えば、「答えは1」)を伴います。この挙動には、シンプルかつ正確な理論的根拠があります。
SRTの目標によって定義された強化学習最適化問題は、その正確性に関わらず、出力間の一貫性を明確に奨励します。したがって、この目標の下での最適戦略は、入力に関係なく同じ回答を生成するように退化し、人為的に報酬を最大化します。このような代理目標(proxy target)で自己訓練を継続すると、特にそれが実際のタスクを解決するよりも単純な場合、モデルをこの自明な解(trivial solution)へと自然に駆動します。
緩和戦略は有効である可能性がある
研究チームは、報酬ハッキング(reward hacking)を緩和するためのいくつかの戦略を提案し、将来のモデルの継続的な改善を維持する効果的な方法の基礎を築いています。
(i)早期停止(Early Stopping):小さな検証セットは、モデルの最適な性能点を確実に検出し、自己訓練プロセス中に崩壊が発生するのを防ぐことができます。すべての保留セット(heldout sets)において、最適な性能点はほぼ同じ位置に出現するため、いずれかの保留セットを使用して早期停止を行うことは有効です。
(ii)オフラインで生成されたラベルを使用した自己訓練:効果的な方法としては、進化中のポリシーからのラベルを利用するのではなく、安定した以前に固定されたチェックポイントから擬似ラベルを生成することが挙げられます。これにより訓練が安定し、同時にSRTに匹敵する性能を達成できます。
(iii)カリキュラム学習を組み合わせた自己訓練:研究チームは、より挑戦的なデータセットで訓練する際に、モデルの崩壊がより速く発生すると仮定しています。この推測は、研究チームの経験的発見と一致しています。その直感としては、より挑戦的なデータセットでは、モデルは事前訓練された知識を放棄し、真に潜在的なタスクを解決するのではなく、自己一貫性を最適化する傾向が強まるというものです。研究チームはこの仮説を利用し、(a)通過率と(b)多数決投票の頻度に基づいてDAPOデータセット中の「最も単純な」サブセットを特定することで、カリキュラム学習戦略(詳細は論文参照)を実施しました。
これらのカリキュラムサブセットにおける性能は、DAPOデータセット全体で真のラベルを使用した標準的な強化学習訓練に匹敵するレベルに達しました。これらの有望な結果は、カリキュラム学習戦略がSRTの利点をさらに拡大し、将来の研究にとってエキサイティングな道を開く可能性を示唆しています。
MM-UPT:マルチモーダル大規模モデルの継続的自己進化
論文タイトル:Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
論文リンク:https://arxiv.org/abs/2505.22453
プロジェクトコード:https://github.com/waltonfuture/MM-UPT
近年、マルチモーダル大規模言語モデルは、視覚質問応答や画像テキスト推論などのタスクで顕著な進歩を遂げています。しかし、これらの強力な基盤モデルの性能をさらに向上させるには、高品質な人間によるアノテーションデータを用いた教師ありファインチューニングや強化学習に依存することが多く、これはコストとスケーラビリティの面で深刻な課題に直面しています。これまでの研究では教師なしのポストトレーニング方法が模索されてきましたが、ほとんどがプロセスが複雑で反復が難しく、データ利用効率が低いという問題がありました。
この論文では、著者は完全に教師なしのシナリオで、強化学習フレームワークGRPOを通じてマルチモーダル大規模モデルの継続的な自己改善を実現することを初めて探求しました。彼らは、簡潔で効率的なフレームワークMM-UPT(Multi-Modal Unsupervised Post-Training)を提案し、複数の画像テキスト数学推論ベンチマークでその有効性を検証しました。
MM-UPTの核心的なアイデアは、主に以下の2つの鍵となる点にあります。
強化学習におけるGRPOは、安定して効率的なオンライン方策最適化能力を提供します。
多数決投票は、ラベルなしデータにおいてモデル出力のための擬似ラベルを生成し、自己最適化を推進することができます。
全体のプロセスは以下の通りです。
画像と問題が与えられた場合、モデルは複数の候補回答を生成します。
多数決投票を使用して、最も頻繁に出現する回答を、現在の入力の「擬似ラベル」として選択します。
この「擬似ラベル」を使用して報酬を計算し、GRPO方策に基づいてモデルを更新します。
このプロセス全体は、外部からの教師信号や真の回答を必要とせず、モデルが自身の「合意」行動に基づいて強化学習を行うことで、継続的な性能向上を実現できます。
著者は、4つのマルチモーダル数学推論ベンチマークデータセット(MathVisioan、MathVista、We-Math、MathVerse)で広範な実験を行いました。表1の結果は以下を示しています。
標準の訓練セットを使用し、人間のアノテーションされた回答を一切使用しない場合でも、MM-UPTはQwen2.5-VL-7Bの精度を66.3%から72.9%(MathVista)に向上させることができます。
以前の教師なし自己改善手法(Genixer、STIC、SRLMなど)を上回ります。
教師ありのGRPOにさえ匹敵する性能を示します。
標準データセットで回答を隠して教師なし訓練を行った後、著者はさらに挑戦的な問題を探求しました。モデルは自身で訓練データを生成して自己改善できるか?この目的のために、MM-UPTは2つのシンプルな合成データ生成戦略を導入しました。
In-Context Synthesizing(文脈内合成)
モデルは、与えられた画像、元の問題、元の回答を前提として、新しい問題を生成します。生成された問題は、元の問題と構造的に類似しており、意味的な書き換えや条件の置き換えによってデータ拡張を行うことに相当します。
Direct Synthesizing(直接合成)
画像入力のみが提供され、モデルは画像の内容に基づいて問題を完全に生成します。この方法は、より多様な問題を生成しますが、ある程度の幻覚が発生する可能性もあります。 どちらの方法で問題を生成しても、MM-UPTは多数決投票で擬似ラベルを生成し、モデルの強化学習更新を駆動します。
表2の結果は、訓練データが完全にモデル自身によって生成された場合でも、MM-UPTがマルチモーダル推論能力を顕著に向上させることができ、一部のタスクでは元の問題を使用したデータよりも優れていることを示しています。これは、マルチモーダル大規模モデルが「自己質問+自己最適化」の潜在能力を持っていることを示し、将来AIが自律的に訓練コーパスを生成して自己進化するパラダイムの強固な基盤を提供します。
MM-UPTはなぜ有効なのか?著者はその有効性を簡単な例で説明しています。ある二値分類問題において、モデルが正しく予測する確率が高いと仮定すると、。このモデルから独立して
個の回答
をサンプリングし、多数決投票によって最も頻繁に出現する回答を擬似ラベルとして選択します。確率変数
を正しく予測した回数と定義すると、多数決投票が正しい確率P_MVは以下のようになります。
であるため、以下が成り立ちます。
すなわち、多数決投票は単一の予測よりも信頼性が高いということです。これがMM-UPTで多数決投票を擬似ラベルとして使用する合理性であり、効果的な自己教師あり報酬信号を構築できる理由です。しかし、著者は境界条件も指摘しています。モデルがタスクに関する事前知識を欠く場合(ThinkLite-11Kのような困難なデータセットの場合など)、多数決投票は逆に誤った予測を強化し、性能低下につながることがあります。
総じて、MM-UPTはマルチモーダル大規模モデルのポストトレーニング段階において、人間のアノテーションや外部報酬モデルを必要としない自己改善方法を提供し、教師なしシナリオにおける強化学習の潜在能力を示しました。今後、より強力な自己評価メカニズム(LLM-as-a-Judgeなど)や複雑な報酬設計を組み合わせることで、MM-UPTフレームワークの能力範囲をさらに拡大できる可能性があります。
UI-Genie:GUIエージェントの効率的な自己改善を可能にする新しいフレームワーク
論文タイトル:UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
論文リンク:https://arxiv.org/abs/2505.21496
プロジェクトアドレス:https://github.com/Euphoria16/UI-Genie
この論文では、研究チームはUI-Genieという自己改善フレームワークを紹介しました。これは、GUIエージェントにおける2つの主要な課題、すなわち軌跡結果の検証の困難さと、高品質な訓練データを大規模に取得することの難しさを解決することを目的としています。これらの2つの課題に対処するため、研究チームはそれぞれ報酬モデルと自己改善パイプラインを提案しました。
この報酬モデル、すなわちUI-Genie-RMは、画像とテキストが交互に配置されたアーキテクチャを採用しており、履歴のコンテキスト情報を効率的に処理し、アクションレベルとタスクレベルの報酬を統一することができます。
イテレーションによる合成軌跡生成により、手作業によるアノテーションを不要にする
自己改善ループにより、エージェントと報酬モデルを共同で進化させる
人間の介入なしで高品質なデータセットを生成できる
UI-Genie-RMの訓練をサポートするため、研究チームは、ルールベースの検証、制御された軌跡の損傷、難易度の高いネガティブサンプルのマイニングなど、綿密に設計されたデータ生成戦略を開発しました。
2番目の課題に対処するため、研究チームは自己改善パイプラインを設計しました。これは、動的な環境での報酬誘導探索と結果検証を通じて、エージェントと報酬モデルの能力を段階的に強化し、それによって解決可能な複雑なGUIタスクの範囲を拡大するものです。
モデル訓練の面では、研究チームはUI-Genie-RM-517kとUI-Genie-Agent-16kデータセットを生成しました。これは、GUIエージェント専用の報酬データセットとしては初の試みであるだけでなく、人間のアノテーションなしで高品質な合成軌跡を生成できる能力も示しています。
UI-Genieデータセットの統計情報。UI-Genie-RM-517kはGUIエージェント専用の初の報酬データセットであり、UI-Genie-Agent-16kは人間によるアノテーションなしの合成軌跡を含んでいます。
実験結果は、3世代にわたるデータとモデルの自己改善の反復を経て、UI-Genieが複数のGUIエージェントベンチマークで業界トップレベルの性能を達成したことを示しています。研究チームは、この分野のさらなる研究を促進するために、フレームワークの完全な実装と生成されたデータセットをオープンソース化しました。
UI-Genie、Qwen2.5-VL、UI-TARSの3つのベンチマークでの性能比較。
モデルの自己改善に関する論文は他にもたくさんあります。もしあなたが関連研究を行っている場合、コメント欄でご自身の研究を紹介することを歓迎します。
© THE END
転載については、この公式アカウントにご連絡の上、許可を得てください。
投稿や報道依頼:liyazhou@jiqizhixin.com