最近、AIの自己進化・自己改善に関する研究と議論がますます活発になっています。
今月初めには、坂本AIとブリティッシュコロンビア大学などの機関が協力した「ダーウィン・ゲーデルマシン(DGM)」、CMUの「自己報酬学習(SRT)」、上海交通大学などが提案したマルチモーダル大規模モデルの継続的自己改善フレームワーク「MM-UPT」、香港中文大学とvivoなどが共同開発した自己改善フレームワーク「UI-Genie」など、いくつかの研究をまとめて報告しました。詳細については、記事「LSTMの父が22年前に構想したものが現実になるか?一週間でAI「自己進化」論文が集中発表、新トレンド出現か?」をご参照ください。
その後も関連研究は継続して発表されており、以下の画像がその例を示しています。
先日、OpenAIのCEOで有名な𝕏のインフルエンサーであるサム・アルトマンが、自身のブログ「穏やかなるシンギュラリティ(The Gentle Singularity)」の中で、AI/知能ロボットが自己改善を達成した未来を構想しました。彼は「最初の数百万体の人型ロボットは従来の方法で製造する必要があるが、その後、それらはサプライチェーン全体を操作してより多くのロボットを製造できるようになり、それらのロボットはさらに多くのチップ製造施設やデータセンターなどを建設できるようになるだろう」と記しています。
その後すぐに、𝕏ユーザー@VraserXが、OpenAIの内部関係者が、同社がすでに再帰的に自己改善するAIを内部で実行していると漏洩したと報じました。このツイートは広範な議論を巻き起こし、一部からは驚くことではないとの声も上がった一方、この「OpenAIの内部関係者」が果たして本当なのかという疑問も投げかけられました。
https://x.com/VraserX/status/1932842095359737921
いずれにせよ、AIは確かに自己進化の道を歩んでいます。
MITが昨日発表した「Self-Adapting Language Models」はその最新の例の一つであり、LLMが自身の重みを更新する方法であるSEAL🦭、すなわちSelf-Adapting LLMsを提案しています。このフレームワークでは、LLMは自身の学習データ(自己編集)を生成し、新しい入力に基づいて重みを更新することができます。この自己編集は強化学習を通じて実現され、更新されたモデルの下流タスクでのパフォーマンスが報酬として使用されます。
論文タイトル:Self-Adapting Language Models
論文アドレス:https://arxiv.org/pdf/2506.10943
プロジェクトページ:https://jyopari.github.io/posts/seal
コードアドレス:https://github.com/Continual-Intelligence/SEAL
この論文の発表後、広範な議論が巻き起こりました。Hacker Newsでは、あるユーザーが、この自己編集方法は非常に巧妙だが、「継続的に自己改善するエージェント」がすでに実現されたとはまだ言えない、とコメントしています。
論文の筆頭著者であるアダム・ツヴァイガーも𝕏上で同様の説明をしています。
また、これは私たちが「イベントホライズン(event horizon)」と呼ばれるものに近づいていることを示しているという意見もあります。この概念は、実際にはサム・アルトマンのブログ「穏やかなるシンギュラリティ」の最初の文にも登場しましたが、アルトマンはより過激で、「我々はすでにイベントホライズンを越えた」と述べています。簡単に言えば、イベントホライズンとは、一度越えると人類が避けられない深い変革の段階、例えば超知能への道に突入する不可逆的な臨界点を指します。
もちろん、自己改善型AIに対して警戒心や懸念を抱いている人もいます。
では、この人気の研究論文がどのような成果を挙げたのか見ていきましょう。
自己適応型言語モデル(SEAL)
SEALフレームワークは、言語モデルが新しいデータに遭遇した際、自身の合成データを生成しパラメータを最適化(自己編集)することで、自己改善を実現することを可能にします。
このモデルの訓練目標は、モデルコンテキストで提供されるデータを使用して、トークンを生成することで直接これらの自己編集(SE)を生成することです。
自己編集の生成は、強化学習によって学習されます。ここで、モデルが生成した自己編集を適用した後に、目標タスクでのモデルのパフォーマンスが向上した場合に、モデルに報酬が与えられます。
したがって、SEALは2つのネストされたループを含むアルゴリズムとして理解できます。1つは自己編集の生成を最適化するための外部RLループ、もう1つは生成された自己編集を使用して勾配降下法でモデルを更新する内部更新ループです。
この方法は、メタ学習のインスタンスと見なすことができ、効果的な自己編集をメタ学習的に生成する方法を研究するものです。
汎用フレームワーク
θを言語モデルLM_θのパラメータとします。SEALは単一のタスクインスタンス(C, τ)で動作し、Cはタスク関連情報を含むコンテキストであり、τはモデルの適応度を評価するための下流評価を定義します。
例えば、知識統合タスクでは、Cはモデルの内部知識に統合されることを目的とした段落であり、τはその段落に関する一連の質問とその関連する回答です。一方、少数ショット学習タスクでは、Cは新しいタスクの少数ショットのデモンストレーションを含み、τはクエリ入力とグラウンドトゥルース出力です。
Cが与えられると、モデルは自己編集SE(その形式はドメインによって異なります)を生成し、教師ありファインチューニングを通じて自身のパラメータを更新します:θ′ ← SFT (θ, SE)。
チームは、自己編集の生成プロセスを最適化するために強化学習を使用しました。モデルは行動(SEを生成)を実行し、LM_θ′のτ上でのパフォーマンスに基づいて報酬rを受け取り、期待報酬を最大化するためにポリシーを更新します。
ただし、標準的な強化学習の設定とは異なり、ここでの設定では、与えられた行動に割り当てられる報酬は、行動実行時のモデルパラメータθに依存します(θはθ′に更新され、その後評価されるため)。
このように、基盤となる強化学習の状態は必ずポリシーのパラメータを含み、(C, θ)で与えられます。たとえポリシーの観測値がCに限定されるとしても(θを直接コンテキストに配置することは不可能です)。
これは、以前のバージョンモデルθ_oldを使用して収集された(状態、行動、報酬)の三つ組が古くなり、現在のモデルθ_currentと一致しない可能性があることを意味します。したがって、このチームはポリシーベースのアプローチを採用し、現在のモデルから自己編集SEをサンプリングし、さらに重要なことに、報酬も現在のモデルを使用して計算されます。
このチームは、グループ相対ポリシー最適化(GRPO)や近傍ポリシー最適化(PPO)など、様々なオンラインポリシー手法を試みましたが、訓練が不安定であることが判明しました。
最終的に、彼らはDeepMindの論文「Beyond human data: Scaling self-training for problem-solving with language models.」のReST^EMを選択しました。これは、フィルター済み行動クローンに基づいたよりシンプルな手法であり、「拒否サンプリング+SFT」を意味します。
ReST^EMは期待値最大化(EM)プロセスと見なすことができます。Eステップは現在のモデルポリシーから候補出力をサンプリングし、Mステップは正の報酬を得たサンプルのみを教師ありファインチューニングによって強化します。この方法では、以下の二値報酬の下で目的関数(1)の近似を最適化します。
より正確には、(1)を最適化する際、勾配を計算する必要があります。しかし、ここでの設定では、報酬項r (SE, τ, θ_t)はθ_tに依存しますが、微分可能ではありません。この問題を解決するために、このチームは報酬をθ_tに対して固定とみなすアプローチを取りました。この近似により、N個のコンテキストと各コンテキストからM個サンプリングされた自己編集を含むミニバッチの場合、モンテカルロ推定器は以下のようになります。
ここでp_θ_tはモデルの自己回帰分布、y_s^(i,j)は自己編集SE_ijのs番目のトークン、すなわちコンテキストC_iのj番目のサンプルです。(4)においてr=0のシーケンスを無視できるため、このチームの研究では、二値報酬(2)の下で(報酬項に勾配停止を適用)、ReST^EMは単純な「良い自己編集に対するSFT」を用いるだけで(1)を最適化できることが示されています。アルゴリズム1はSEALの訓練ループを示しています。
最後に、彼らは、本論文の実装では単一のモデルを使って自己編集を生成し、それらから学習しているが、これらの役割を分離することも可能だと指摘しています。このような「教師-生徒」形式では、生徒モデルは別の教師モデルによって提案された編集を使って更新されます。そして、教師モデルは、生徒の学習効果を最大限に高める編集を生成するように強化学習によって訓練されます。
具体的な領域におけるSEALのインスタンス化
理論ができたことで、このチームはSEALのインスタンスも構築しました。具体的には、知識統合と少数ショット学習の2つの領域を選択しました。
そのうち、知識統合の目標は、記事で提供された情報をモデルの重みに効果的に統合することです。以下の図は関連する設定を示しています。
一方、以下の図は少数ショット学習の設定を示しています。
これら2つのインスタンス化に関するより詳細な説明は、元の論文をご覧ください。以下では、SEALの実際のパフォーマンスを見ていきましょう。
実験結果
少数ショット学習
実験で用いられたモデルはLlama-3.2-1B-Instructで、ベンチマークはARCでした。比較対象となった手法には、ICL(In-Context Learning)、TTT + 自己編集(強化学習なし)、Oracle TTTが含まれます。結果は以下の表に示されています。
ご覧の通り、SEALはベースラインと比較して、適応成功率を大幅に向上させました。72.5%は、基礎モデルの自己編集を使用したが強化学習訓練なしの場合の20%や、適応なしの場合の0%と比べて顕著です。しかし、パフォーマンスは依然としてOracle TTTよりも低く、新しい手法にはさらなる改善の余地があることを示しています。
知識統合
知識統合には、より大きなQwen2.5-7Bが使用され、SQuAD記事からの新しい事実内容を統合することを目的としました。ここでは、比較対象となる手法として、ベースモデル、記事のみで訓練されたモデル、記事+合成データで訓練されたモデル、記事+GPT-4.1合成データで訓練されたモデルが挙げられます。結果は以下の表に示されています。
ご覧の通り、単一記事(n = 1)の場合と継続的事前学習(n = 200)の場合の両方で、SEAL手法の精度はベースラインを上回っています。
まず、ベースのQwen-2.5-7Bモデルによって生成された合成データで訓練した後、モデルのパフォーマンスはすでに顕著な向上を遂げ、それぞれ32.7%から39.7%および41.0%に向上しました。その後、強化学習を行うことで、パフォーマンスはさらに向上しています(47.0%および43.8%)。
図4は、各外部強化学習イテレーション後の精度を示しています。
ご覧の通り、2回のイテレーションでSEALはGPT-4.1データを用いた設定を上回るのに十分でした。その後のイテレーションでは収益が減少しており、これはこの戦略が段落を学習しやすい原子的な事実に蒸留する編集形式に急速に収束したことを示しています(図5の定性的例を参照)。
この例では、強化学習がどのようにしてより詳細な自己編集の生成を導き、それによってより優れたパフォーマンスをもたらすかを見ることができます。この例では進捗が明確ですが、他の例ではイテレーション間の違いがより微妙な場合もあります。
さらに、このチームは論文中で、SEALフレームワークの破局的忘却、計算コスト、コンテキスト依存評価といったいくつかの限界についても議論しています。詳細については元の論文をご参照ください。
最後に、簡単なアンケートです。真の自己進化型AIはいつ実現すると思いますか?