LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか？

Synced Reviewからの報告

編集：Panda

最近、AIの自己進化/自己発展に関する研究と議論がますます活発になっています。

今月初めには、坂中AIとブリティッシュコロンビア大学などの機関が協力した「ダーウィン・ゲーデル・マシン（DGM）」、CMUの「自己報酬型訓練（SRT）」、上海交通大学などの機関が提案したマルチモーダル大規模モデルの継続的自己改善フレームワーク「MM-UPT」、香港中文大学とvivoなどの機関が共同で開発した自己改善フレームワーク「UI-Genie」など、いくつか整理して報告しました。詳細は記事「LSTMの父が22年前に構想したものが現実になる？1週間でAI「自己進化」論文が集中発表、新たなトレンド出現か？」をご覧ください。

その後も関連研究は継続して発表されており、以下の画像はいくつかの例を示しています。

先日、OpenAIのCEOで著名な𝕏のインフルエンサーであるサム・アルトマンは、自身のブログ「The Gentle Singularity（穏やかな特異点）」で、AI/インテリジェントロボットが自己改善を達成した未来を展望しました。彼は「我々はまず、伝統的な方法で最初の数百万体の人型ロボットを製造しなければならないが、その後、それらがサプライチェーン全体を操作してより多くのロボットを製造できるようになり、それらのロボットがさらに多くのチップ製造施設やデータセンターなどを建設できるようになるだろう」と記しました。

その直後、𝕏ユーザーの@VraserXが、OpenAIの内部関係者が同社が既に再帰的な自己改善が可能なAIを内部で運用しているとリークしたと報じました。このツイートは広範な議論を巻き起こし、驚くことではないと述べる者もいれば、この「OpenAI内部関係者」が本当に信頼できるのかと疑問を呈する者もいました。

https://x.com/VraserX/status/1932842095359737921

しかし、いずれにせよ、AIは確かに自己進化の道を歩んでいます。

昨日MITが発表した「Self-Adapting Language Models」はその最新の証拠の一つであり、LLMが自身の重みを更新する方法であるSEAL🦭、すなわちSelf-Adapting LLMsを提案しています。このフレームワークでは、LLMは自身の訓練データを生成し（自己編集）、新しい入力に基づいて重みを更新することができます。この自己編集は強化学習を通じて学習され、更新されたモデルの下流タスクでの性能が報酬として使用されます。

論文タイトル：Self-Adapting Language Models

論文URL：https://arxiv.org/pdf/2506.10943

プロジェクトページ：https://jyopari.github.io/posts/seal

コードURL：https://github.com/Continual-Intelligence/SEAL

この論文の発表後、広範な議論が巻き起こりました。Hacker Newsでは、あるユーザーがこの自己編集方法は非常に巧妙だが、「継続的に自己改善するエージェント」が既に実現したとはまだ言えないとコメントしました。

論文の筆頭著者であるAdam Zweigerも𝕏で同様の説明をしています：

また、これは私たちが「事象の地平線（event horizon）」と呼ばれるものに近づいていることを示していると述べる人もいます。この概念は、サム・アルトマンのブログ「穏やかな特異点」の冒頭の一文にも登場しますが、アルトマンはもっと踏み込んで「私たちは既に事象の地平線を越えた」と述べています。簡単に言えば、事象の地平線（event horizon）とは、一度越えてしまえば、人類が何らかの深い変革の段階、例えば超知能への道に不可避的に進むことになる、不可逆的な臨界点を指します。

もちろん、自己改善型AIに対して警戒心と懸念を抱いている人もいます。

次に、この注目すべき研究論文がどのような成果を挙げたのかを見てみましょう。

自己適応型言語モデル（SEAL）

SEALフレームワークは、言語モデルが新しいデータに遭遇した際に、自身の合成データを生成し、パラメータを最適化する（自己編集）ことで、自己改善を可能にします。

このモデルの訓練目標は、モデルのコンテキストで提供されたデータを使用し、トークンを生成することで、これらの自己編集（SE）を直接生成できることです。

自己編集の生成は強化学習を通じて学習されます。ここでは、モデルが生成した自己編集が適用された後、目標タスクでのモデルの性能が向上した場合に、モデルに報酬が与えられます。

したがって、SEALは2つのネストされたループを含むアルゴリズムと理解できます。1つは自己編集の生成を最適化するための外部RLループ、もう1つは生成された自己編集を使用して勾配降下法でモデルを更新する内部更新ループです。

この方法はメタ学習の一例と見なすことができ、効果的な自己編集をメタ学習的に生成する方法を研究しています。

汎用フレームワーク

θを言語モデルLM_θのパラメータとします。SEALは単一のタスクインスタンス(C, τ)で動作します。ここでCはタスク関連情報を含むコンテキストであり、τはモデルの適応度（adaptation）を評価するために使用される下流評価を定義します。

例えば、知識統合タスクでは、Cはモデルの内部知識に統合されることを意図した段落であり、τはその段落に関する一連の質問とそれに対応する回答です。一方、少数ショット学習タスクでは、Cは新しいタスクの少数ショットデモンストレーションを含み、τはクエリ入力と真の出力です。

Cが与えられると、モデルは自己編集SE（その形式は領域によって異なります）を生成し、教師ありファインチューニングを通じて自身のパラメータを更新します：θ′ ← SFT (θ, SE)。

このチームは強化学習を用いて自己編集の生成プロセスを最適化しました。モデルはアクション（SEの生成）を実行し、LM_θ′のτ上でのパフォーマンスに基づいて報酬rを受け取り、期待報酬を最大化するように戦略を更新します：

しかし、標準的な強化学習の設定とは異なり、ここでは、特定のアクションに割り当てられる報酬は、アクション実行時のモデルパラメータθに依存します（θがθ′に更新され、その後評価されるため）。

したがって、基盤となる強化学習の状態は必ず戦略のパラメータを含み、(C, θ)によって与えられます。たとえ戦略の観測値がCに限定されていても（θを直接コンテキストに配置することは実現不可能です）。

これは、以前のバージョンのモデルθ_oldを使用して収集された(状態, 行動, 報酬)の3つ組が古くなり、現在のモデルθ_currentと一致しない可能性があることを意味します。そのため、このチームはポリシーベースのアプローチを採用しました。ここでは、現在のモデルから自己編集SEをサンプリングし、重要なことに、報酬も現在のモデルを使用して計算されます。

このチームは、グループ相対ポリシー最適化（GRPO）や近傍ポリシー最適化（PPO）など、様々なオンポリシー手法を試みましたが、訓練が不安定であることを発見しました。

最終的に彼らは、DeepMindの論文「Beyond human data: Scaling self-training for problem-solving with language models.」からReST^EMを選択しました。これは、フィルタリングされた行動クローンに基づくよりシンプルな方法であり、「拒否サンプリング+SFT」を意味します。

ReST^EMは期待値最大化（EM）プロセスと見なすことができます。Eステップは現在のモデルポリシーから候補出力をサンプリングし、Mステップは正の報酬を得たサンプルのみを教師ありファインチューニングによって強化します。この方法は、以下の二値報酬の下で目標(1)の近似を最適化します。

さらに正確に言えば、(1)を最適化する際には勾配を計算する必要があります。しかし、この設定では、報酬項r(SE, τ, θ_t)はθ_tに依存しますが、微分不可能です。この問題を解決するため、チームは報酬をθ_tに対して固定とみなしました。この近似により、N個のコンテキストと各コンテキストにつきM個の自己編集がサンプリングされたミニバッチの場合、モンテカルロ推定器は次のようになります。

ここで、p_θ_tはモデルの自己回帰分布を示し、y_s^(i,j)は自己編集SE_ijのs番目のトークン、すなわちコンテキストC_iのj番目のサンプルです。(4)においてr=0のシーケンスを無視できるため、チームの研究では、二値報酬(2)の下（報酬項に停止勾配を適用）で、ReST^EMは単純な「良い自己編集に対するSFT」を用いるだけで(1)を最適化できることを示しています。アルゴリズム1はSEALの訓練ループを示します。

最後に、彼らは、本論文の実装では単一のモデルを用いて自己編集を生成し、そこから学習しているが、これらの役割を分離することも可能であると指摘しました。そのような「教師-生徒」形式では、生徒モデルは別の教師モデルによって提案された編集を用いて更新されます。そして、教師モデルは強化学習を通じて訓練され、生徒の学習効果を最大限に高める編集を生成します。

特定の領域向けSEALのインスタンス化

理論が整ったところで、チームはSEALのインスタンスも構築しました。具体的には、知識統合と少数ショット学習の2つの領域を選択しました。

このうち、知識統合の目標は、記事で提供された情報をモデルの重みに効果的に統合することです。下図は関連する設定を示しています。

そして、下図は少数ショット学習の設定を示しています。

これら2つのインスタンス化の詳細については、元の論文をご参照ください。次に、SEALの実際のパフォーマンスを見ていきましょう。

実験結果

少数ショット学習

実験で使用されたモデルはLlama-3.2-1B-Instructで、ベンチマークはARCです。比較対象となった方法は、ICL（In-Context Learning）、TTT + 自己編集（強化学習なし）、Oracle TTTです。結果は以下の表に示されています。

ご覧の通り、SEALはベースラインと比較して、適応成功率を大幅に向上させました。72.5% vs. 20%（ベースモデルの自己編集を使用したが強化学習なし）および0%（適応なし）です。しかし、性能は依然としてOracle TTTよりも低く、新手法にはさらなる改善の余地があることを示しています。

知識統合

知識統合では、より大きなQwen2.5-7Bが使用され、SQuAD記事からの新しい事実内容を統合することを目標としました。ここで比較された方法は、ベースモデル、記事のみで訓練されたモデル、記事+合成データで訓練されたモデル、記事+GPT-4.1合成データで訓練されたモデルです。結果は以下の表に示されています。

ご覧の通り、単一記事（n = 1）と継続事前訓練（n = 200）の両方の場合で、SEALメソッドの精度性能はベースラインを上回りました。

まず、ベースのQwen-2.5-7Bモデルが生成した合成データを使用して訓練した後、モデルの性能はすでに32.7%からそれぞれ39.7%と41.0%に大幅に向上しました。その後さらに強化学習を行うと、性能はさらに向上しました（47.0%と43.8%）。

図4は、外部強化学習の各イテレーション後の精度を示しています。

ご覧の通り、2回のイテレーションでSEALはGPT-4.1データ設定を上回るのに十分でした。その後のイテレーションでは収益が減少しており、これは、段落を学習しやすい原子事実の編集形式に迅速に収束することを示しています（図5の定性的例を参照）。

この例では、強化学習がどのようにしてより詳細な自己編集の生成につながり、それによってより優れた性能をもたらすかを見ることができます。この例では進捗が明確ですが、他の例ではイテレーション間の差がより微妙になることもあります。

また、チームは論文中で、SEALフレームワークの壊滅的忘却、計算コスト、コンテキスト依存評価に関するいくつかの限界についても議論しています。詳細は元の論文をご参照ください。

最後に、簡単なアンケートです。真の自己進化型AIはいつ実現すると思いますか？

転載については、本公式アカウントにお問い合わせの上、許可を得てください。

寄稿または報道に関するお問い合わせ：liyazhou@jiqizhixin.com

LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか？

短いURLをシェア