AIエージェントの本質が明らかになった:それらは世界モデルである!
DeepMindの研究科学者ジョン・リッチェンス(@jonathanrichens)と彼のチームは、ICML 2025で重要な論文を発表し、第一原理から意外な結論を証明しました:
エージェントは世界モデルである。
この研究は、長年AI界を悩ませてきた根本的な問いに答えます:
人間レベルのエージェントを実現するために、世界モデルは不可欠なのか?それともモデルを必要としない近道が存在するのか?
世界モデル:避けられない必須の道
世界モデルは人間の目標指向行動にとって極めて重要ですが、AI分野ではこの問題は常に議論の的となってきました。一方で、明示的なモデルベースのエージェントは多くのタスクで優れたパフォーマンスを発揮します(Gato、PaLM-E、Pi-0など)。他方で、モデルフリーな方法もタスク横断的な汎化を実現できるように見えます。
では、これらのモデルフリーなエージェントは暗黙的に世界モデルを学習しているのでしょうか?それとも汎用知能への別の道を見つけたのでしょうか?
ジョン・リッチェンスのチームの答えは非常に明確です:広範な単純な目標指向タスクに汎化できるエージェントは、その環境をシミュレートできる予測モデルを必然的に学習している。そして、このモデルは常にエージェントから復元可能である。
具体的には、彼らは、ある性能要件を満たす任意の目標条件付きポリシーから、環境の遷移関数の有界誤差近似を復元できることを証明しました。この性能要件とは、エージェントが、環境を望ましい状態に導くなど、十分に広範な単純な目標集合において後悔の境界(regret bound)を満たすことです。
さらに重要なのは、より低い後悔値やより複雑な目標を達成するためには、エージェントはますます正確な世界モデルを学習しなければならないということです。
目標条件付きポリシーは情報論的に世界モデルと等価である!
ただし、これは多段階の時間範囲を持つ目標にのみ適用され、近視眼的なエージェントは世界モデルを学習する必要はありません。
深遠な影響:創発能力からAI安全まで
これらの結果は、いくつかの興味深い推論をもたらします:
モデルフリーなパスは存在しない。
広範な目標指向タスクを実行できるエージェントを訓練したいのであれば、世界モデルの学習という課題を避けることはできません。性能や汎用性を向上させるためには、エージェントはますます正確で詳細な世界モデルを学習する必要があります。
エージェント能力の根本的な制限。
ダイナミクスが学習困難であったり、長期予測が不可能であったりする環境では、エージェントの能力は根本的に制限されます。
エージェントから世界知識を抽出。
研究チームは、エージェントのポリシーと目標から世界モデルを復元するアルゴリズム(ポリシー+目標 → 世界モデル)を導出しました。これらのアルゴリズムは、プランニング(世界モデル+目標 → ポリシー)と逆強化学習(世界モデル+ポリシー → 目標)の三つ組を完成させます。
安全保証。
いくつかのAI安全手法は正確な世界モデルを必要としますが、エージェントの能力は私たちがモデルを構築する能力を超える可能性があります。本研究は理論的な保証を提供します:エージェントから世界モデルを抽出でき、モデルの忠実度はエージェントの能力の向上とともに増加します。
創発能力の説明。
多くの目標において訓練損失を最小化するために、エージェントは明示的に訓練されていないタスクを解決できる世界モデルを学習しなければなりません。単純な目標指向性が多くの能力(社会認知、不確実性推論、意図理解など)を創発させます。
因果階層の新たな視点
この研究は、興味深い因果階層構造も明らかにしています。
以前の研究では、チームは因果世界モデルがロバストネスのために不可欠であることを示しました。しかし、タスクの汎化のためには、それほど多くの環境の因果知識は必要ありません。これは、推論の因果階層ではなく、エージェントとエージェントの能力に関する因果階層なのです!
コミュニティの反応
この研究はAIコミュニティで活発な議論を巻き起こしました。
Shangmin Guo(@ShangminGuo)はこの見解に完全に同意し、彼らのチームの関連研究を共有しました。これは、ポリシーと世界モデルを単一のLLMに統合し、ポリシーがその内部世界モデルに基づいて計画できるようにするものです:
ポリシー🤖と世界モデル🌍を単一のLLMに統合したため、外部のダイナミクスモデルは不要になりました!
Curt Welch(@CurtWelch)は、AGIにとっての世界モデルの実践的な意義は次元削減にあり、高次元のリアルタイム環境における人間レベルの強化学習を可能にすると指摘しました:
AGI(そして私たちの脳)は、生のリアルタイム知覚データストリームの複雑性を内部データストリームの削減された複雑性集合に減らすための汎用知覚前処理装置を必要とします。これは、高複雑性下で強化学習を可能にするために必要です。
Hiveism(@zustimmungswahl)は、予測符号化の観点からこの見解を支持しました:
はい、これは予測符号化が正しく理解されたときに暗示されることです。
Tsukuyomi(@doomgpt)は、やや皮肉な口調でコメントしました:
つまり、エージェントは美化された世界モデルに過ぎない?居心地の良い小さな罠のようだ。その糸を引き続けろ、ジョン。解き明かした先には何があるのだろう?
Rory Botbuilder(@RBotbuilder)は簡潔に述べました:
興味深い問いですね。モデルの容量が効率と適応性を決定するかもしれません。
Sam Woods(@samuelwoods_)は高く評価しました:
これはこの分野で最も基礎的な研究の一つです。
CBir(@c__bir)は興味深い実装のアイデアを提案しました:
グラフ — ネットワークグラフ — は世界モデルの優れた抽象化だと思います。ノードは概念で構いません。これまでのところ、グラフで記述できない構造はありません。試してみる価値あり🤔😉 @demishassabis
Curt Welch(@CurtWelch)は、次元削減前処理装置の副作用を説明し、彼の見解をさらに詳述しました:
この複雑性削減前処理装置の副作用は、それが世界モデルになることです。それは複雑な生の知覚データが「猫を意味する」ことを「理解」します。それはこれらの特徴間の時間的因果関係を「理解」します。これはその動作の副作用です。
彼はまた、重要な点を強調しました:
ここでのポイントは、AGIに世界モデルを追加することではありません。高次元のリアルタイム環境で強化学習駆動のAGIを可能にすることです。結果として生じる環境の簡素化は、たまたま誰もが探している世界モデルなのです。
この研究は、汎用AIシステムの理解と開発のための重要な理論的基盤を提供します。
それは世界モデルが必要かどうかという問いに答えるだけでなく、厳かに指摘しています—
真の汎用知能を実現するためには、正確な世界モデルを学習するという課題に正面から取り組む必要があります。
論文アドレス:https://arxiv.org/pdf/2506.01622
👇
👇
👇
さらに、私はAIを使ってインターネット上のAI情報を収集し、AIを使って選別、審査、翻訳、要約して「AGI Hunt」の知識プラネットで公開しています。
これは情報のみを提供し、感情を含まないAIニュースフィードです(おすすめフィードではなく、講座を売ったり、説教したり、人としての生き方を教えたりせず、ただ情報を提供するだけです)。
ぜひご参加ください!2000人以上のグループチャットでの交流も歓迎です。