先ほど、Metaは最新のオープンソースワールドモデルV-JEPA 2を発表し、物理世界における最先端の視覚的理解と予測を実現し、AIエージェントの物理的推論能力を向上させると述べています。
Metaの副社長兼チーフAIサイエンティストであるヤン・ルカン(Yann LeCun)氏が自らこのモデルを発表しました。彼は公式ビデオで、ワールドモデルの助けにより、AIは新しい能力を習得するために何百万回ものトレーニングを必要とせず、ワールドモデルがAIに世界がどのように機能しているかを直接伝えることで、効率が大幅に向上すると述べています。
例えば、AIは私たちがスプーンで何かをすくうとき、それを別の容器に入れることを予測します。
AIはアスリートの複雑な飛び込み動作も理解し、動作を分解できます。
Metaのテストデータによると、V-JEPA 2はテストタスクにおける各ステップの計画時間をNVIDIAのCosmosモデルの30分の1に短縮し、同時に成功率も高くなっています。V-JEPA 2は自己教師あり学習のために100万時間以上のビデオを使用しているとされています。
Metaの見方では、物理的推論能力は、現実世界で機能するAIエージェントを構築し、高度な機械知能(AMI)を実現するために非常に重要であり、AIエージェントが真に「Think Before Acts」(熟考して行動する)ことを可能にします。
さらに、Metaは、既存モデルがビデオから物理世界を推論する能力を評価するための3つの新しいベンチマークも発表しました。
昨日、Metaが新しいAI研究所を設立し、28歳の中国系アメリカ人の天才少年を招聘し、Scale AIの49%の株式を148億ドル(約1兆610億円)で買収するというニュースが報じられたばかりです。今日、Metaが新しいワールドモデルを発表し、ヤン・ルカン氏がMeta AIの主要な研究方向とビジョンについて語ったことは、人材募集のための「広告」のような意味合いが強いようです。
論文リンク:
https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/
ワールドモデルがAIに「人間のような直感」を与える
AIエージェントの理解、予測、計画能力を強化
世界の物理法則を理解することは複雑に聞こえないかもしれませんが、これはAIが人間と比べて大きく差がある分野の一つです。
例えば、ボールを空中に投げたとき、重力がそれを地面に引き戻すことを知っています。見慣れない混雑した場所を通り抜けるとき、あなたは目的地に向かって移動しながら、途中の歩行者や障害物にぶつかるのを避けます。ホッケーをする場合、パックが現在いる場所ではなく、これから到達する位置に滑り込みます。
▲バスケットボールの軌跡を判断する
しかし、AIがこの能力を習得し、物理世界を理解する「心理モデル」を構築するのは非常に困難です。
Metaのワールドモデルは、主にAIエージェントの理解、予測、計画という3つの核となる能力を強化します。
主要なアーキテクチャ革新により学習効率が大幅に向上
高い性能と精度を両立
MetaはV-JEPA 2の訓練にビデオを使用し、モデルが物理世界における重要な法則を学ぶのを助けます。これには、人間が物体とどのように相互作用するか、物体が物理世界でどのように動くか、そして物体間の相互作用が含まれます。
V-JEPA 2は自己教師あり学習を通じて、100万時間以上のビデオで訓練されたとされています。
V-JEPA 2は、統合埋め込み予測アーキテクチャ(Joint Embedding Predictive Architecture)モデルであり、これが「JEPA」という名称の由来です。
モデルは2つの主要なコンポーネントで構成されています。
エンコーダは、元のビデオを受け取り、観測された世界の状態について意味的に有用な内容を含む埋め込み(embeddings)を出力する役割を担います。
予測器は、ビデオ埋め込みと予測すべき追加コンテンツを受け取り、予測された埋め込みを出力する役割を担います。
V-JEPA 2は、従来のピクセル予測型生成モデルとは大幅な性能差があります。Metaのテストデータによると、V-JEPA 2はタスク実行時の各ステップの計画時間をCosmosモデルの30分の1に短縮し、時間だけでなく成功率も高くなっています。
V-JEPA 2の能力は、現実世界のエージェントが複雑な動きや時間的ダイナミクス(temporal dynamics)を理解し、文脈の手がかりに基づいて動作を予測するために非常に重要です。
この予測能力に基づき、ワールドモデルは特定の目標に対する一連の動作を計画するのに非常に役立ちます。例えば、テーブル上のカップの状態から、カップがテーブルの端にある状態へ移行するまでにどのような動作が必要かなどです。
今日、ほとんどのAIは特定のタスクを解決するために専門的な訓練を必要としますが、V-JEPAのような自己教師あり学習方式では、ごくわずかな事例で新しい能力を習得し、異なるタスクや領域でより高いパフォーマンスを発揮できます。
このモデルはロボットアームに展開され、触れる(Reach)、掴む(Grasp)、選択して配置する(Pick-and-place)などの物体操作タスクを実行できます。これにより、大量のロボットデータや特定のタスク訓練が不要になります。
テストデータによると、V-JEPA 2はこれら3種類のタスクを実行する際の成功率がそれぞれ100%、45%、73%でした。
ヤン・ルカン氏がワールドモデルの応用例をデモンストレーション
3つの専門ベンチマークを初公開
ワールドモデルがどのような応用シナリオを持つか、ヤン・ルカン氏もいくつか提示しました。
ワールドモデルが搭載されたAIエージェントは、視覚障害者が世界をより良く認識するのを助けることができます。
MRヘッドセット内のAIエージェントは、教育の個別化など、より複雑なタスクにガイダンスを提供できます。
AIプログラミングアシスタントは、新しいコード行がプログラムの状態や変数をどのように変更するかを真に理解できます。
ワールドモデルは、自動運転車やロボットなどの自動化システムにとっても非常に重要です。
Metaは、ワールドモデルがロボットに新しい時代をもたらし、現実世界のAIエージェントが天文学的な量の訓練データを学習することなく家事や肉体労働を行えるようになると考えています。
V-JEPA 2の発表に加え、Metaは研究コミュニティが既存モデルのビデオを通じて世界を学習し、推論する能力を評価するのに役立つ3つの新しいベンチマークも共有しました。
1、IntPhys 2:複雑な合成環境における直感的な物理理解能力をテストするためのもの(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。
2、最小ビデオペアに基づいた、知覚ショートカットを持つ物理理解ビデオQAベンチマーク(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。
3、CausalVQA:ビデオモデル向けの物理的根拠に基づく因果推論ベンチマーク(A Physically Grounded Causal Reasoning Benchmark for Video Models)。
ベンチマークリンク:
IntPhys 2:
https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/
CausalVQA:
https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/
Shortcut-aware Video-QA Benchmark:
https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/
まとめ:AIの世界認識が加速
AIがデジタル世界から物理世界へと加速的に移行
Metaの第2世代ワールドモデルの発表は、モデルの性能と精度をさらに最適化し、物理世界のAIエージェントが膨大なデータ訓練を必要とせずに、より効率的にタスクを実行できるようにしました。この方向性は、現在のAI業界が注目する主要な分野の一つと言えるでしょう。
データボトルネックの問題がますます顕著になるにつれて、基盤技術のレベルでいかに突破口を開くかがより重要になります。Metaのモデルアーキテクチャ層での革新は、そのワールドモデルの核となる強みです。
今日、ますます多くのビデオモデルが発表されるにつれて、AIはテキストや画像から動的なビデオへと徐々に移行しており、AIが世界を理解し、認識する速度は加速し続けています。NVIDIA、Meta、Googleといった巨大企業から様々なスタートアップまで、どこもワールドモデルの構築に大きな関心を示しており、ワールドモデルの戦いは、今後のAI産業技術競争の重要な焦点となるかもしれません。
出典:Meta公式サイト
記事の最後に、便利なツールミニプログラムをお勧めします!