AIの母、李飛飛氏の論文がシリコンバレーを揺るがす!大規模言語モデルの方向性は間違っており、空間知能こそがAGIへの唯一の道

「彼らは暗室にいる言葉の巨匠のようだ—雄弁だが経験に乏しく、知識豊富だが現実からかけ離れている。」

「AIの母」であり、トップ科学者である李飛飛(フェイフェイ・リー)氏が今日のすべての大規模言語モデルをこのように定義したとき、彼女は痛烈に、ある残酷な現実を指摘した。AIは万能に見えるかもしれないが、実際にはすべて「闇の中で生きている」のだと。

詩を書いたり、絵を描いたり、本物そっくりの動画を作成することさえできるが、コップが90度回転したらどうなるかを理解することも、仮想人間が物理法則を真に遵守することもできない。

李飛飛氏の見解では、この窮状の根本原因は、私たちがこれまでずっと間違った方向を歩んできたことにある。AIの次の段階は、より大きな言語モデルではなく、乳幼児でさえ生まれながらに持っている能力—空間知能(Spatial Intelligence)を与えることだという。これこそが、真の汎用人工知能(AGI)への唯一の道なのだ。

画像

魂の問い:

なぜAIはまだ「目が見えない」のか?

原文は非常に長いが、まずは直感的な話から始めよう。

AIに詩を書かせれば、あっという間に李白や杜甫に変身する。だが、AIに簡単な物理問題をいくつか解かせると、例えば:

· 「このコップを90度回したら、どんな形になる?」

· 「この迷路の出口はどこ?」

· 「テーブルからドアまでの距離を概算して?」

AIの答えは、ほとんど「当てずっぽう」だ。

注意して見れば、クールに見えるAI動画には、常に様々な「ごまかし」のシーンがある。ある人の手が突然指を一本増やしたり、物体が予兆なく壁を通り抜けたりする。

李飛飛氏は、この点について痛烈に指摘する。それはAIが物理世界を理解していないからだと。

彼らは距離、大きさ、方向、物理法則を真に理解することができない。

だから、私たちがAIに期待するのはSF映画に登場するような万能な執事だが、現実は:

· 私たちはまだ家事を手伝ってくれるロボットを持っていない。

· AIは、薬物研究開発や新素材発見など、3D構造の理解を必要とする分野で進展が遅い。

· AIは、建築家、ゲームデザイナー、映画監督の頭の中にある「世界」を真に理解することができない。

画像

宝の地図から失われたパズルピース:

空間知能

AIに欠けている「空間知能」とは一体何なのだろうか?

李飛飛氏は、それは私たち人間の認知の「足場」だと語る。

私たちが話したり書いたりする能力を身につけるずっと前から、この能力を習得していたのだ:

· 赤ちゃんは1〜2年かけて、掴む、投げる、噛む、見ることを通してこの世界を理解する。

· 縦列駐車をする際、あなたの脳はバンパーと縁石の距離を猛スピードで計算している。

· 友人が鍵を投げても、放物線を計算する紙と鉛筆は必要なく、無意識に受け取ることができる。

· 真夜中に水を飲みたくなって起きたとき、電気をつけなくてもコップを触って水を入れることができる。

李飛飛氏はさらに、人類の偉大な発見や文明の進歩でさえ、この能力なくしては語れないと例を挙げる。

· 古代ギリシャのエラトステネスは、二地点での影の角度の違いを観察することで、地球の周囲を計算した。

· ハーグリーブスが「ジェニー紡績機」を発明したのも、空間に関する観察と理解によるものだ。

· ワトソンとクリックは、自ら3D分子模型を構築し、DNAの二重らせん構造を「組み立てた」。

李飛飛氏は、空間知能は人間の想像力、創造力、そして世界との相互作用の基盤であると考える。残念ながら、今日のAIにはこの能力がほとんどない。

画像

AIの次の段階:

「言語モデル」から「世界モデル」へ

では、どうすればAIに世界を「見せる」ことができるのだろうか?

李飛飛氏は自身の答えを提示した。AIの未来は、より大規模な「言語モデル」(LLM)ではなく、まったく新しい「世界モデル」(World Models)にあると。

彼女は、真の「世界モデル」は「三位一体」である必要があると主張する。

· 生成性(Generative):それは物理的、幾何学的法則に合致する3D世界を創造できなければならない。例えば、重力を「知っており」、物体が落下すること、水が低い方へ流れることを知っている。

· マルチモーダル性(Multimodal):それはあらゆる入力を処理できなければならない。例えば、あなたが話す「言葉」を理解できるだけでなく、画像、動画、深度情報、さらにはあなたの「ジェスチャー」も理解できなければならない。

· インタラクティブ性(Interactive):これが最も重要だ。あなたが「ある行動」を伝えたとき、それは「次に何が起こるか」を予測できなければならない。例えば、「積み木を押す」と言えば、積み木が倒れることを知っている。

李飛飛氏は、この挑戦が言語モデルの訓練よりもはるかに難しいと認めている。

彼女は、言語は一次元の連続した信号であるのに対し、世界は四次元(三次元空間+時間)であり、重力や物理法則など無数の複雑な規則に制約されていると説明する。

李飛飛氏は、一年前に共同創業したWorld Labs、そして最近少数のユーザーに公開された最初の世界モデルMarbleが、この難題を克服するために開発されたと明かしている。

画像

これが私たちの生活をどう変えるのか?

AIが空間知能を手に入れたとき、それは真の革命となるだろう。

まず、「超能力」のような創造力だ。李飛飛氏のチームWorld Labsが開発中のMarbleモデルは、映画製作者、ゲームデザイナー、建築家が「プロンプト」を使って3D世界を迅速に作成し、反復することを可能にする。将来、これらの人々は複雑な3Dソフトウェアを学ぶ必要がなく、言語で記述するだけで、中に入って対話できる3D世界を生成できるようになる。その時、誰もが「創造主」となれるだろう。

次に、真の「身体性AI」だ。ロボットはもはや「不器用な」ロボットアームではなくなる。「世界モデル」の援護のもと、彼らはシミュレーション環境で何千もの実用的なスキルを学び、私たちの家庭や病院に入り込み、頼りになるアシスタントや介護者となるだろう。

さらに、李飛飛氏は、このようなAIが未来の科学と教育の「加速器」となると特に言及した。

· 医療:AIは多次元で分子間の相互作用をシミュレートし、医薬品発見のプロセスを加速させることができる。また、医師が画像を分析するのを助け、患者や介護者に継続的なサポートを提供することも可能だ。

· 教育:学生は本を読むだけでなく、古代ローマの街を「歩き」、細胞の内部を「探究」することができる。教師はインタラクティブな環境を通じて個別指導のツールを得ることができ、専門家は高度にリアルなシミュレーション環境で複雑なスキルを安全に練習し習得できる。

· 研究:深海や宇宙など、人間が直接到達できない環境をシミュレートすることで、科学探求の範囲を拡大できる。多次元シミュレーションと実世界データ収集を組み合わせることで、研究室での観察と理解の限界を広げることができる。

画像

結び:

AIの最終目標は、

「人類に力を与えること」

現代AI時代の幕開けを助けた科学者の一人として、李飛飛氏は記事の最後に、彼女の最も核となる人間的配慮に立ち返る。彼女は、AIの究極の目標は、決して人類に取って代わることではなく、「人類に力を与えること」だと強調する。

「AIが人間の専門知識を強化し、人間の発見を加速し、人間のケアを増幅する力となること—人間の判断力、創造性、共感力を置き換えるのではなく。」

彼女は、AIは人間によって開発され、人間によって使用され、人間によって管理されるものであり、常に人間の主体性と尊厳を尊重しなければならないと考える。その魔法は、私たちの能力を拡張し、より創造的で、より密接につながり、より生産的で、より充実した存在になることを可能にすることにある。

「空間知能」は、まさにそのような「より深く、より豊かで、より力強い生活のビジョン」を象徴している。それは「現実世界と高度に一致する機械を構築し、それらが私たちが重大な課題に立ち向かう真のパートナーとなる」ことを約束する。

おそらく、機械の真の知能は、この「啓示録」から始まるのだろう。


【以下は李飛飛氏の長文の全文】

タイトル:言葉から世界へ:空間知能 — AIの次のフロンティア(From Words to Worlds: Spatial Intelligence is AI’s Next Frontier)

1950年、計算がまだ自動化された算術と単純な論理の代名詞に過ぎなかった時代に、アラン・チューリングは今日まで響き続ける問いを投げかけた。「機械は思考できるか?」彼が予見したすべてを想像するには、並外れた想像力が必要だった。いつの日か、知能は生来のものではなく、構築されうるかもしれない、と。この洞察は後に「人工知能」(AI)という不屈の科学的探求の扉を開いた。私自身がAI分野に身を投じてきた25年間、チューリングのビジョンは私を鼓舞し続けている。しかし、私たちはそれにどれほど近づいているのか?答えは一言では語り尽くせない。

今日、大規模言語モデル(Large Language Models, LLMs)に代表される最先端のAI技術は、私たちが抽象的な知識を獲得し、処理する方法を変え始めている。それらは皆、「弁舌さわやかな書生」であり、豊富な知識を持つが「地に足がついていない」。しかし、空間知能(Spatial Intelligence)は、私たちが現実世界や仮想世界を創造し、それらと対話する方法を変えるだろう。それは物語の語り方、創造性、ロボット技術、科学的発見など、多くの分野を根本的に変革する。これこそがAIの次のフロンティアなのだ。

· 本稿では、空間知能とは何か、なぜそれが重要なのか、そしてその能力を解き放つ「世界モデル」(World Models)をいかに構築しているか—その影響が創造性、身体性AI(Embodied Intelligence)、そして人類の進歩をいかに再形成するか—を説明する。

空間知能:人間の認知の足場

AIは今ほどエキサイティングだったことはない。大規模言語モデルのような生成AIモデルは、研究室から日常生活へと移行し、数十億人が創造し、生産性を向上させ、コミュニケーションを図るためのツールとなっている。それらはかつて不可能だと考えられていた能力を示し、一貫性のあるテキスト、膨大な量のコード、写真のようにリアルな画像、さらには短いビデオクリップをいとも簡単に生成できる。AIが世界を変えるかどうかは、もはや問題ではない。どんな合理的な定義で見ても、それはすでに達成されている。

しかし、まだ多くのことが手の届かないままだ。自律型ロボットのビジョンは依然として魅力的だが、まだ推測の域を出ず、未来学者が長年約束してきた日常生活の一部となるには程遠い。病気の治療、新素材の発見、素粒子物理学といった分野で研究を大幅に加速させるという夢も、大部分はまだ実現されていない。そして、AIが人間の創造者を真に理解し、力を与えるという約束—分子化学の複雑な概念を学ぶ学生を助けること、建築家が空間を視覚化するのを支援すること、映画制作者が世界を構築するのを手伝うこと、あるいは完全に没入型の仮想体験を求めるすべての人をサポートすること—も、まだ遠い先にある。

これらの能力がなぜ依然として実現困難なのかを理解するためには、空間知能がいかに進化し、それが私たちの世界理解をいかに形作ってきたかを検証する必要がある。

視覚は長らく人間の知能の基盤であったが、その力はより根本的なものに由来する。動物が巣を作り、子育てをし、言語でコミュニケーションを取り、文明を築くずっと以前に、「知覚する」という単純な行為が、知能への進化の旅を静かに開始したのだ。

外部世界から情報を収集するこの一見孤立した能力—かすかな光を感じ取ること、またはある質感に触れること—は、知覚と生存の間に架け橋を築いた。その架け橋は世代を経るごとに堅固で精巧になった。この架け橋の上にニューロンが層をなし、世界を解釈し、生物がその環境と相互作用するのを調整する神経系を形成した。したがって、多くの科学者は、知覚と行動が知能の進化を駆動する中心的なループとなり、私たちが知覚し、学び、考え、行動する究極の現れであるという、自然が私たちの種を創造した基礎となったと推測している。

空間知能は、私たちが物理世界とどのように相互作用するかを定義する上で極めて重要な役割を果たす。毎日、私たちはごく普通の行動を達成するためにそれに依存している。バンパーと縁石の間で狭まる隙間を想像して駐車すること、部屋の反対側から投げられた鍵を受け取ること、混雑した歩道を衝突せずに通り抜けること、真夜中に起きて水を飲むとき、電気をつけずにコップを触って水を入れることができる。さらに極端な状況では、倒壊した建物の中で変化する煙の中を移動する消防士は、構造の安定性と生存の機会について瞬時に判断を下し、ジェスチャー、身振り、そしてどの言語でも置き換えられない共通の職業的本能を通じてコミュニケーションをとる。そして乳幼児は、言葉を覚える数ヶ月、あるいは数年前から、環境との遊びに満ちた相互作用を通じて世界を完全に学んでいる。これらすべてが直感的かつ自然に起こる—これは機械がまだ達成できていない流暢さである。

空間知能は、私たちの想像力と創造力の基盤でもある。物語の語り手は、頭の中で異常に豊かな世界を創造し、古代の洞窟壁画から現代映画、没入型ビデオゲームまで、多様な形式の視覚メディアを利用して、これらの世界を他者に提示する。子供たちが砂浜で砂の城を築いたり、コンピューターで『マインクラフト』(Minecraft)をプレイしたりする際も、空間に基づいた想像力が現実世界または仮想世界でのインタラクティブな体験の基盤を形成する。多くの産業応用において、物体、シーン、動的なインタラクティブ環境のシミュレーションは、工業デザインからデジタルツイン、ロボット訓練に至るまで、無数の重要な商業ユースケースを推進している。

歴史には、空間知能が文明の進歩を定義する中心的な役割を果たした瞬間が満ちている。古代ギリシャでは、エラトステネスが影を幾何学へと変換した—太陽がシエネに直射する瞬間にアレクサンドリアで7度の角度を測定することで、地球の周囲を計算した。ハーグリーブスの「ジェニー紡績機」は、空間的な洞察を通じて繊維製造業を根本的に変革した。複数のスピンドルをフレームに並べて配置することで、一人の労働者が同時に複数の糸を紡ぐことができ、生産効率が8倍になった。ワトソンとクリックは、手作業で3D分子模型を構築し、金属板と金属線をいじり続け、最終的に塩基対の空間配置を「組み立てる」ことでDNAの構造を発見した。それぞれのケースにおいて、科学者や発明家が物体を操作し、構造を視覚化し、物理空間について推論する必要があるとき、空間知能は文明の進歩を推進した—そしてこれらは言葉だけでは捉えられないものだった。

空間知能は、私たちの認知が構築される足場である。私たちが受動的に観察する場合でも、能動的に創造する場合でも、それは機能する。最も抽象的なトピックに対しても、私たちの推論と計画を推進する。それは、私たちがどのように相互作用するか—口頭であろうと身体的であろうと、仲間とであろうと環境自体とであろうと—にとって極めて重要である。私たちのほとんどは、毎日エラトステネスのように新たな真理を解き明かすわけではないが、通常は同じように思考する—感覚的な知覚を通じて複雑な世界を理解し、その後、直感的な理解を利用して、それが物理的および空間的にどのように機能するかを把握する。

残念ながら、今日のAIはまだこのように思考しない。

過去数年間で、確かに大きな進歩があった。テキストデータに加えて大量のマルチメディアデータで訓練されたマルチモーダル大規模言語モデル(Multimodal LLMs, MLLMs)は、いくつかの基本的な空間認識を導入し、今日のAIは画像を分析し、関連する質問に答え、超リアルな画像や短いビデオを生成できるようになった。センサーと触覚技術のブレークスルーを通じて、最先端のロボットも非常に限られた環境で物体やツールを操作できるようになり始めている。

しかし、率直な現実として、AIの空間能力はまだ人間レベルには遠く、その限界はすぐに露呈する。距離、方向、サイズの推定、または新しい角度から物体を再生成することによる「心的回転」などのタスクにおいて、最先端のマルチモーダル大規模言語モデルのパフォーマンスは、ほとんどの場合、ランダムな推測を超えることはない。彼らは迷路から抜け出したり、近道を見つけたり、基本的な物理現象を予測したりすることはできない。AIが生成する動画は—まだ生まれたばかりで、確かにクールではあるが—数秒後には一貫性を失うことが多い。

現在最先端のAIは、読み書き、研究、データパターン認識において優れた能力を発揮する一方で、物理世界を表現したり相互作用したりする際には、根本的な限界が存在する。私たちの世界観は全体論的である—私たちが何を見ているかだけでなく、すべてのものが空間的にどのように関連しているか、その意味、そしてなぜそれが重要なのかも含まれる。想像し、推論し、創造し、相互作用することで—単に記述するだけでなく—これらすべてを理解することこそが、空間知能の力なのだ。それがなければ、AIは理解しようとしている物理的現実から切り離されてしまう。私たちの車を効率的に運転することもできず、私たちの家や病院でロボットを誘導することもできず、学習やエンターテイメントのためのまったく新しい没入型でインタラクティブな体験を創造することもできず、材料科学や医学分野での発見を加速させることもできない。

哲学者ウィトゲンシュタインはかつて「私の言語の限界は、私の世界の限界を意味する」と書いた。私は哲学者ではない。しかし、少なくともAIにとって、世界は言葉だけでは終わらないことを知っている。空間知能は、言語を超越したフロンティアを象徴する—想像力、知覚、行動を結びつけ、ヘルスケアから創造性、科学的発見から日々の支援に至るまで、機械が人類の生活を真に向上させる可能性を解き放つ能力なのだ。

AIの次の10年:真の空間知能を備えた機械の構築

では、どのようにして空間知能を備えたAIを構築するのだろうか?エラトステネスのように視覚的に推論し、工業デザイナーのように精密な工学設計を行い、物語の語り手のように想像力豊かに創造し、緊急対応員のように環境と流暢に相互作用できるモデルをどのようにして生み出すことができるのか?

空間知能を備えたAIの構築には、大規模言語モデルよりも壮大な目標が必要だ。それが「世界モデル」(World Models)である。これは、現在の対話型AIの範囲をはるかに超え、意味的、物理的、幾何学的、動的に極めて複雑な仮想世界や現実世界を理解し、推論し、生成し、対話する能力を持つ新しいタイプの生成モデルである。この分野はまだ黎明期にあり、現在のアプローチは抽象的な推論モデルからビデオ生成システムまで多岐にわたる。World Labsは2024年初頭にまさにこの信念に基づき設立された。基礎的な方法論がまだ確立されていないため、これは今後10年間を決定づける挑戦となる。

この新興分野において、最も重要なのは発展を導く原則を確立することである。空間知能について、私は3つの基本的な能力を通じて世界モデルを定義する。

· 生成性:世界モデルは、知覚的、幾何学的、物理的に一貫性のある世界を生成できること。

空間理解と推論を解き放つためには、世界モデルは自身のシミュレーション世界を生成できなければならない。それらは意味的または知覚的な指示に基づいて、無限に多様なシミュレーション世界を生成できなければならず、同時に幾何学的、物理的、動的な一貫性を保つ必要がある—これらの世界が現実空間を表すか仮想空間を表すかに関わらず。研究コミュニティは、これらの世界がその固有の幾何学的構造を暗黙的または明示的に表現すべきかどうかを積極的に探求している。さらに、私は、汎用的な世界モデルは、強力な潜在表現に加えて、その出力のために明示的で観察可能な世界状態を生成できなければならず、多様な異なるユースケースに適応できると信じている。特に、現在の理解は、その過去、そして現在の状態につながる以前の世界状態と首尾一貫していなければならない。

· マルチモーダル性:世界モデルは、設計上、マルチモーダルであること。

動物や人間と同様に、世界モデルは複数の形式の入力—生成AI分野では「プロンプト」と呼ばれる—を処理できなければならない。画像、ビデオ、深度マップ、テキスト指示、ジェスチャー、アクションといった部分的な情報が与えられた場合、世界モデルは可能な限り完全な世界状態を予測または生成できなければならない。これは、実際の視覚と同じ忠実度で視覚入力を処理し、同時に同等の流暢さで意味的な指示を解釈できることを要求する。これにより、エージェントと人間は複数の入力を通じてモデルと世界についてコミュニケーションを取り、その見返りに複数の出力を受け取ることができる。

· インタラクティブ性:世界モデルは、入力されたアクションに基づいて次の状態を出力できること。

最後に、アクションや目標が世界モデルへのプロンプトの一部である場合、その出力は、暗黙的であれ明示的であれ、世界の次の状態を含まなければならない。目標状態の有無にかかわらず、アクションのみが入力として与えられた場合、世界モデルは、世界の以前の状態、期待される目標状態、そしてその意味的意味、物理法則、動的挙動と一致する出力を生成しなければならない。空間知能を備えた世界モデルが推論能力と生成能力においてますます強力かつ堅牢になるにつれて、目標が与えられた場合、世界モデル自体が世界の次の状態を予測するだけでなく、新しい状態に基づいて次のアクションを予測することも可能になるだろうと想像できる。

この挑戦の範囲は、AIがこれまで直面してきたどの挑戦をも凌駕する。

言語は純粋に人間の認知の生成現象であるが、世界ははるかに複雑な規則に従う。例えば、地球上では重力が運動を支配し、原子構造が光が色と輝度を生み出す方法を決定し、無数の物理法則がすべての相互作用を制約する。最も幻想的で創造的な世界でさえ、それらを定義する物理法則と動的挙動に従う空間的な物体とエージェントで構成されている。これらすべて—意味、幾何学、力学、物理—を調和させるには、まったく新しいアプローチが必要となる。世界を表現する次元は、言語のような一次元のシーケンス信号を表現するよりもはるかに複雑である。私たち人間が享受するような汎用的な能力を提供する世界モデルを実現するには、いくつかの困難な技術的障害を克服する必要がある。World Labsでは、私たちの研究チームがこの目標の達成に向けて根本的な進歩を目指している。

以下は、現在の研究テーマのいくつか例である。

新しい、汎用的な訓練タスク関数:大規模言語モデルにおける「次のトークン予測」のように簡潔で優雅な汎用タスク関数を定義することは、長らく世界モデル研究の中心的な目標であった。その入力と出力空間の複雑さゆえに、そのような関数を形式化することは本質的に困難である。まだ探求すべき点は多いが、この目標関数および対応する表現は、幾何学と物理法則を反映し、想像力と現実の「地に足の着いた」表現としての世界モデルの根本的な性質を尊重しなければならない。

大規模な訓練データ:世界モデルの訓練には、テキスト処理よりもはるかに複雑なデータが必要となる。良いニュースは、膨大なデータ源がすでに存在することだ。インターネット規模の画像と動画のセットは、豊富で簡単にアクセスできる訓練材料を表している。課題は、これらの二次元の、画像または動画フレームベースの信号(すなわちRGB)から、より深い空間情報を抽出できるアルゴリズムを開発することにある。過去10年間の研究は、言語モデルにおけるデータ量とモデル規模間のスケーリング法則の力を示している。世界モデルの鍵となるブレークスルーは、既存の視覚データを同等の規模で活用できるアーキテクチャを構築することにある。さらに、高品質な合成データや、深度情報や触覚情報といった追加のモダリティの力を過小評価すべきではない。それらは訓練プロセスの重要な段階でインターネット規模のデータを補完する。しかし、前進の道は、より優れたセンサーシステム、より堅牢な信号抽出アルゴリズム、そしてはるかに強力なニューラルシミュレーション方法に依存している。

新しいモデルアーキテクチャと表現学習:世界モデルの研究は、現在のマルチモーダル大規模言語モデルと動画拡散パラダイムを超えて、モデルアーキテクチャと学習アルゴリズムの進歩を不可避的に推進するだろう。これら二つのパラダイムは通常、データを一次元または二次元のシーケンスに「トークン化」するため、短い動画の中で重複しない椅子の数を数えるとか、1時間前の部屋の様子を記憶するといった単純な空間タスクでさえ不必要に困難になる。代替アーキテクチャ、例えば「トークン化」、コンテキスト、記憶のための三次元または四次元の知覚アプローチが役立つかもしれない。例えば、World Labsでの最近のRTFMと名付けられたリアルタイム生成型フレームベースモデルに関する私たちの研究は、このような転換を示している。これは空間ベースのフレームを空間記憶の一種として使用し、効率的なリアルタイム生成を達成しつつ、生成された世界の一貫性を維持する。

明らかに、世界モデルを介して空間知能を完全に解き放つためには、まだ多くの困難な課題が残されている。この研究は単なる理論的演習ではなく、新しい種類の創造性と生産性ツールを生み出す核となるエンジンである。そしてWorld Labs内部での進歩は、常に心強いものがある。私たちは最近、数少ないユーザーとMarbleの片鱗を共有した。これは、マルチモーダル入力プロンプトを通じて一貫性のある三次元環境を生成し、維持できる史上初の世界モデルであり、ユーザーやストーリーテラーが自身の創作ワークフローで探索し、対話し、さらに構築することを可能にする。私たちは、これをできるだけ早く一般公開できるよう努力している!

Marbleは、真に空間知能を備えた世界モデルを創造するための私たちの第一歩に過ぎない。進歩が加速するにつれて、研究者、エンジニア、ユーザー、そしてビジネスリーダーたちは皆、その並外れた潜在能力を認識し始めている。次世代の世界モデルは、機械がまったく新しいレベルで空間知能を実現することを可能にするだろう—この成果は、今日のAIシステムではまだ広く欠如している重要な能力を解き放つものとなる。

世界モデルで人々のためにより良い世界を築く

AI開発の動機は極めて重要である。現代AI時代の幕開けを助けた科学者の一人として、私の動機は常に明確だった。AIは人間の能力を強化するものであり、決してそれに取って代わるものであってはならない。長年にわたり、私はAIの開発、展開、ガバナンスを人類のニーズに合致させるべく努力してきた。今日、技術的ユートピアと終末論という両極端な言説が横行しているが、私はより現実的な見解を持ち続けている。AIは人間によって開発され、人間によって使用され、人間によって管理されるものだ。それは常に人間の主体性と尊厳を尊重しなければならない。その魔法は、私たちの能力を拡張し、私たちをより創造的に、より緊密に結びつけ、より生産的に、そしてより充実させることにある。空間知能は、まさにこのビジョンを代表している—AIが人間の創造者、介護者、科学者、夢想家に力を与え、かつて不可能だったことを実現させるのだ。この信念こそが、空間知能をAIの次の偉大なフロンティアとして推進するという私のコミットメントを突き動かしている。

空間知能の応用は、異なるタイムラインにわたる。創造的なツールが出現しつつある。World LabsのMarbleは、すでにこれらの能力を創造者やストーリーテラーの手に委ねている。私たちが知覚と行動の間のループを洗練し続けるにつれて、ロボット技術は野心的な中期目標を表している。最も革新的な科学的応用にはより長い時間がかかるだろうが、人類の繁栄に深い影響を与えることが期待される。

これらのすべてのタイムラインにおいて、人間の能力を再形成する可能性を持ついくつかの分野が際立っている。これには、一つのチームや一つの企業だけでは達成できない、巨大な集団的努力が必要とされる。それは、研究者、イノベーター、起業家、企業、さらには政策立案者を含むAIエコシステム全体の参加が必要であり、共通のビジョンのために共に努力しなければならない。しかし、このビジョンは追求する価値がある。以下に、その未来が秘める可能性を示す。

創造性:物語の語り方と没入型体験に超能力を注入する

「創造性とは、知性が楽しんでいることだ」これは私の個人的なヒーロー、アルバート・アインシュタインの有名な言葉であり、私のお気に入りの一つである。文字言語が生まれるずっと前から、人類は物語を語ってきた。洞窟の壁に絵を描き、世代から世代へと伝え、共有された物語の上に文化全体を築き上げてきた。物語は、私たちが世界を理解し、時空を超えてつながり、人間性の意味を探求し、そして最も重要なこととして、自分たちの内面に人生の意味と愛を見出す方法である。今日、空間知能は、物語を創造し体験する方法を変える可能性を秘めている。それはその根本的な重要性を尊重しつつ、その影響をエンターテイメントから教育、デザインから建築へと拡大する。

World LabsのMarbleプラットフォームは、映画製作者、ゲームデザイナー、建築家、そしてあらゆる種類のストーリーテラーに、前例のない空間能力と編集可能な制御をもたらし、従来の3Dデザインソフトウェアの重い負担なしに、完全に探索可能な3D世界を迅速に作成し、反復することを可能にする。創造的な行為自体は、依然として活気に満ち、人間的である。AIツールは、創造者が達成できることを増幅し、加速させるに過ぎない。これには以下が含まれる。

· 新しい次元の物語体験: 映画製作者やゲームデザイナーは、Marbleを使って予算や地理的制約のない完全な世界を創造し、従来の制作プロセスでは扱いにくかった様々なシナリオや視点を探索している。異なる形式のメディアとエンターテイメントの境界がますます曖昧になるにつれて、私たちは芸術、シミュレーション、ゲームを融合した新しい種類のインタラクティブな体験に近づいている。それは、スタジオだけでなく、誰もが自分の物語を創造し、没入できるパーソナライズされた世界だ。概念やストーリーボードを完全な体験へと高める、より新しく、より迅速な方法の出現に伴い、物語はもはや単一のメディアに限定されることはなくなり、クリエイターは無数のインターフェースやプラットフォームを横断して、共通の主軸が貫かれた世界を自由に構築できるようになるだろう。

· デザインを通じた空間的物語性: 基本的に、製造されるすべての物体や建設されるすべての空間は、その物理的創造の前に、仮想三次元空間で設計されなければならない。このプロセスは反復的であり、時間と金銭の両面でコストがかかる。空間知能を備えたモデルがあれば、建築家は数ヶ月を設計に費やすことなく、構造を迅速に視覚化し、まだ存在しない空間を歩き回ることができる—これは本質的に、私たちが将来どのように生活し、働き、集まるかについての物語を語ることである。工業デザイナーやファッションデザイナーは、想像力を即座に形に変換し、物体が人体や空間とどのように相互作用するかを探求できる。

· まったく新しい没入型およびインタラクティブな体験: 体験そのものは、私たちの種が意味を創造する最も深遠な方法の一つである。人類の歴史全体を通じて、三次元の世界は一つしかなかった。私たち全員が共有する物理世界だ。わずか数十年前になって、ゲームや初期の仮想現実(VR)を通じて、私たちは自分たちで創造した別の世界を共有することが何を意味するのかを垣間見始めた。今、空間知能とVRや拡張現実(XR)ヘッドセット、没入型ディスプレイのような新しい製品形態が組み合わさることで、これらの体験はかつてないほど向上している。私たちは、完全に実現された多次元の世界に足を踏み入れることが、本を開くのと同じくらい自然になる未来へと向かっている。空間知能は、世界構築を専門の制作チームを持つスタジオの独占物ではなく、個人のクリエイター、教育者、そしてビジョンを共有するすべての人に開放するのだ。

ロボット技術:身体性AIの実践

昆虫から人間まで、動物は空間知能に依存して、自分の世界を理解し、ナビゲートし、相互作用する。ロボットも例外ではない。空間知覚能力を持つ機械は、この分野の誕生以来、人々、そして私自身とスタンフォード大学の研究室の学生や共同研究者たちの夢であった。だからこそ、World Labsが構築しているようなモデルを利用して、この可能性を実現することに私はこれほど興奮しているのだ。

· 世界モデルによるロボット学習の拡張: ロボット学習の進歩は、スケーラブルで実行可能なトレーニングデータソリューションにかかっている。ロボットが理解し、推論し、計画し、相互作用するために学習する必要がある可能性の状態空間は極めて巨大であるため、多くの人々は、真に汎用性のあるロボットを創造するには、インターネットデータ、合成シミュレーション、そして実世界の人間のデモンストレーションキャプチャを組み合わせる必要があると推測している。しかし、言語モデルとは異なり、今日のロボット研究におけるトレーニングデータは非常に希少である。世界モデルはここで決定的な役割を果たすだろう。それらの知覚忠実度と計算効率が向上するにつれて、世界モデルの出力はシミュレーションと現実とのギャップを急速に埋めることができる。これは、無数の状態、相互作用、および環境のシミュレーションにおいてロボットを訓練するのに役立つだろう。

· パートナーと協力者: ロボットは人間の協力者として、実験室で科学者を支援したり、一人暮らしの高齢者を助けたりするなど、より多くの労働力と生産性が切実に求められる分野で労働力の一部を拡張することができる。しかし、これには知覚、推論、計画、行動のための空間知能が必要であり、同時に—これが最も重要なことだが—人間の目標と行動との共感的な一致を保つ必要がある。例えば、実験室のロボットは器具を扱い、科学者は器用さや推論を必要とするタスクに集中でき、家庭のアシスタントは高齢者が料理をするのを助け、彼らの楽しみや自律性を損なうことはない。次の状態を予測でき、さらにはこの期待に沿った行動を予測できる、真に空間知能を備えた世界モデルが、この目標達成には不可欠である。

· 具身化された形態の拡張: ヒューマノイドロボットは、私たちが自分たちのために構築する世界で役割を果たす。しかし、イノベーションのすべての恩恵は、より多様な設計から生まれるだろう。薬物を運ぶナノロボット、狭い空間を移動するソフトロボット、深海や宇宙のために構築された機械などである。その形態がどうであれ、将来の空間知能モデルは、これらのロボットが住む環境と、それら自身の具身化された知覚と運動を統合しなければならない。しかし、これらのロボットを開発する上での重要な課題は、これら多様な具身化された形態の訓練データが不足していることである。世界モデルは、シミュレーションデータ、訓練環境、ベンチマークタスクなどの面で、これらの努力において重要な役割を果たすだろう。

より長期的な視野:科学、ヘルスケア、教育

創造的応用やロボット応用を超えて、空間知能の深遠な影響は、AIが生命を救い、発見を加速させる方法で人間の能力を強化できる分野にも及ぶだろう。以下では、深く変革をもたらす可能性のある3つの応用分野に焦点を当てるが、言うまでもなく、空間知能のユースケースはさらに多くの産業で広範な展望を持っている。

· 科学研究において、空間知能を備えたシステムは、実験をシミュレートし、仮説を並行して検証し、人間がアクセスできない環境—深海から遠い惑星まで—を探求できる。この技術は、気候科学や材料研究などの分野における計算モデリングを変革できるだろう。多次元シミュレーションと実世界データ収集を組み合わせることで、これらのツールは計算の敷居を下げ、各研究室が観察し理解できる範囲を拡大する。

· ヘルスケア分野において、空間知能は研究室から病床に至るまですべてを再構築するだろう。スタンフォード大学では、私の学生や共同研究者たちは長年にわたり病院、介護施設、在宅患者と協力してきた。この経験は、私がここでの空間知能の変革の可能性を確信させるものだった。AIは、分子相互作用の多次元シミュレーションを通じて医薬品発見を加速させたり、放射線科医が医療画像内のパターンを発見するのを助けることで診断を強化したり、回復に不可欠な人間関係を置き換えることなく患者や介護者をサポートする環境モニタリングシステムを実現したりできる。言うまでもなく、多くの異なるシナリオで私たちの医療従事者や患者を助けるロボットの可能性も存在する。

· 教育分野において、空間知能は没入型学習を可能にし、抽象的または複雑な概念を具体的に感じられるようにし、私たちの脳と身体が学習する方法に不可欠な反復的な体験を創造できる。AI時代において、より速く、より効果的な学習とスキル再訓練のニーズは、学齢期の子供たちと大人にとって特に重要である。学生は多次元空間で細胞の仕組みを探求したり、歴史的な出来事の中を歩き回ったりできる。教師はインタラクティブな環境を通じて、個別指導のためのツールを得ることができる。外科医からエンジニアに至るまで、専門家は現実的なシミュレーションの中で複雑なスキルを安全に練習できる。

これらすべての分野において、可能性は無限だが、目標は常に同じである。AIを、人間の専門知識を強化し、人間の発見を加速し、人間のケアを増幅する力とする—人間の判断力、創造性、共感力を置き換えるのではなく。

結論

過去10年間でAIは世界的な現象となり、技術、経済、さらには地政学の転換点となった。しかし、研究者、教育者、そして今や起業家として私を最も奮い立たせるのは、75年前のチューリングの問いの背後にある精神である。私は今も彼の好奇心を共有している。この好奇心こそが、私が日々、空間知能という挑戦に活力を感じている理由なのだ。

歴史上初めて、私たちは物理世界とこれほど調和した機械を構築する展望を持っている。それにより、最も困難な課題に直面したとき、それらを真のパートナーと見なすことができるだろう。実験室で病気を理解する方法を加速すること、物語を語る方法を根本的に変革すること、あるいは病気、怪我、老齢のために最も脆弱な瞬間に私たちをサポートすること—私たちは、私たちが最も大切にしている生活の側面を高める技術の最前線にいるのだ。これは、より深く、より豊かで、より力強い人生のビジョンである。

自然が太古の動物に空間知能の最初のきらめきをもたらしてから約5億年後、私たちは、まもなく機械に同じ能力を授け、その能力を世界中の人々の利益のために活用できる世代の技術者であるという特権を得ている。真に知的な機械に対する私たちの夢は、空間知能なくしては不完全なのだ。

画像

画像

メインタグ:空間知能

サブタグ:AI開発身体性AI大規模言語モデル世界モデル


前の記事:上海交通大学博士の最新考察:2つの質問だけで強化学習を明確にする

次の記事:強化学習+大規模モデルの記憶:Mem-α、エージェントが「記憶する方法」を初めて学ぶ

短いURLをシェア