上部の「チューリングAI」をクリックし、「お気に入り」を選択して、最新のAI情報をいち早くお届けします。
あなたが知りたいAIに関する貴重な情報が、真っ先に届きます。
著作権表示
Digital Creationより転載。著作権は原著作者に帰属し、学術的な共有を目的としています。侵害がある場合はメッセージで削除を依頼してください。
6月4日、World Labsの共同創設者兼CEOである李飛飛は、a16zのゼネラルパートナー兼同社の早期投資家であるマーティン・カサドと共に、a16zのゼネラルパートナーであるエリック・トーレンバーグが司会を務めるインタビューに参加し、「世界モデル」の概念と、それを構築する緊急の必要性について共同で議論しました。この対話は、現在のAIの限界、「世界モデル」の根底にある基本原則、そしてその実現経路を深く分析しました。
01
World Labsの起源:共有されたビジョンとAIの物理的基礎
02
AIパスの解体:言語、データ、そして物理世界の必然性
03
世界モデルの応用青写真と研究基盤
では、「世界モデル」というビジョンが本当に実現されたとき、それはどのように私たちの世界を変え、どのような具体的な応用を生み出すのでしょうか?李飛飛はまず、「創造性は大部分が視覚的である」と指摘しました。彼女は、デザイン、映画、建築から工業デザインに至るまで、幅広い分野を挙げ、これらすべてが視覚、知覚、空間能力に高度に依存していることを示しました。続けて、彼女はロボット技術に言及し、これを「環境と相互作用できるあらゆる物理機械」と広義に定義し、これらの機械が何らかの形で自身の存在する三次元空間を理解し、人間と協力する必要があると述べました。
さらに、李飛飛はより壮大な未来を展望しました。「この技術、すなわち生成と再構築の組み合わせを利用することで、私たちは突然、無限の宇宙を創造できるようになります。ロボットのために設計された宇宙もあれば、創造性のために役立つ宇宙、ソーシャルな目的のための宇宙、旅行のための宇宙、そして物語のための宇宙もあります。この技術は、私たちが多元宇宙的な方法で生活することを可能にするでしょう。」
カサドは、これらの抽象的に見える対話を具体化しました。彼は、これらのモデルが単一または複数の二次元ビュー(写真など)から、コンピュータ内で完全で後続の操作が可能な三次元表現を生成できると説明しました。これには、テーブルの裏側など、視野外の部分も含まれます。この能力は、オブジェクトの操作、移動、測定、積み重ね、さらには元々存在しないコンテンツの生成、例えば二次元画像から360度パノラマを作成することなどを意味します。明らかに、これはビデオゲーム、クリエイティブデザイン、アート制作、そしてより広範な物理シミュレーションとインタラクションの分野に深く影響を与えるでしょう。
これらの応用展望の背後には、根本的な問題が存在します。なぜ世界の理解と再構築は三次元でなければならないのでしょうか?
李飛飛は説明しました。「物理法則は三次元空間で作用し、インタラクティブな行動も三次元空間で展開されます。テーブルの裏側へのナビゲーションは三次元空間で行われる必要があります。物理世界であろうとデジタル世界であろうと、世界の構築は三次元空間で行われなければなりません。」
カサドもコンピュータプログラムの観点から補足しました。空間に関連する多くのタスクにおいて、ロボットやプログラムはナビゲーションと操作のために明確な三次元情報を必要とします。なぜなら、二次元画像には重要な奥行き情報(Z軸)が欠落しているからです。人間の脳は二次元ビデオを三次元シーンに再構築できますが、コンピュータプログラムには直接の三次元入力が必要です。
この点をより鮮明に説明するために、李飛飛は自身の経験を共有しました。約5年前、彼女は角膜の損傷により数ヶ月間、一時的に立体視を失いました。これは、彼女が当時片目だけで世界を見ていたことを意味します。「運転するのがとても怖くなりました」と彼女は振り返ります。「家の近所を運転するだけでも、自分の車と道端に停まっている車両との距離を正確に判断するのが非常に難しいと気づきました…非常にゆっくりと運転速度を落とさなければなりませんでした。」これは、AIが世界を真に理解し、操縦するためには、三次元知覚能力が不可欠であることを間接的に裏付けています。
「世界モデル」の概念は大規模言語モデルよりも先進的に聞こえるかもしれませんが、その研究はゼロから始まったわけではありません。李飛飛は、コンピュータビジョンという分野が、これまで様々な散発的な探索と蓄積を行ってきたと紹介しました。例えば、三次元コンピュータビジョンの分野における重要な革新であるニューラルラディアンスフィールド(NeRF)は、まさにWorld Labsの共同創設者であるベン・ミルデンホールとその同僚によって完成されました。もう一人の共同創設者であるクリストフ・ラシンガーの画期的な仕事は、ガウススプラッティング表現が有効な三次元シーン表現方法として再び普及するのを促進しました。さらに、李飛飛の元教え子である共同創設者ジャスティン・ジョンソンは、Transformerが登場する以前から、画像生成分野(敵対的生成ネットワークGANsやスタイル変換など)で多くの基礎的な仕事をしており、これらすべてが現在の研究の核となるコンポーネントを構成しています。
これらの学術的蓄積と技術的ブレークスルーに基づいて、World Labsはコンピュータビジョン、拡散モデル、コンピュータグラフィックス、最適化、AI、データなどの分野で世界トップクラスの人材を結集することができました。「これらすべての人々が緊密なチームを組み、この技術を実現し、最終的に製品化するために共に努力しています」と李飛飛は強調しました。
カサドも部外者の視点から、このようなチーム構築の必要性と課題について評価しました。「部外者の視点から言えば、この複雑な問題を解決するには、AI分野の専門家だけでなく、グラフィックス分野の専門家も必要です。この学際的な能力を持つ非常に特別なチームがあって初めて、この難問を真に克服できるのです。そして、フェイフェイはそのようなチームを成功裏に編成しました。」
+++++++++++++++++++++++++++++++++++++++++++++++++++++
おすすめの古典新刊:
チューリングからAIへのソースコードを解読する — コンピューティングの先駆者と共に、数智の新たな時代を定義する!本書では、チューリング賞受賞者76名の業績、事績、貢献を紹介しています。彼らの紹介を通じて、コンピュータ分野の発展の歴史を見ることができ、本書は私たちをこの壮大で波乱に富んだ歴史を体験させてくれます。画像のQRコードをスキャンして購入できます。
特集記事:
1. チューリング賞受賞者ヤン・ルカン:中国人は私たちを必要とせず、彼ら自身で非常に良いアイデアを思いつくことができる。
2. チューリング賞の誕生
3. ノーベル賞受賞者、AIのゴッドファーザーであるヒントン氏の学術講演:チューリングは別の種類のAIを信じていた、逆伝播は人間の脳より優れている、オープンソースモデルは世界に致命的な危険をもたらすだろう。
4. チューリング賞受賞者ルカン、シリコンバレーの傲慢さを痛烈に批判!業界で話題の長文記事:DeepSeek R1-ZeroはR1よりも重要で、AGI打破の鍵となる。
5. チューリング賞受賞者、AIのゴッドファーザーであるベンジオ:OpenAIはスーパーインテリジェンスを共有せず、それを使って他者の経済を破壊するだろう。
6. AIのゴッドファーザー、チューリング賞およびノーベル賞受賞者ヒントン氏がCBSのインタビューに答える:AIは今、人間が飼っているかわいい小さなトラだ、飼い主を噛まないように注意が必要だ。
7. チューリング賞受賞者ベンジオは、o1がAGIに到達できないと予言!Nature誌の権威あるAI知能の驚くべき進化に関する解説、究極の境界線は目前に迫っている。
8. 強化学習をすぐに放棄すべきか?!チューリング賞受賞者、MetaのチーフAIサイエンティストであるヤン・ルカン氏が提言:現在の推論方法は「ごまかし」であり、大規模モデルの競争は無意味だ!
9. チューリング賞受賞者ヤン・ルカン:大規模言語モデルは物理世界の理解と推論能力を欠いており、人間レベルの知能は実現できない。
10. チューリング賞受賞者ジェフリー・ヒントン:小さな言語から大きな言語へ、人工知能はどのように人間を理解するのか?