點擊上方「圖靈人工智慧」,選擇「星標」公眾號
您想知道的人工智慧乾貨,第一時間送達
版權聲明
轉載自數字開物,版權屬於原作者,用於學術分享,如有侵權留言刪除
6月4日,World Labs 共同創辦人兼執行長李飛飛與 a16z 普通合夥人及該公司早期投資者 Martin Casado,參與了由 a16z 普通合夥人 Erik Torenberg 主持的一場訪談,共同探討了「世界模型」這一概念,以及建構「世界模型」的迫切需求。本次對話深入剖析了當前 AI 的侷限性、「世界模型」背後的基本原則,以及實現路徑。
01
World Labs 的起源:共同願景與 AI 的物理根基
02
解構 AI 路徑:語言、資料與物理世界的必然性
03
世界模型的應用藍圖與研究基礎
那麼,當「世界模型」這一願景真正得以實現,它將如何改變我們的世界,又能催生哪些具體的應用呢?李飛飛首先點出:「創造力在很大程度上是視覺性的。」她列舉了設計、電影、建築到工業設計等廣泛領域,這些無不高度依賴視覺、感知與空間能力。緊接著,她提到了機器人技術,並將其廣義地定義為「任何能夠與環境互動的實體機器」,這些機器都必須以某種方式理解它們所處的三維空間,並與人類協作。
更進一步,李飛飛展望了一個更為宏大的未來:「借助這項技術——它是生成與重建的結合,我們突然之間就能創造出無限的宇宙。有些宇宙專為機器人設計,有些服務於創造力,有些用於社交,有些用於旅行,還有一些則用於敘事。這項技術將使我們能夠以一種多元宇宙的方式生活。」
Casado 則將這些看似抽象的對話具體化。他解釋道,這些模型能夠從單一或多個二維視圖(如一張照片)在電腦中生成一個完整、可供後續操作的三維表示,甚至包括視野之外的部分,如桌子的背面。這種能力意味著可以操控、移動、測量、堆疊物體,乃至生成原本不存在的內容,例如從一張二維圖片創造出 360 度全景。顯然,這將深刻影響電玩遊戲、創意設計、藝術創作乃至更廣泛的物理模擬與互動領域。
這些應用前景背後,存在一個根本性的問題:為何對世界的理解和重建必須是三維的?
李飛飛解釋道:「物理定律在三維空間中發生作用,互動行為也在三維空間中展開。導航到桌子背面需要在三維空間中進行。建構世界,無論是物理世界還是數位世界,都必須在三維空間中完成。」
Casado 也從電腦程式的角度補充,對於許多與空間相關的任務,機器人或程式需要明確的三維資訊才能進行導航和操作,因為關鍵的深度資訊(Z 軸)在二維圖像中是缺失的。人類大腦可以將二維影片重建為三維場景,但電腦程式則需要直接的三維輸入。
為了更生動地闡釋這一點,李飛飛分享了一段經歷。大約五年前,她因角膜受傷而短暫失去幾個月的立體視覺,這意味著她當時是用一隻眼睛看世界。「我變得非常害怕開車,」她回憶道,「即使只是在我家附近的社區裡開車,我也意識到自己很難準確判斷我的車與停在路邊的車輛之間的距離……我不得不把車速降到非常非常慢。」這也從側面印證為何 AI 若要真正理解並駕馭世界,三維感知能力是不可或缺的一環。
儘管「世界模型」的概念聽起來比大型語言模型更為前瞻,但其研究並非從零開始。李飛飛介紹,電腦視覺作為一個學科,一直在進行各方面零散的探索和累積。例如,三維電腦視覺領域的重要革新——神經輻射場,正是由 World Labs 的共同創辦人 Ben Mildenhall 及其同事完成的。另一位共同創辦人 Christoph Lasinger 的開創性工作,則推動了高斯潑濺表示法(Gaussian Splatting representation)作為有效三維場景表示方法的再次流行。此外,曾為李飛飛學生的共同創辦人 Justin Johnson,在 Transformer 問世之前,就在圖像生成領域(如生成對抗網路 GANs 和風格轉移)做出了大量基礎性工作,這些都構成了當前研究的核心元件。
正是在這些學術累積和技術突破的基礎上,World Labs 得以匯聚全球在電腦視覺、擴散模型、電腦圖形學、最佳化、AI 以及資料等領域最頂尖的人才。「所有這些人組成一個緊密的團隊,共同努力將這項技術實現並最終產品化,」李飛飛強調。
Casado 也從旁觀者的角度評價了這種團隊建構的必要性與挑戰性:「我必須說,從一個旁觀者的角度來看,要解決這個複雜的問題,既需要 AI 領域的專家,也需要圖形學領域的專家,需要一個具備這種跨學科能力的非常特殊的團隊才能真正攻克這個難題,而 Fei-Fei 已經成功地組建了這樣一支團隊。」
+++++++++++++++++++++++++++++++++++++++++++++++++++++
經典新書推薦:
解碼圖靈到 AI 的原始碼——與運算先驅同行,定義數智新紀元!本書介紹了 76 位圖靈獎得主的工作、事蹟和貢獻,在他們的介紹中,能夠看到一個電腦分支的發展歷程,本書帶領我們去感受這一段波瀾壯闊的歷史。可以掃描圖片中的 QR Code 購買。
文章精選:
1.圖靈獎得主楊立昆:中國人並不需要我們,他們自己就能想出非常好的點子
2.一個圖靈獎的誕生
3.諾獎得主、人工智慧教父辛頓學術講座:圖靈相信的是另一種 AI、反向傳播比人腦效果好,開源模型將給世界帶來致命危險
4.圖靈獎得主 LeCun 痛批矽谷傲慢病!圈內爆紅長文:DeepSeek R1-Zero 比 R1 更重要,成 AGI 破局關鍵
5.圖靈獎得主、AI 教父 Bengio:OpenAI 不會分享超級智能,而是會用它來搞垮其他人的經濟
6.AI 教父、圖靈獎和諾貝爾獎得主辛頓接受 CBS 專訪:AI 現在是人類養的可愛小老虎,要謹防反噬其主
7.圖靈獎得主 Bengio 預言 o1 無法抵達 AGI!Nature 權威解讀 AI 智慧驚人進化,終極邊界就在眼前
8.趕緊放棄強化學習?!圖靈獎得主、Meta 首席 AI 科學家楊立昆喊話:目前推理方式會「作弊」,發展大型模型沒有意義!
9.圖靈獎得主楊立昆:大型語言模型缺乏對物理世界的理解和推理能力,無法實現人類水準智慧
10.圖靈獎得主傑弗里·辛頓:從小語言到大型語言,人工智慧究竟如何理解人類?