重磅!Meta 開源最新世界模型 V-JEPA 2

稍早,Meta 發布了最新的開源世界模型 V-JEPA 2,聲稱該模型在實體世界中實現了最先進的視覺理解與預測,進而提升了 AI 代理的物理推理能力。

圖片

Meta 副總裁暨首席 AI 科學家楊立昆(Yann LeCun)親自發布了該模型,他在官方影片中提到,在世界模型的幫助下,AI 不再需要數百萬次的訓練才能掌握一項新的能力,世界模型直接告訴了 AI 世界是如何運作的,這可以極大提升效率。

例如 AI 會預測我們舀出一勺東西是要放入另一個容器中:

圖片

AI 甚至可以理解運動員的複雜跳水動作,並進行動作拆解:

圖片

根據 Meta 測試數據,V-JEPA 2 在測試任務中每一步的規劃用時縮短至輝達 Cosmos 模型的三十分之一,同時成功率更高。據稱 V-JEPA 2 使用了一百多萬小時的影片進行自監督學習訓練。

圖片

在 Meta 看來,物理推理能力對於建構在現實世界中運作的 AI 代理、實現進階機器智能(AMI)非常重要,可以讓 AI 代理真正可以「三思而後行(Think Before Acts)」。

圖片

此外,Meta 還發布了三個新的基準測試,用於評估現有模型從影片中推理物理世界的能力。

昨天 Meta 剛曝出要成立新 AI 實驗室、延攬 28 歲華裔天才少年,並斥資 148 億美元(約合新台幣 4,800 億元)收購 Scale AI 49% 股份的消息,今天 Meta 發布新世界模型,並讓楊立昆出來大談 Meta AI 的重點研究方向和願景做法,頗有些要為招兵買馬「打廣告」的意味。

論文連結:

https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/

世界模型賦予 AI「類人直覺」

強化 AI 代理的理解、預測與規劃能力

理解世界物理規律聽起來並不複雜,但這是 AI 與人類差距非常大的一個面向。

例如你把球拋向空中時,知道重力會將其拉回地面;當你穿過一個陌生的擁擠區域時,你會一邊朝目的地移動,一邊避免撞到沿途的行人或障礙物;打曲棍球時,你會滑向冰球即將到達的位置,而非它當前的位置。

圖片

▲判斷籃球的運動軌跡

但 AI 很難掌握這種能力,很難建構這種理解物理世界的「心智模型」。

圖片

Meta 的世界模型,主要會強化 AI 代理的理解、預測、規劃三項核心能力。

關鍵架構創新大幅提升學習效率

高效能同時兼顧準確率

Meta 使用影片來訓練 V-JEPA 2,幫助模型學習物理世界中的重要規律,包括人類如何與物體互動、物體在物理世界中的運動方式,以及物體之間的相互作用。

據稱 V-JEPA 2 透過自監督學習,訓練了超過 1 百萬小時的影片。

V-JEPA 2 是一種聯合嵌入預測架構(Joint Embedding Predictive Architecture)模型,這也是「JEPA」的名稱由來。

圖片

模型包括兩個主要組成部分:

一個編碼器,負責接收原始影片,並輸出包含對於觀察世界狀態語義上有用的內容的嵌入(embeddings)。

圖片

一個預測器,負責接收影片嵌入和關於要預測的額外內容,並輸出預測的嵌入。

圖片

V-JEPA 2 跟傳統預測像素的生成式模型有很大效能差異,根據 Meta 測試數據,V-JEPA 2 執行任務時每個步驟的規劃用時縮短至 Cosmos 模型的三十分之一,不僅用時短,V-JEPA 2 的成功率還更高。

V-JEPA 2 的能力對於現實世界代理理解複雜運動和時間動態(temporal dynamics),以及根據上下文線索預測動作都非常關鍵。

基於這種預測能力,世界模型對於規劃給定目標的動作順序非常有用,例如從一個杯子在桌子上的狀態到杯子在桌子邊上的狀態,中間要經歷怎樣的動作。

圖片

現今大部分 AI 都需要專業的訓練去解決特定的任務,而 V-JEPA 這種自監督的方式,只需要為數不多的案例,就可以掌握新的能力,在不同的任務和領域中實現更高的效能表現。

圖片

模型可以部署在機械臂上,去執行物體操作類的任務,例如觸碰(Reach)、抓取(Grasp)、選擇和擺放物體(Pick-and-place),而不需要大量的機器人數據或者針對性的任務訓練。

圖片

根據測試數據,V-JEPA 2 在執行這三類任務時的成功率分別為 100%、45% 和 73%。

楊立昆展示世界模型應用場景

首發三個專項基準測試

世界模型可能會有哪些應用場景,楊立昆也給大家做了一些展示。

世界模型加持下的 AI 代理,可以幫助視障人群更好地認知世界;

圖片

MR 頭顯中的 AI 代理可以給更複雜的任務提供指導,例如讓教育更加的個性化;

圖片

AI 編程助理可以真正理解一行新的程式碼會如何改變程式的狀態或變數;

圖片

世界模型對自動化系統同樣非常重要,例如自動駕駛汽車和機器人;

圖片

Meta 認為世界模型會為機器人開啟一個新的時代,讓現實世界中的 AI 代理不需要學習天文數字的訓練數據就可以做家務或體力勞動。

除了發布 V-JEPA 2,Meta 還分享了三個新基準測試,用來幫助研究界評估現有模型透過影片學習和推理世界的能力:

1、IntPhys 2:用於測試模型在複雜合成環境中的直觀物理理解能力(Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments)。

2、一種基於最小影片對的、感知捷徑的物理理解影片問答基準測試(A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs)。

3、CausalVQA:面向影片模型的物理基礎因果推理基準測試(A Physically Grounded Causal Reasoning Benchmark for Video Models)。

基準測試連結:

IntPhys 2:

https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/

CausalVQA :

https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/

Shortcut-aware Video-QA Benchmark:

https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/

結論:AI 認知世界速度提升

AI 從數位世界加速邁向實體世界

Meta 第二代世界模型的發布進一步優化了模型的效能和準確率,讓物理世界的 AI 代理可以更高效地執行任務,而不需要海量的數據訓練,這一方向可以說是目前 AI 業界關注的焦點賽道之一。

隨著數據瓶頸問題越來越凸顯,如何在底層技術層面實現突破顯得更為關鍵,Meta 在模型架構層面的創新是其世界模型的核心優勢。

隨著現今越來越多的影片模型發布,AI 逐漸從文字、圖像走向動態的影片,AI 理解世界、認識世界的速度不斷加快,從輝達、Meta、Google 這樣的巨頭到各路新創公司,都對打造世界模型饒有興致,世界模型之戰,或許將成為後續 AI 產業技術競爭的關鍵看點。

來源:Meta 官網

文末推薦一個寶藏工具小程式!

主標籤:人工智慧

次標籤:世界模型AI代理視覺理解機器學習


上一篇:Seedance 1.0 Pro 第一手評測:位元組跳動首次榮登視訊大模型競技場的殺手級應用來了!

下一篇:與圖靈獎得主約瑟夫·西法基斯對談:人工智慧能變得更聰明,但無法完全超越人類

分享短網址