邊畫邊想!多模態推理迎來巨大提升!

為什麼空間推理是視覺語言模型的短板?

想像你要在IKEA迷宮般的倉庫裡找貨架,人類會邊看地圖邊比劃路線,但目前的視覺語言模型(LVLM)只會用文字描述:「左轉,右轉...」—結果原地打轉!論文犀利指出:文字無法精準表達空間關係。例如物體移動軌跡在文字中會變成「從A到B再到C」的模糊描述,而實際需要精確到像素級的座標變化。

GPT-4o迷路 vs ViLaSR精準繪圖

更令人心痛的是,現有方法依賴外部感知工具(如物體偵測器),相當於給人戴上限定視野的眼鏡。當工具辨識錯誤時,模型毫無糾錯能力,導致錯誤層層累積。「這就像用算盤教AI微積分」,作者在引言中如此比喻。

圖片

論文:Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

地址:https://arxiv.org/pdf/2506.09965

方法:像人類一樣「邊畫邊想」

ViLaSR的核心是讓模型直接動手畫圖推理,就像人類在草稿紙上演算。具體實現兩大操作:

畫框定位:用邊界框鎖定物體位置(如「沙發在左下角」)

畫線分析:用輔助線測量距離角度(如「冷氣離窗1.5公尺」)

三階段訓練如同教孩子學畫:

1. 冷啟動:用合成數據教基礎繪圖(臨摹字帖)

2. 反思訓練:篩選會自我修正的答案(老師批改作業)

3. 強化學習:用獎勵機制優化畫圖策略(考試加分激勵)

關鍵公式:獎勵函數設計

模型得分=答案正確性+繪圖規範性

(當正確率達標時,才計算繪圖規範性得分,防止模型「畫得漂亮但全答錯」)

三階段訓練流程圖

實驗結果

在五大空間推理測試中,ViLaSR完全超越所有對手:

迷宮導航正確率98.2%(比GPT-4o高49.4%)

影片物體追蹤精度提升12.7%

多視角推理勝率超越開源模型30%

圖片

最震撼的是消融實驗:反思訓練讓模型自我修正行為暴增96.5%!當模型學會質疑自己的畫圖結果時,錯誤率斷崖式下降。例如在測量房間尺寸時,未經反思訓練的模型隨意畫線導致誤差達20%,而ViLaSR會反覆校準邊界框位置。

圖片

案例展示:圖解模型如何「動手破案」

案例1:迷宮終極挑戰

GPT-4o:文字推理出現「左轉後應該右轉」的矛盾

ViLaSR:

1. 畫紅線標記起點

2. 按指令逐步延伸藍線

3. 發現死胡同後回溯改道,最終畫出完整綠色通路

圖片

案例2:影片找手機

要求:在監控影片中計算手機移動距離

傳統模型:框錯手機型號(把遙控器當手機)

ViLaSR:

1. 第5幀畫框標記疑似手機 → 發現尺寸不對

2. 第12幀重新定位真手機

3. 用耳機尺寸作比例尺換算距離

圖片圖片

行業意義:機器人、AR的顛覆性突破

這項研究破解了AI落地最大痛點——缺乏空間常識。以往機器人抓取物品時,因無法理解「杯子在盤子左前方5公分」而頻頻出錯。ViLaSR的繪圖推理讓機器獲得空間思維內化能力,實驗結果已顯示其在機械手臂操作中的潛力。

更令人興奮的是,團隊已開源全部資源

程式碼:https://github.com/AntResearchNLP/ViLaSR

模型:https://huggingface.co/AntResearchNLP/ViLaSR 开发者可快速部署到掃地機器人、AR導航等場景。

「當AI學會動手畫圖,機器認知升維的奇點將至」

主標籤:人工智慧

次標籤:視覺語言模型多模態AI機器學習空間推理


上一篇:美國華裔女性科學家發明劃時代中風療法!血栓清除成功率達90%,有望徹底改變治療現況!

下一篇:ACL 2025 | 大型語言模型「以訛傳訛」?DRAG 雙階段「多代理辯論」破解幻覺疊加問題

分享短網址