為什麼空間推理是視覺語言模型的短板?
想像你要在IKEA迷宮般的倉庫裡找貨架,人類會邊看地圖邊比劃路線,但目前的視覺語言模型(LVLM)只會用文字描述:「左轉,右轉...」—結果原地打轉!論文犀利指出:文字無法精準表達空間關係。例如物體移動軌跡在文字中會變成「從A到B再到C」的模糊描述,而實際需要精確到像素級的座標變化。
更令人心痛的是,現有方法依賴外部感知工具(如物體偵測器),相當於給人戴上限定視野的眼鏡。當工具辨識錯誤時,模型毫無糾錯能力,導致錯誤層層累積。「這就像用算盤教AI微積分」,作者在引言中如此比喻。
論文:Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing
地址:https://arxiv.org/pdf/2506.09965
方法:像人類一樣「邊畫邊想」
ViLaSR的核心是讓模型直接動手畫圖推理,就像人類在草稿紙上演算。具體實現兩大操作:
畫框定位:用邊界框鎖定物體位置(如「沙發在左下角」)
畫線分析:用輔助線測量距離角度(如「冷氣離窗1.5公尺」)
三階段訓練如同教孩子學畫:
1. 冷啟動:用合成數據教基礎繪圖(臨摹字帖)
2. 反思訓練:篩選會自我修正的答案(老師批改作業)
3. 強化學習:用獎勵機制優化畫圖策略(考試加分激勵)
關鍵公式:獎勵函數設計
模型得分=答案正確性+繪圖規範性
(當正確率達標時,才計算繪圖規範性得分,防止模型「畫得漂亮但全答錯」)
實驗結果
在五大空間推理測試中,ViLaSR完全超越所有對手:
迷宮導航正確率98.2%(比GPT-4o高49.4%)
影片物體追蹤精度提升12.7%
多視角推理勝率超越開源模型30%
最震撼的是消融實驗:反思訓練讓模型自我修正行為暴增96.5%!當模型學會質疑自己的畫圖結果時,錯誤率斷崖式下降。例如在測量房間尺寸時,未經反思訓練的模型隨意畫線導致誤差達20%,而ViLaSR會反覆校準邊界框位置。
案例展示:圖解模型如何「動手破案」
案例1:迷宮終極挑戰
GPT-4o:文字推理出現「左轉後應該右轉」的矛盾
ViLaSR:
1. 畫紅線標記起點
2. 按指令逐步延伸藍線
3. 發現死胡同後回溯改道,最終畫出完整綠色通路
案例2:影片找手機
要求:在監控影片中計算手機移動距離
傳統模型:框錯手機型號(把遙控器當手機)
ViLaSR:
1. 第5幀畫框標記疑似手機 → 發現尺寸不對
2. 第12幀重新定位真手機
3. 用耳機尺寸作比例尺換算距離
行業意義:機器人、AR的顛覆性突破
這項研究破解了AI落地最大痛點——缺乏空間常識。以往機器人抓取物品時,因無法理解「杯子在盤子左前方5公分」而頻頻出錯。ViLaSR的繪圖推理讓機器獲得空間思維內化能力,實驗結果已顯示其在機械手臂操作中的潛力。
更令人興奮的是,團隊已開源全部資源:
程式碼:https://github.com/AntResearchNLP/ViLaSR
模型:https://huggingface.co/AntResearchNLP/ViLaSR 开发者可快速部署到掃地機器人、AR導航等場景。
「當AI學會動手畫圖,機器認知升維的奇點將至」。