描きながら考える!マルチモーダル推論が大幅に向上!

なぜ空間推論は視覚言語モデルの弱点なのか?

IKEAの迷路のような倉庫で棚を探す状況を想像してみてください。人間は地図を見ながらルートをなぞりますが、現在の視覚言語モデル(LVLM)は「左に曲がって、右に曲がって…」と文字で説明するだけで、結局その場で堂々巡り!論文は鋭く指摘しています:テキストでは空間関係を正確に表現できません。例えば、物体の移動軌跡はテキストでは「AからBへ、そしてCへ」という曖昧な記述になりがちですが、実際にはピクセルレベルの座標変化が必要です。

GPT-4oが迷う vs ViLaSRの精密な描画

さらに痛いのは、既存の手法が外部の認識ツール(物体検出器など)に依存していることです。これは、限定された視野の眼鏡を人にかけさせるようなものです。ツールが誤認識した場合、モデルには修正能力が全くなく、エラーが次々と積み重なります。「これはAIにそろばんで微分積分を教えるようなものだ」と、著者は序論で比喩しています。

画像

論文:Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

URL:https://arxiv.org/pdf/2506.09965

手法:人間のように「描きながら考える」

ViLaSRの核は、モデルが直接図を描いて推論することです。まるで人間が計算用紙で演算するかのようです。具体的には以下の2つの主要な操作を実現します:

ボックス描画による位置特定:バウンディングボックスを使って物体の位置を特定(例:「ソファは左下にある」)

線描画による分析:補助線を使って距離や角度を測定(例:「エアコンは窓から1.5メートル離れている」)

3段階のトレーニングは、子供に絵を教えるようなものです:

1. コールドスタート:合成データを使って基本的な描画を教える(書道の練習帳をなぞるように)

2. 反省トレーニング:自己修正する解答を選別する(先生が宿題を採点するように)

3. 強化学習:報酬メカニズムを使って描画戦略を最適化する(試験で加点されるようなインセンティブ)

主要な公式:報酬関数設計

モデルスコア = 回答の正確性 + 描画の規範性

(正答率が基準を満たした場合のみ、描画の規範性スコアが計算される。「絵は綺麗だが全部間違っている」モデルを防ぐため)

3段階トレーニングのフローチャート

実験結果

5つの主要な空間推論テストで、ViLaSRはすべての競合モデルを圧倒しました:

迷路ナビゲーションの正答率98.2%(GPT-4oより49.4%高い)

動画物体追跡精度が12.7%向上

多視点推論の勝率がオープンソースモデルを30%超える

画像

最も衝撃的だったのはアブレーション実験です:反省トレーニングによってモデルの自己修正行動が96.5%も急増しました!モデルが自分の描画結果に疑問を持つことを学ぶと、エラー率が劇的に減少しました。例えば、部屋のサイズを測定する際、反省トレーニングを受けていないモデルは適当な線を引き、20%もの誤差を生じさせましたが、ViLaSRはバウンディングボックスの位置を繰り返し調整しました。

画像

事例紹介:モデルが「描画で事件を解決する」方法

事例1:迷路の最終挑戦

GPT-4o:テキスト推論で「左に曲がった後、右に曲がるべき」という矛盾が発生

ViLaSR:

1. 赤線で開始点をマーク

2. 指示に従って青線を段階的に延長

3. 行き止まりを発見した後、引き返してルートを変更し、最終的に完全な緑の通路を描画

画像

事例2:動画で携帯電話を探す

要求:監視ビデオで携帯電話の移動距離を計算

従来のモデル:携帯電話のモデルを間違って枠で囲む(リモコンを携帯電話と誤認)

ViLaSR:

1. 5フレーム目:携帯電話らしきものを枠で囲む → サイズが間違っていることを発見

2. 12フレーム目:本物の携帯電話を再特定

3. イヤホンのサイズを比例尺として距離を換算

画像画像

業界への意義:ロボット、ARの画期的なブレークスルー

この研究は、AIの実装における最大の課題――空間常識の欠如を解決しました。これまで、ロボットは「コップは皿の左前方5センチ」を理解できず、物品をつかむ際に頻繁に失敗していました。ViLaSRの描画推論は、機械に空間思考の内在化能力をもたらし、実験結果はすでにロボットアーム操作におけるその潜在能力を示しています。

さらに喜ばしいことに、チームはすべてのリソースをオープンソース化しました:

コード:https://github.com/AntResearchNLP/ViLaSR

モデル:https://huggingface.co/AntResearchNLP/ViLaSR 開発者は、これを掃除ロボットやARナビゲーションなどのシナリオに迅速に展開できます。

「AIが描画を学ぶとき、機械認識の次元上昇の特異点が訪れるだろう」

メインタグ:人工知能

サブタグ:視覚言語モデルマルチモーダルAI機械学習空間推論


前の記事:米国華人系女性科学者が画期的な脳卒中治療法を発明!血栓除去成功率90%、医療の常識を覆す可能性!

次の記事:ACL 2025 | 大規模モデルの「誤報伝播」?DRAGの二段階「マルチエージェント討論」が幻覚の重層化問題を解決

短いURLをシェア