今年上半年、小紅書チームが発売したDeepEyesを覚えていますか?
はい、人間のように「画像の詳細を拡大して手がかりを探す」ことができ、o3のような「画像思考」を基本的に実現したマルチモーダルモデルです。
今、より強力なバージョン——DeepEyesV2が、重磅リリースされました。
結論から:DeepEyesV2はDeepEyesの視覚推論優位性を継続するだけでなく、「コード実行+ウェブ検索+画像操作」の全ツール協同を画期的にも実現し、「詳細を見る」から「複雑な問題を積極的に解決するエージェント」へ進化しました。
以下詳細に展開——
多ツール協同のマルチモーダル推論
既存のマルチモーダル大モデルはテキストや画像などの情報を理解できますが、「情報解釈器」のようなもので、情報を受動的に感知するだけで外部ツールを積極的に呼び出して問題解決できません。
そのため、2つの大きな痛点に制限されます:
痛点1:ツール呼び出し能力が弱い。
見知らぬ植物の写真に対してAIに「これはどんな花?」と聞くと、
伝統的なマルチモーダルモデルはツール呼び出し能力が全くなく内部知識庫のみで基本理解するか、
単一ツールしか呼び出せず、組み合わせ戦略ができません。
例:DeepEyesはクロップツールで画像細粒度感知可能ですが、情報検索欠如で内部知識だけでは花の品種特定不可;
対照的にMMSearchR1は検索対応ですが細粒度感知なしで「画像詳細不明」により検索失敗多発。
この「単一ツール依存」で複雑タスクに無力。
痛点2:多能力協同欠如。
人間は「観察(感知)→資料確認(検索)→結果計算(推論)」を自然に連鎖しますが、伝統モデルは協同困難。
感知・検索・推論が「個別作戦」で1-2ステップのみ、完全解決へ連鎖しにくい。
DeepEyesV2はどう解決?
従来モデル比、DeepEyesV2は多ツール協同推論で実世界複雑問題解決。
例:「図の株価チャートから2024年4月4日9:30-16:00の同社下落率計算し、同期Tootsie Roll Industries(TR)と比較。」
「どちら大きいか」複雑問題で強力推論発揮。
全体3ステップ:
ステップ1:画像検索、追加情報取得。
DeepEyesV2まず画像検索で株価情報試取得。
ステップ2:テキスト検索、株価試取得。
画像検索無効ならテキスト検索で株価データ。
ステップ3:コード実行、APIアクセス・計算。
テキスト検索も無効ならコード生成、Yahoo Finance APIで株価取得・数値計算し最終結果。
複数検索・コード実行・複雑推論で成功解答。
注目:訓練データにコードAPIアクセスなし、だがRLで自律習得。
DeepEyesV2
モデル詳細
DeepEyes同様、エージェント特性マルチモーダルモデルだがツール使用大拡張、単純クロップ超え。
DeepEyesV2中、プログラムコード実行・ウェブ検索が外部ツールとして推論交互呼び出し、結果結合更推論。
画像入力・クエリ後、初推理計画生成、内部解決かツール必要判断。
ツール必要時、実行Pythonコードorウェブ検索クエリ生成。
コードサンドボックス実行、構造出力:処理画像・測定・配列・チャート・ログ。
画像クエリSerpAPIで上位5視覚マッチページ;テキスト上位5関連ページ+タイトル/スニペット…全ツール出力コンテキスト追加。
次観察基更思考、更ツール計画、推論-ツール-統合ループ繰り返し正確解答まで。
要:動的ツール選択・組合・使用。
統合3優勢:
1.実行コードで分析拡張強化;
2.ウェブ多モーダル証拠から積極リアルタイム知識取得;
3.推論中コード・検索単一軌道動的結合、非孤立モジュール、ツール呼び出し柔軟性向上。
これらでDeepEyesV2汎用・信頼・拡張マルチモーダル推論フレームワーク。
探索実験
DeepEyesはRLで画像思考発火、チームDeepEyes参考Qwen2.5-VL-7B探索。
RLで直接複雑ツール使用習得可否研究、2キー問題観察。
問題1:初期ツール探索「心あり力なし」、コード実行率低。
訓練初期Python生成画像クロップ・数値ツール呼ぶがコード文法/論理エラー多、成功率低。
訓練進むとコード放棄、短推理連鎖収束ツール回避。
問題2:「報酬ハック」、無効操作で報酬騙取。
改善為DeepEyes有効「ツール使用報酬」導入:コード生成で追加報酬。
初期効果、成功率向上。
後期モデル「小細工」、無意味コメントコード出力報酬ハック陷阱。
探索で既存マルチモーダル能力不足直接RL複雑ツール信頼学習不可、冷スタート重要明。
2段階訓練
故「冷スタート+RL」2段階:ツール「使える」から「上手く使う」へ。
段階1:冷スタート—基礎打つ
高品質データセットでツール呼び出し基本論理習得。チーム4類厳選:
- 感知類:画像クロップ・マークツール必要問題。
- 推論類:コード計算ツール必要数学問題。
- 検索類:ネットツール必要問題。
- CoT類:純テキスト推論CoT。
データ2層厳格フィルタ:
1.難度フィルタ:基盤モデル解決不可のみ;
2.ツール利益フィルタ:ツール呼び出しで精度大幅向上確保。
段階2:RL—精最適化
冷スタート基「精度+形式規範」双報酬でツール戦略最適。
伝統複雑報酬異なり、DeepEyesV2 2単純報酬:
1.精度報酬:最終答案標準答案一致度スコア;
2.形式報酬:コードエラー・検索キーワード無効等形式問題罰。
RealX-Bench
既存ベンチ単一能力テスト(例画像識別・数学計算)、実世界「多能力協同」必要。
チーム新基準RealX-Bench構築:300実世界問題、日常生活・メディア・スポーツ・知識・ゲーム5領域。
実シーン収集改写、多く多能力結合必要。
精度オープンソース遠超
チームRealX-Benchで既存・DeepEyesV2評価。
最先端汎用でも50%未満、DeepEyesV2ツール協同でオープン遠超、多能力統合タスク特に優位。
加実世界理解・数学推論・検索タスク評価。
結果:既存比巨大性能向上、ツール呼び出し重要証明。
深層剖析:データ消融・ツール嗜好
後、多消融でデータ類型ツール使用影響系統探究。
まず冷スタートデータ:目標「基礎ツール論理」習得。
感知・推論・CoT 3類消融検証。
感知のみ:実世界感知精度明向上、数学無向上。
視覚ツール習熟だがコード推論移行不可—拡大鏡知るが電卓不知。
推論のみ:数学向上、実世界感知下降。
推論「コード生成+論理検証」複雑、視覚感知→ツール連結訓練欠如で感知喪失。
感知+推論+CoT後:理解・推論明向上。
CoT推論強化複雑ツール促進。
最適:「感知+推論+CoT」。
3類結合感知・推論テスト最優:多様複雑推論冷スタートで多ツール協同基礎。
続RLデータ影響探究、多様データのみ有効ツール呼び出し向上。
冷スタート「何ツール知る」、RL「いつ使う知る」。
冷後・RL後ツール行動対比:RL精度最適化、タスク適応モード形成—
「必要時呼び出し」DeepEyesV2伝統差別核心。
分析:冷後初步タスク-ツール一致、RL強化・クロスツール組合推進。
DeepEyesV2タスク別明ツール嗜好。
実世界感知:クロップ細粒度詳細;OCR:マーク+数値;チャート:算術多。
数学推論:数学計算主導;検索:検索ツール主。
RL前後比較明変化。
RL後数値演算多、検索で画像処理+検索結合—RLクロスツール協同強化。
冷スタート過剰呼び出し(90%超タスク)、推論効率低。
RL後呼び出し率明降、自適応—有利時のみ呼び出し効率向上。
RL訓練追跡:出力長降、平均呼び出し降、だが分散大。
固定呼び出し非(例各問題1ツール)。
自適応思考:必要時選択呼び出し。
複雑問題高呼び出し—難度動調整、真自適応推論。
結語
総じて、訓練・データ設計・評価角度からツール積極呼び出し・推論統合エージェントマルチモーダル構築探索。
分析DeepEyesV2タスク関連ツール行動、RL複雑文脈感知ツール組合習得。
感知・推論・検索基準大量実験DeepEyesV2強推論証明、ツール推論結合優位顕。
論文:https://arxiv.org/pdf/2511.05271
プロジェクト主页:https://visual-agent.github.io/