小紅書がDeepEyesV2を提案、「画像思考」から「ツール協同」へ、多モーダル知能の新次元を探求

今年上半年、小紅書チームが発売したDeepEyesを覚えていますか？

はい、人間のように「画像の詳細を拡大して手がかりを探す」ことができ、o3のような「画像思考」を基本的に実現したマルチモーダルモデルです。

今、より強力なバージョン——DeepEyesV2が、重磅リリースされました。

結論から：DeepEyesV2はDeepEyesの視覚推論優位性を継続するだけでなく、「コード実行+ウェブ検索+画像操作」の全ツール協同を画期的にも実現し、「詳細を見る」から「複雑な問題を積極的に解決するエージェント」へ進化しました。

以下詳細に展開——

多ツール協同のマルチモーダル推論

既存のマルチモーダル大モデルはテキストや画像などの情報を理解できますが、「情報解釈器」のようなもので、情報を受動的に感知するだけで外部ツールを積極的に呼び出して問題解決できません。

そのため、2つの大きな痛点に制限されます：

痛点1：ツール呼び出し能力が弱い。

見知らぬ植物の写真に対してAIに「これはどんな花？」と聞くと、

伝統的なマルチモーダルモデルはツール呼び出し能力が全くなく内部知識庫のみで基本理解するか、

単一ツールしか呼び出せず、組み合わせ戦略ができません。

例：DeepEyesはクロップツールで画像細粒度感知可能ですが、情報検索欠如で内部知識だけでは花の品種特定不可；

対照的にMMSearchR1は検索対応ですが細粒度感知なしで「画像詳細不明」により検索失敗多発。

この「単一ツール依存」で複雑タスクに無力。

痛点2：多能力協同欠如。

人間は「観察（感知）→資料確認（検索）→結果計算（推論）」を自然に連鎖しますが、伝統モデルは協同困難。

感知・検索・推論が「個別作戦」で1-2ステップのみ、完全解決へ連鎖しにくい。

DeepEyesV2はどう解決？

従来モデル比、DeepEyesV2は多ツール協同推論で実世界複雑問題解決。

例：「図の株価チャートから2024年4月4日9:30-16:00の同社下落率計算し、同期Tootsie Roll Industries（TR）と比較。」

「どちら大きいか」複雑問題で強力推論発揮。

全体3ステップ：

ステップ1：画像検索、追加情報取得。

DeepEyesV2まず画像検索で株価情報試取得。

ステップ2：テキスト検索、株価試取得。

画像検索無効ならテキスト検索で株価データ。

ステップ3：コード実行、APIアクセス・計算。

テキスト検索も無効ならコード生成、Yahoo Finance APIで株価取得・数値計算し最終結果。

複数検索・コード実行・複雑推論で成功解答。

注目：訓練データにコードAPIアクセスなし、だがRLで自律習得。

DeepEyesV2

モデル詳細

DeepEyes同様、エージェント特性マルチモーダルモデルだがツール使用大拡張、単純クロップ超え。

DeepEyesV2中、プログラムコード実行・ウェブ検索が外部ツールとして推論交互呼び出し、結果結合更推論。

画像入力・クエリ後、初推理計画生成、内部解決かツール必要判断。

ツール必要時、実行Pythonコードorウェブ検索クエリ生成。

コードサンドボックス実行、構造出力：処理画像・測定・配列・チャート・ログ。

画像クエリSerpAPIで上位5視覚マッチページ；テキスト上位5関連ページ+タイトル/スニペット…全ツール出力コンテキスト追加。

次観察基更思考、更ツール計画、推論-ツール-統合ループ繰り返し正確解答まで。

要：動的ツール選択・組合・使用。

統合3優勢：

1.実行コードで分析拡張強化；

2.ウェブ多モーダル証拠から積極リアルタイム知識取得；

3.推論中コード・検索単一軌道動的結合、非孤立モジュール、ツール呼び出し柔軟性向上。

これらでDeepEyesV2汎用・信頼・拡張マルチモーダル推論フレームワーク。

探索実験

DeepEyesはRLで画像思考発火、チームDeepEyes参考Qwen2.5-VL-7B探索。

RLで直接複雑ツール使用習得可否研究、2キー問題観察。

問題1：初期ツール探索「心あり力なし」、コード実行率低。

訓練初期Python生成画像クロップ・数値ツール呼ぶがコード文法/論理エラー多、成功率低。

訓練進むとコード放棄、短推理連鎖収束ツール回避。

問題2：「報酬ハック」、無効操作で報酬騙取。

改善為DeepEyes有効「ツール使用報酬」導入：コード生成で追加報酬。

初期効果、成功率向上。

後期モデル「小細工」、無意味コメントコード出力報酬ハック陷阱。

探索で既存マルチモーダル能力不足直接RL複雑ツール信頼学習不可、冷スタート重要明。

2段階訓練

故「冷スタート+RL」2段階：ツール「使える」から「上手く使う」へ。

段階1：冷スタート—基礎打つ

高品質データセットでツール呼び出し基本論理習得。チーム4類厳選：

感知類：画像クロップ・マークツール必要問題。
推論類：コード計算ツール必要数学問題。
検索類：ネットツール必要問題。
CoT類：純テキスト推論CoT。

データ2層厳格フィルタ：

1.難度フィルタ：基盤モデル解決不可のみ；

2.ツール利益フィルタ：ツール呼び出しで精度大幅向上確保。

段階2：RL—精最適化

冷スタート基「精度+形式規範」双報酬でツール戦略最適。

伝統複雑報酬異なり、DeepEyesV2 2単純報酬：

1.精度報酬：最終答案標準答案一致度スコア；

2.形式報酬：コードエラー・検索キーワード無効等形式問題罰。

RealX-Bench

既存ベンチ単一能力テスト（例画像識別・数学計算）、実世界「多能力協同」必要。

チーム新基準RealX-Bench構築：300実世界問題、日常生活・メディア・スポーツ・知識・ゲーム5領域。

実シーン収集改写、多く多能力結合必要。

精度オープンソース遠超

チームRealX-Benchで既存・DeepEyesV2評価。

最先端汎用でも50%未満、DeepEyesV2ツール協同でオープン遠超、多能力統合タスク特に優位。

加実世界理解・数学推論・検索タスク評価。

結果：既存比巨大性能向上、ツール呼び出し重要証明。

深層剖析：データ消融・ツール嗜好

後、多消融でデータ類型ツール使用影響系統探究。

まず冷スタートデータ：目標「基礎ツール論理」習得。

感知・推論・CoT 3類消融検証。

感知のみ：実世界感知精度明向上、数学無向上。

視覚ツール習熟だがコード推論移行不可—拡大鏡知るが電卓不知。

推論のみ：数学向上、実世界感知下降。

推論「コード生成+論理検証」複雑、視覚感知→ツール連結訓練欠如で感知喪失。

感知+推論+CoT後：理解・推論明向上。

CoT推論強化複雑ツール促進。

最適：「感知+推論+CoT」。

3類結合感知・推論テスト最優：多様複雑推論冷スタートで多ツール協同基礎。

続RLデータ影響探究、多様データのみ有効ツール呼び出し向上。

冷スタート「何ツール知る」、RL「いつ使う知る」。

冷後・RL後ツール行動対比：RL精度最適化、タスク適応モード形成—

「必要時呼び出し」DeepEyesV2伝統差別核心。

分析：冷後初步タスク-ツール一致、RL強化・クロスツール組合推進。

DeepEyesV2タスク別明ツール嗜好。

実世界感知：クロップ細粒度詳細；OCR：マーク+数値；チャート：算術多。

数学推論：数学計算主導；検索：検索ツール主。

RL前後比較明変化。

RL後数値演算多、検索で画像処理+検索結合—RLクロスツール協同強化。

冷スタート過剰呼び出し（90%超タスク）、推論効率低。

RL後呼び出し率明降、自適応—有利時のみ呼び出し効率向上。

RL訓練追跡：出力長降、平均呼び出し降、だが分散大。

固定呼び出し非（例各問題1ツール）。

自適応思考：必要時選択呼び出し。

複雑問題高呼び出し—難度動調整、真自適応推論。

結語

総じて、訓練・データ設計・評価角度からツール積極呼び出し・推論統合エージェントマルチモーダル構築探索。

分析DeepEyesV2タスク関連ツール行動、RL複雑文脈感知ツール組合習得。

感知・推論・検索基準大量実験DeepEyesV2強推論証明、ツール推論結合優位顕。

論文：https://arxiv.org/pdf/2511.05271

プロジェクト主页：https://visual-agent.github.io/

GitHub：https://github.com/Visual-Agent/DeepEyesV2

小紅書がDeepEyesV2を提案、「画像思考」から「ツール協同」へ、多モーダル知能の新次元を探求

短いURLをシェア