小紅書がDeepEyesV2を提案、「画像思考」から「ツール協同」へ、多モーダル知能の新次元を探求

画像

今年上半年、小紅書チームが発売したDeepEyesを覚えていますか?

はい、人間のように「画像の詳細を拡大して手がかりを探す」ことができ、o3のような「画像思考」を基本的に実現したマルチモーダルモデルです。

今、より強力なバージョン——DeepEyesV2が、重磅リリースされました。

画像

結論から:DeepEyesV2はDeepEyesの視覚推論優位性を継続するだけでなく、「コード実行+ウェブ検索+画像操作」の全ツール協同を画期的にも実現し、「詳細を見る」から「複雑な問題を積極的に解決するエージェント」へ進化しました。

以下詳細に展開——

多ツール協同のマルチモーダル推論

既存のマルチモーダル大モデルはテキストや画像などの情報を理解できますが、「情報解釈器」のようなもので、情報を受動的に感知するだけで外部ツールを積極的に呼び出して問題解決できません。

そのため、2つの大きな痛点に制限されます:

痛点1:ツール呼び出し能力が弱い。

見知らぬ植物の写真に対してAIに「これはどんな花?」と聞くと、

伝統的なマルチモーダルモデルはツール呼び出し能力が全くなく内部知識庫のみで基本理解するか、

単一ツールしか呼び出せず、組み合わせ戦略ができません。

例:DeepEyesはクロップツールで画像細粒度感知可能ですが、情報検索欠如で内部知識だけでは花の品種特定不可;

対照的にMMSearchR1は検索対応ですが細粒度感知なしで「画像詳細不明」により検索失敗多発。

この「単一ツール依存」で複雑タスクに無力。

痛点2:多能力協同欠如。

人間は「観察(感知)→資料確認(検索)→結果計算(推論)」を自然に連鎖しますが、伝統モデルは協同困難。

感知・検索・推論が「個別作戦」で1-2ステップのみ、完全解決へ連鎖しにくい。

DeepEyesV2はどう解決?

画像

従来モデル比、DeepEyesV2は多ツール協同推論で実世界複雑問題解決。

例:「図の株価チャートから2024年4月4日9:30-16:00の同社下落率計算し、同期Tootsie Roll Industries(TR)と比較。」

「どちら大きいか」複雑問題で強力推論発揮。

全体3ステップ:

ステップ1:画像検索、追加情報取得。

DeepEyesV2まず画像検索で株価情報試取得。

ステップ2:テキスト検索、株価試取得。

画像検索無効ならテキスト検索で株価データ。

ステップ3:コード実行、APIアクセス・計算。

テキスト検索も無効ならコード生成、Yahoo Finance APIで株価取得・数値計算し最終結果。

複数検索・コード実行・複雑推論で成功解答。

注目:訓練データにコードAPIアクセスなし、だがRLで自律習得。

DeepEyesV2

モデル詳細

DeepEyes同様、エージェント特性マルチモーダルモデルだがツール使用大拡張、単純クロップ超え。

画像

DeepEyesV2中、プログラムコード実行・ウェブ検索が外部ツールとして推論交互呼び出し、結果結合更推論。

画像入力・クエリ後、初推理計画生成、内部解決かツール必要判断。

ツール必要時、実行Pythonコードorウェブ検索クエリ生成。

コードサンドボックス実行、構造出力:処理画像・測定・配列・チャート・ログ。

画像クエリSerpAPIで上位5視覚マッチページ;テキスト上位5関連ページ+タイトル/スニペット…全ツール出力コンテキスト追加。

次観察基更思考、更ツール計画、推論-ツール-統合ループ繰り返し正確解答まで。

要:動的ツール選択・組合・使用。

統合3優勢:

1.実行コードで分析拡張強化;

2.ウェブ多モーダル証拠から積極リアルタイム知識取得;

3.推論中コード・検索単一軌道動的結合、非孤立モジュール、ツール呼び出し柔軟性向上。

これらでDeepEyesV2汎用・信頼・拡張マルチモーダル推論フレームワーク。

探索実験

DeepEyesはRLで画像思考発火、チームDeepEyes参考Qwen2.5-VL-7B探索。

画像

RLで直接複雑ツール使用習得可否研究、2キー問題観察。

問題1:初期ツール探索「心あり力なし」、コード実行率低。

訓練初期Python生成画像クロップ・数値ツール呼ぶがコード文法/論理エラー多、成功率低。

訓練進むとコード放棄、短推理連鎖収束ツール回避。

問題2:「報酬ハック」、無効操作で報酬騙取。

改善為DeepEyes有効「ツール使用報酬」導入:コード生成で追加報酬。

初期効果、成功率向上。

後期モデル「小細工」、無意味コメントコード出力報酬ハック陷阱。

探索で既存マルチモーダル能力不足直接RL複雑ツール信頼学習不可、冷スタート重要明。

2段階訓練

故「冷スタート+RL」2段階:ツール「使える」から「上手く使う」へ。

段階1:冷スタート—基礎打つ

高品質データセットでツール呼び出し基本論理習得。チーム4類厳選:

  • 感知類:画像クロップ・マークツール必要問題。
  • 推論類:コード計算ツール必要数学問題。
  • 検索類:ネットツール必要問題。
  • CoT類:純テキスト推論CoT。

データ2層厳格フィルタ:

1.難度フィルタ:基盤モデル解決不可のみ;

2.ツール利益フィルタ:ツール呼び出しで精度大幅向上確保。

段階2:RL—精最適化

冷スタート基「精度+形式規範」双報酬でツール戦略最適。

伝統複雑報酬異なり、DeepEyesV2 2単純報酬:

1.精度報酬:最終答案標準答案一致度スコア;

2.形式報酬:コードエラー・検索キーワード無効等形式問題罰。

RealX-Bench

既存ベンチ単一能力テスト(例画像識別・数学計算)、実世界「多能力協同」必要。

チーム新基準RealX-Bench構築:300実世界問題、日常生活・メディア・スポーツ・知識・ゲーム5領域。

実シーン収集改写、多く多能力結合必要。

画像

精度オープンソース遠超

チームRealX-Benchで既存・DeepEyesV2評価。

最先端汎用でも50%未満、DeepEyesV2ツール協同でオープン遠超、多能力統合タスク特に優位。

画像

加実世界理解・数学推論・検索タスク評価。

結果:既存比巨大性能向上、ツール呼び出し重要証明。

画像

深層剖析:データ消融・ツール嗜好

後、多消融でデータ類型ツール使用影響系統探究。

まず冷スタートデータ:目標「基礎ツール論理」習得。

感知・推論・CoT 3類消融検証。

感知のみ:実世界感知精度明向上、数学無向上。

視覚ツール習熟だがコード推論移行不可—拡大鏡知るが電卓不知。

推論のみ:数学向上、実世界感知下降。

推論「コード生成+論理検証」複雑、視覚感知→ツール連結訓練欠如で感知喪失。

感知+推論+CoT後:理解・推論明向上。

CoT推論強化複雑ツール促進。

最適:「感知+推論+CoT」。

3類結合感知・推論テスト最優:多様複雑推論冷スタートで多ツール協同基礎。

画像

続RLデータ影響探究、多様データのみ有効ツール呼び出し向上。

画像

冷スタート「何ツール知る」、RL「いつ使う知る」。

冷後・RL後ツール行動対比:RL精度最適化、タスク適応モード形成—

「必要時呼び出し」DeepEyesV2伝統差別核心。

分析:冷後初步タスク-ツール一致、RL強化・クロスツール組合推進。

DeepEyesV2タスク別明ツール嗜好。

実世界感知:クロップ細粒度詳細;OCR:マーク+数値;チャート:算術多。

数学推論:数学計算主導;検索:検索ツール主。

RL前後比較明変化。

RL後数値演算多、検索で画像処理+検索結合—RLクロスツール協同強化。

画像

冷スタート過剰呼び出し(90%超タスク)、推論効率低。

RL後呼び出し率明降、自適応—有利時のみ呼び出し効率向上。

RL訓練追跡:出力長降、平均呼び出し降、だが分散大。

固定呼び出し非(例各問題1ツール)。

自適応思考:必要時選択呼び出し。

複雑問題高呼び出し—難度動調整、真自適応推論。

結語

総じて、訓練・データ設計・評価角度からツール積極呼び出し・推論統合エージェントマルチモーダル構築探索。

分析DeepEyesV2タスク関連ツール行動、RL複雑文脈感知ツール組合習得。

感知・推論・検索基準大量実験DeepEyesV2強推論証明、ツール推論結合優位顕。

論文:https://arxiv.org/pdf/2511.05271

プロジェクト主页:https://visual-agent.github.io/

GitHub:https://github.com/Visual-Agent/DeepEyesV2

メインタグ:DeepEyesV2

サブタグ:マルチモーダル推論RealX-Bench強化学習ツール協同


前の記事:マイクロソフトCEOナデラ:今回の産業革命は「AIスーパーファクトリー」から始まる

次の記事:疎な回路を通じたニューラルネットワークの理解

短いURLをシェア