小紅書提出DeepEyesV2,從「看圖思考」到「工具協同」,探索多模態智能新維度

圖片

還記得今年上半年小紅書團隊推出的DeepEyes嗎?

是的,就是那款能像人一樣「放大圖片細節找線索」,基本實現了類似o3「用圖像思考」的多模態模型。

如今,更強大的版本——DeepEyesV2,重磅發布。

圖片

先說結論:DeepEyesV2不僅延續了DeepEyes的視覺推理優勢,更突破性地實現了「程式碼執行+網頁搜尋+圖像操作」的全工具協同,從「會看細節」進化為「能主動解決複雜問題的智能體」。

下面詳細展開——

多工具協同的多模態推理

現有的多模態大模型雖然能夠理解文字和圖像等多種資訊,但是這些模型更像「資訊解讀器」——只能被動感知資訊,卻不能主動呼叫外部工具來解決問題。

因此,受限於两大痛點:

痛點1:工具呼叫能力薄弱。

當你對著一張陌生植物的照片詢問AI——「這是什麼花?」

傳統多模態模型要麼完全不具備工具呼叫能力,只能依賴內部知識庫進行基礎理解;

要麼,只能單一呼叫某類工具,無法形成組合策略。

比如,DeepEyes雖能透過裁剪工具實現圖像細粒度感知,卻因缺乏資訊檢索能力,無法僅憑內部知識確定花朵品種;

相比之下,MMSearchR1雖支援搜尋,卻因沒有細粒度感知能力,常因「看不清圖像細節」導致檢索失敗。

這種「單工具依賴」,讓模型在面對複雜任務時束手無策。

痛點2:多能力協同缺失。

人類解決問題時,會自然串聯「觀察(感知)→查資料(搜尋)→算結果(推理)」等步驟,但傳統多模態模型卻難以實現這種協同。

感知、搜尋和推理往往是「各自為戰」,只能完成其中1-2個步驟,難以像人類一樣串聯成完整解決方案。

DeepEyesV2如何解決這些痛點?

圖片

相比於之前的模型,DeepEyesV2透過多工具協同推理,可以解決真實場景中的複雜問題。

比如,當面對「根據圖中股票走勢圖,計算該公司2024年4月4日9:30-16:00的跌幅,並對比同期Tootsie Roll Industries(TR)的跌幅。」

而涉及到「判斷誰更大」這一複雜問題時,DeepEyesV2則展現出強大的推理能力。

整體過程可以分為三步:

第一步:圖像搜尋,獲取更多資訊。

DeepEyesV2首先呼叫圖像搜尋,嘗試獲取關於股價的更多資訊。

第二步:文字搜尋,嘗試獲取股價。

由於圖像搜尋無法提供有效的資訊,DeepEyesV2轉而進行文字搜尋,查詢股價資料。

第三步:程式碼執行,API存取並計算。

文字搜尋也無法提供當時的股價資料,DeepEyesV2選擇生成程式碼,透過API存取雅虎金融獲取股價資料,並進行數值計算,得到最後的結果。

透過多次搜尋、程式碼執行以及複雜推理,DeepEyesV2最終成功解答這一複雜問題。

值得注意的是,透過程式碼存取API的行為在團隊的訓練資料中並不存在,但是DeepEyesV2透過強化學習自主獲得了這一技能。

DeepEyesV2

模型細節

與DeepEyes類似,DeepEyesV2是一個具有智能體特性的多模態模型,但它的工具使用能力得到了巨大擴展,不止於簡單的裁剪操作。

圖片

在DeepEyesV2中,程式化程式碼執行和網路檢索作為外部工具可以在推理過程中被交互呼叫,並結合工具結果進行進一步推理。

給定圖像輸入及相應的使用者查詢後,DeepEyesV2首先會生成初步的推理計劃,並明確判斷該問題是可以透過內部推理直接解決,還是需要呼叫工具。

如果有必要使用工具,DeepEyesV2會生成可執行的Python程式碼或發出網路搜尋查詢。

程式碼執行在沙箱環境中進行,能夠產生結構化輸出,如經過處理的圖像、數值測量結果、計算陣列、圖表或執行日誌。

圖像查詢透過SerpAPI提交,返回排名前五的視覺匹配網頁;文字查詢返回五個最相關的網頁,以及標題和片段……所有工具輸出都會被添加到模型的上下文中。

之後,DeepEyesV2會根據這些觀察結果進一步思考,並可能計劃進一步呼叫工具,重複這種推理—工具—整合循環,直至得出準確的答案。

簡單來說,DeepEyesV2能夠動態選擇、組合和使用工具。

這種整合帶來了三個主要優勢:

1、透過可執行程式碼,拓展並增強了分析能力;

2、能夠從網路檢索多模態證據,實現主動且即時的知識獲取;

3、在推理過程中,程式碼執行和搜尋可以在單一軌跡中動態結合,而非作為孤立的模組存在,提高了工具呼叫的靈活性。

這些特性共同使DeepEyesV2成為一個更通用、可靠且可擴展的多模態推理框架。

探索實驗

DeepEyes透過強化學習,就可以激發出模型的圖像思考能力,因此團隊參考DeepEyes的方式,在Qwen2.5-VL-7B上進行了探索實驗。

圖片

透過研究是否可以透過強化學習讓模型直接獲得更加複雜的工具使用能力,團隊觀察到兩個關鍵問題。

問題1:早期工具探索「有心無力」,程式碼執行率低。

在訓練初期,模型雖會生成Python程式碼呼叫圖像裁剪、數值計算工具,但輸出的程式碼大多存在語法錯誤或邏輯漏洞,導致程式碼執行成功率低。

隨著訓練進行,模型逐漸放棄程式碼生成,最終只收斂到生成簡短的推理鏈,繞過了工具使用。

問題2:「獎勵黑客」現象,模型用「無效操作」騙取獎勵。

為了改善工具呼叫效果,團隊引入DeepEyes中驗證有效的「工具使用獎勵機制」,只要模型生成程式碼,就額外給予獎勵。

初期確實看到了效果,程式碼執行成功率一度提升。

但在訓練後期,模型開始「投機取巧」,只輸出一個只有無意義註解的程式碼塊,從而來騙取額外的獎勵,陷入「獎勵黑客」(Reward Hacking)的陷阱。

透過探索實驗,團隊發現,現有的多模態大模型由於自身能力的不足,無法僅透過直接的強化學習來可靠地學習到複雜的工具使用,也說明了冷啟動的重要性。

兩階段訓練

因此,團隊採用了「冷啟動+強化學習」兩階段訓練策略,讓模型從「會用工具」穩步升級到「善用工具」。

階段一:冷啟動—打基礎

透過高品質資料集為模型打基礎,讓其掌握工具呼叫的基本邏輯。團隊精心篩選了四類資料:

  • 感知類資料:需用圖像裁剪、標記工具解決的問題。
  • 推理類資料:需用程式碼計算工具解決的數學問題。
  • 搜尋類資料:需用聯網工具解決的問題。
  • CoT資料:純文字的推理CoT資料。

同時,資料還經過兩層嚴格過濾:

1、難度過濾,只保留基礎模型無法解決的問題;

2、工具收益過濾,確保工具呼叫能顯著提升答案準確率。

階段二:強化學習—精優化

在冷啟動基礎上,透過「準確率+格式規範」雙獎勵機制優化工具呼叫策略。

與傳統複雜獎勵設計不同,DeepEyesV2僅用兩個簡單獎勵:

1、準確率獎勵,根據最終答案與標準答案的匹配度打分;

2、格式獎勵,對程式碼報錯、搜尋關鍵字無效等格式問題進行懲罰。

RealX-Bench

現有的評測集,往往只能測試模型的單一能力(比如看圖識物、數學計算),但真實世界的问题需要「多能力協同」。

為此,團隊建構了全新基準RealX-Bench,包含300個真實場景問題,涵蓋日常生活、媒體、體育、知識、遊戲五大領域。

團隊從真實場景中收集問題並改寫,使得問題符合真實場景的需求,且很多問題都需要多個能力的結合才能解決。

圖片

準確率遠超開源模型

團隊首先在RealX-Bench上對現有模型和DeepEyesV2,進行了評估。

測試顯示,即使是最先進的通用模型,在RealX-Bench上的準確率也不足50%,而DeepEyesV2憑藉工具協同能力,準確率表現遠超開源模型,尤其是在需要多能力整合的任務上表現突出。

圖片

此外,團隊還在真實世界理解、數學推理、搜尋任務上進行了評估。

結果顯示:和現有的模型相比,DeepEyesV2取得了巨大的性能提升,這證明了工具呼叫的重要。

圖片

深度剖析:資料消融與工具偏好

在這之後,團隊進一步透過多組消融實驗,系統探究了不同資料類型對模型工具使用能力的影響。

先來看看冷啟動資料。這一部分的核心目標是讓模型掌握「基礎工具使用邏輯」。

團隊將冷啟動資料分為三類——感知型、推理型、CoT型,並透過消融實驗驗證各类資料的作用。

僅用感知型資料,模型在真實世界感知任務上準確率有明顯提升,但在數學推理上準確率幾乎無提升。

這說明感知資料能讓模型熟練掌握「圖像裁剪、區域標記」等視覺工具,但無法遷移到需要程式碼計算的推理任務,就像學會用放大鏡看細節,卻不會用計算器算數值。

僅用推理型資料,模型在數學推理任務上準確率有所提升,但在真實世界感知任務上準確率有所下降。

團隊分析發現,推理任務需要「程式碼生成+邏輯驗證」的複雜工具使用模式,單一推理資料缺乏「視覺感知→工具呼叫」的銜接訓練,導致模型丟失了感知能力。

相比之下,當在感知+推理資料基礎上加入「CoT資料」後,模型在理解和推理任務上都有明顯提升。

這是因為,CoT資料強化了模型的推理能力,從而促進了模型的複雜工具呼叫能力。

因此最優的組合,還是——「感知+推理+CoT」。

三類資料結合後,模型在感知和推理測試集上均實現最優表現,這證明多樣化且包含複雜推理的冷啟動資料才能為模型打下「多工具協同」的基礎。

圖片

此後,團隊進一步探究強化學習資料的影響,發現只有多樣化的資料,才能有效地提高模型的工具呼叫能力。

圖片

冷啟動讓模型「知道用什麼工具」,而強化學習則讓模型「懂得何時用工具」。

團隊透過對比冷啟動後與RL後的工具使用行為,發現RL不僅優化了工具呼叫的「準確性」,更讓模型形成了任務自適應的工具使用模式——

這種「按需呼叫」智能,正是DeepEyesV2區別於傳統模型的核心特徵。

團隊分析了模型在不同任務上的工具使用分佈,發現冷啟動後模型已具備初步的「任務-工具匹配」邏輯,而RL進一步強化了這種關聯,並推動「跨工具組合」。

DeepEyesV2對於不同的任務,體現出明顯的工具偏好。

對於真實世界感知任務,模型偏向使用裁剪來獲取細粒度的視覺細節,對於OCR任務,DeepEyesV2還會執行標記和數值計算,在圖表相關的任務中,模型會涉及更多的算術計算。

然而在數學推理任務上,數學計算佔主導地位,在搜尋相關任務中,模型主要使用搜尋工具。

此外,團隊透過比較強化學習前後的行為,觀察到明顯的變化。

在強化學習之後,模型開始傾向於執行更多的數值運算,並在搜尋任務中也開始將圖像處理工具與搜尋結合,表明強化學習有助於模型強化了跨工具的協同。

圖片

冷啟動階段,模型存在過度呼叫工具的問題,90%以上的任務都會呼叫工具,導致推理效率低下。

而強化學習後,工具呼叫率顯著下降,表明模型學會了自適應推理,只有當使用工具更加有利時,才會呼叫工具,這有效提高了推理的效率。

此外,團隊還追蹤了強化學習訓練過程中工具呼叫次數、回應長度、獎勵值的動態變化。

團隊發現,輸出長度在不斷下降,且工具呼叫的平均次數也在逐步下降,但是工具呼叫的方差仍然很大。

這說明,模型並不是簡單地收斂到固定的工具呼叫次數(比如,每個問題呼叫一次工具)。

相反,模型學會了自適應思考,只在必要的時候有選擇地呼叫工具。

在面對複雜問題時,工具呼叫次數仍然很高,說明DeepEyesV2能夠根據任務難度動態調整工具呼叫策略,體現出真正的自適應推理能力。

結語

綜上所述,團隊從訓練、資料集設計和評估的角度,探索了如何建構能夠主動呼叫工具並將其融入推理過程的智能體多模態模型。

團隊的分析揭示了DeepEyesV2具有任務相關的工具使用行為,而強化學習,則讓模型學會更複雜、具有上下文感知的工具組合。

在感知、推理和搜尋基準上進行的大量實驗,則進一步證明了DeepEyesV2強大的推理能力,凸顯了將工具呼叫與推理結合的優勢。

論文地址:https://arxiv.org/pdf/2511.05271

項目主頁:https://visual-agent.github.io/

GitHub:https://github.com/Visual-Agent/DeepEyesV2

主標籤:DeepEyesV2

次標籤:多模態推理RealX-Bench強化學習工具協同


上一篇:微軟 CEO 納德拉:這一次工業革命,從「AI 超級工廠」開始

下一篇:透過稀疏電路理解神經網路

分享短網址