捨棄人工標註!華人團隊提出多模態大模型自我演化演算法

目前程式碼、模型和專案主頁均已公開:

本文作者包括來自杜克大學的汪勤思、林閱千、李海教授、陳怡然教授,新加坡國立大學的劉博,馬里蘭大學的周天翼教授,以及 Adobe 的研究員施靖、萬锟和趙文天。

圖片

背景介紹

儘管目前視覺語言模型(VLM)在多模態任務上表現出色,但訓練過度依賴人工標註的資料與精心設計的強化學習獎勵。這種依賴導致了資料稀缺問題:多模態標註成本高昂,限制了訓練資料的規模與多樣性。同時也存在知識天花板:模型能力受人類監督邊界限制,難以突破人類既有知識和策略。曾被 AlphaGo 所使用的自我對弈技術,透過模型與自身副本競爭互動並自動獲取回饋,將運算轉變為資料的同時消除了對人工監督的依賴,這使其能夠持續推動模型進步並突破人類能力上限。但受限於 VLM 的多模態特性,目前鮮有針對自我對弈在 VLM 上應用進行系統性研究。為此,研究團隊設計了一套適應 VLM 特性的自我對弈框架 Vision-Zero,此框架具有以下特點:

  1. 策略自我對弈框架:Vision-Zero 在以社交推理類遊戲為模板的環境中訓練 VLM,使得代理程式(agent)在自我對弈過程中自動生成高複雜度推理資料,而無需人工標註。
  2. 任意形式的圖片都可作為輸入:與以往有限制條件的遊戲化訓練框架不同的是,Vision-Zero 可在任意形式的圖片上啟動遊戲,這使得模型可以在許多不同的領域裡獲得相對應的能力提升,並擁有良好的泛化性能。
  3. 持續的性能提升:研究團隊提出了自我對弈和可驗證獎勵的強化學習(RLVR)交替優化的自我對弈策略優化演算法(Iterative-SPO),此演算法解決了傳統自我對弈演算法中常見的性能瓶頸問題。

儘管沒有使用任何標註資料進行訓練,Vision-Zero 在推理、圖表問答和以視覺為中心理解任務等多個領域上超越了其他依賴標註資料的 SOTA 後訓練方法。

圖片

從棋盤到現實:AlphaGo 自我對弈思想的普及

自我對弈作為 OpenAI 早期重要的技術路線之一,也是人工智慧發展歷程中多項里程碑事件的關鍵推動力。典型代表包括 2016 年 AlphaGo 戰勝李世石,以及 2019 年 OpenAI Five 在 Dota 2 上擊敗世界冠軍 OG 戰隊。人們在看到自我對弈在某些特定領域大幅超越人類智慧的同時,往往也會思考我們是否有可能把這種思想應用到更開放的場景中。然而,讓 AlphaGo 從棋盤走向現實需要解決以下幾個難題:

  1. 代理程式(Agent)為贏得對弈所習得的技能,應當與目標任務所需的技能高度一致。
  2. 對弈環境應當足夠多樣且複雜,以便廣泛的目標任務都能夠滿足條件 1。
  3. 技能增長應當具有可擴展性:隨著自我對弈的進行,環境應當不斷提高難度,使得越來越強的智慧體能夠湧現,而不是讓訓練收斂到一個固定的上限。

受到社交推理遊戲,如「誰是臥底」的啟發,研究團隊設計了一套完備的自我對弈規則來解決上述難題,具體規則如下:

  1. 遊戲中有 n 名平民和 1 名臥底。玩家首先被告知自己的角色。
  2. 每名玩家會得到一張圖片,臥底的圖片與平民略有不同(如缺失、添加或修改了某個物體)。
  3. 線索階段:每位玩家觀察自己的圖片,並給出一個口頭線索,描述圖片內容(可以是物體描述、推斷資訊等)。
  4. 決策階段:多輪線索給出後,進入決策階段。玩家根據線索結合自己的圖片,投票找出臥底。

圖片

此遊戲具有高度策略性與挑戰性,臥底需要根據他人線索推斷並偽裝自己,避免暴露。平民需要提供足夠準確但不洩密的線索,同時分析他人線索尋找可疑點。如此一來,代理程式(Agent)在遊戲過程中便可生成足夠長且複雜的推理鏈條,並且隨著對手能力的提升,其所面臨的挑戰也會越來越大,並被激發出更強的視覺理解與推理能力。

領域無關的資料輸入

此遊戲僅需要兩張有細微差異的圖片對作為輸入即可啟動,得益於目前強大的圖片編輯工具如 ChatGPT 或 nano banana,資料的建構極其簡單且成本低廉,因此此框架的應用場景非常廣泛。研究團隊使用了三種完全不同的場景圖片輸入作為訓練資料:

  1. CLEVR 合成場景:使用 CLEVR 渲染器自動生成了 2000 對圖像。原圖有 4–6 個隨機排列的物體,修改圖中有兩個物體在顏色和形狀上被改變。
  2. 圖表資料:從 ChartQA 訓練集隨機選取了 1000 張圖表作為原始圖像,並使用 Gemini 2.5-Flash 隨機交換圖表中的數值屬性生成對應的修改圖像。
  3. 真實世界圖片:從 ImgEdit 訓練集中隨機抽取了 1000 對圖像,該資料集包含高品質的真實世界單輪圖像編輯對。

從局部均衡到可持續提升

純粹的自我對弈訓練容易陷入局部平衡,難以探索新的推理路徑,而單獨的強化學習方法在掌握現有問題集後也容易出現知識飽和。為緩解這些問題,作者團隊提出採用雙階段交替訓練:當決策階段表現顯示線索階段已飽和時轉向線索訓練以提高難度,反之則切回決策階段。此方法被命名為迭代自我對弈策略優化(Iterative Self-Play Policy Optimization, Iterative-SPO)。實驗表明,兩階段交替訓練的性能明顯優於單階段訓練,對比如下圖所示。

圖片

實驗結果

強大的任務泛化能力。為了評估在 Vision-Zero 框架下訓練的 VLM 是否能泛化到更廣泛的推理與數學任務,作者團隊在六個基準資料集上對模型進行測試(結果見表 1)。實驗表明,即使沒有使用標註資料進行訓練,Vision-Zero 在各項基準上一致性優於其他需要標註的 SOTA 方法。其中,VisionZero-Qwen-7B(CLEVR、真實世界)較基準提升約 3%,VisionZero-Qwen-7B(圖表)提升約 2.8%,而目前最優的基準方法僅約 1.9%。值得注意的是,基準方法需要大量數學與推理樣本訓練,而 Vision-Zero 環境並未顯式包含數學任務,僅透過自然語言策略對弈提升邏輯推理,並將所學能力有效遷移到更廣泛的數學與推理任務,甚至超越了專門在大規模任務資料上訓練的模型。

圖片

跨能力負遷移的緩解。

VLM 後訓練的關鍵難題之一是跨能力負遷移,即在特定任務上訓練後,模型在其他任務上反而變差。表 2 顯示,基準模型在推理和數學資料上後訓練後,性能明顯下降,例如 MM-Eureka-Qwen-7B 在 ChartQA 上下降約 10%。相比之下,Vision-Zero 訓練的模型能有效緩解負遷移:VisionZero-Qwen-7B(CLEVR)在視覺任務上顯著提升,同時在四個圖表/光學字元辨識(OCR)任務上平均僅下降 0.2%;VisionZero-Qwen-7B(圖表)在全部圖表/OCR 基準上都有提升,並在視覺任務上平均再增長 1%。這表明 Vision-Zero 的多能力策略訓練顯著減輕了傳統單一任務訓練中的負遷移問題。

圖片

啟示

Vision-Zero 證明了自我對弈從單一任務走向通用任務的可行性與巨大潛力。透過建構開放、可擴展的對弈環境,它擺脫了人工標註的依賴,突破了資料和知識瓶頸,使模型在無需特定任務訓練的前提下實現可持續的能力演化與跨領域泛化。同時,雙階段交替優化有效避免了自我對弈常見的局部均衡問題。並且,透過自我對弈訓練的 VLM 有效緩解了傳統單一任務訓練中的跨能力負遷移問題。

主標籤:多模態大型模型

次標籤:自我對弈人工智慧演算法視覺語言模型強化學習


上一篇:NTU等聯合提出A-MemGuard:為AI記憶上鎖,毒害攻擊成功率暴降95%

下一篇:錯越多學越快!「軌跡重寫」技術讓 AI 智能體從失敗中創造完美經驗!

分享短網址