MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾涵蓋國內外NLP碩博士生、高校老師以及企業研究人員。社群的願景是促進國內外自然語言處理、機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 量子位
作者|VL-Rethinker團隊
在文本推理領域,以GPT-o1、DeepSeek-R1為代表的「慢思維」模型憑藉顯式反思機制,在數學和科學任務上展現出遠超「快思維」模型(如GPT-4o)的優勢。
然而,當戰場轉移至多模態推理情境時,這些「思維巨匠」卻表現平平:GPT-o在MathVista、MathVerse等多模態推理基準上的表現與快思維模型持平,甚至被Qwen2.5-VL-72B超越。
為何文本推理中得心應手的慢思維能力,在多模態情境中卻難以施展?
來自港科大、滑鐵盧大學、INF.AI、Vector Institute的研究團隊深入探究了這一問題,揭示了視覺語言模型(VLM)在慢思維能力建構中的兩大核心障礙:「優勢消失」與「反思惰性」,並提出了創新的解決方案——VL-Rethinker。
該模型透過「優勢樣本回放」(Selective Sample Replay)和「強制反思」(Forced Rethinking)兩項關鍵技術,成功激發了VLM的深層推理和自我校準能力。
1 多模態推理的雙重挑戰:優勢消失與反思惰性
研究團隊在訓練Qwen2.5-VL-72B等大規模視覺語言模型時發現,經典GRPO用於多模態模型的強化訓練時面臨兩大核心挑戰:
1.1 GRPO中的「優勢消失」問題 (Vanishing Advantages)
在GRPO演算法中,優勢訊號(advantage)是透過比較同一查詢組內不同候選回覆的獎勵來計算的。當同一個問題組內所有回答獲得相同獎勵(例如,全部正確或全部錯誤)時,計算得到的優勢訊號便為零。研究團隊發現,在GRPO訓練多模態模型的過程中,隨著訓練的推進,出現零優勢訊號的樣本比例顯著增加,這種現象被定義為「優勢消失」 (Vanishing Advantages)。
相較於用於更多高品質推理資料的純文本推理,Vanishing Advantages在能力較強的多模態模型強化學習時尤其突出。
例如,在訓練Qwen2.5-VL-72B模型時(如圖所示),初始階段具備非零優勢訊號的有效查詢比例約為40%,但在僅約256個梯度更新步驟(16x16 steps)後,此比例便迅速下降至20%以下。
這種顯著的Vanishing Advantages源於兩方面原因:目前可獲取的開源多模態資料集在品質與數量上,相較於純文本推理資料仍存在差距;同時,資料的品質與難度限制導致較高能力水平的模型較快達到飽和,過早收斂。
Vanishing Advantages也帶來雙重負面影響:有效樣本銳減引發梯度方差增大,破壞訓練穩定性;模型受限於淺層推理路徑,因此抑制了複雜推理策略的探索。
1.2 多模態模型的「反思惰性」
與純文本模型經強化訓練後自發產生長思考鏈不同,現有VLM基座受限於視覺模態的感知驅動特性與預訓練語料中反思模式稀缺性,更傾向於執行「快思維」(直接映射感知輸入與語言輸出),缺乏對推理過程的主動審視與修正能力。
這種「反思惰性」使得標準強化訓練難以激活VLM的慢思維潛能,成為多模態推理能力進階的第二大瓶頸。
2 VL-Rethinker:雙引擎解鎖多模態慢思維能力
針對高品質開源資料稀缺的挑戰,研究團隊精編了ViRL39K強化訓練資料集。
資料集精選現有多模態推理資料和新增推理資料,經過清洗、驗證、改寫獲得38870條高品質多模態推理問題。
這39K資料,不僅囊括八大主題,包括邏輯推理、圖表推理、空間推理、科學問答等。
還包含細粒度模型能力標籤,並針對不同能力水平的模型提供均勻的難度分佈。
基於ViRL39K訓練資料,研究團隊開發了VL-Rethinker—— 首個專為多模態情境設計的慢思維強化框架,其核心由兩大創新技術構成:
2.1 優勢樣本回放 (Selective Sample Replay, SSR)
針對Vanishing Advantages,研究團隊提出了優勢樣本回放(SSR)來動態聚焦高價值訓練樣本。
SSR引入經驗回放機制,動態儲存非零優勢訓練樣本,並設計價值敏感回放策略:優先復用絕對優勢值較大的「關鍵樣本」(如難例正確解、易例錯誤解)。
這種設計提供了雙重優勢:有效緩解了Vanishing Advantages,使得有效訓練樣本量保持一致,保持穩定。線上式主動學習。優勢較大的樣本通常位於模型決策邊界附近,例如:較難問題的正確回答。透過重新分配這些樣本的權重(如下右圖所示),SSR 動態編排了模型訓練所使用的樣本,引導模型聚焦於關鍵樣本,從而提升訓練效率(如下左圖所示)。
目前SSR技術已應用於Pixel Reasoner、SkyR1V2中。
2.2 強制反思 (Forced Rethinking)
為了克服VLM的「反思惰性」,研究團隊提出了「強制反思」機制:當模型生成初步回答後,人為地追加一個特定的「反思觸發」文本,強制模型啟動二次推理流程。研究團隊設計了包括自我驗證、自我糾錯和自我提問等多種類型的反思觸發器,以引導模型學習並生成多樣化的反思行為(如詞雲中所示)。訓練樣本中,進行強制反思的回答只對正確的部分進行保留。
研究團隊發現,這種拒絕採樣結合簡單的正確性獎勵,就能夠讓模型學會選擇性地觸發反思過程,而非盲目地對每個問題都進行冗餘的二次思考,從而實現更高效、更智慧的「慢思維」。
有趣的是,VL-Rethinker習得的反思能力不僅限於審慎模型自身的回答,甚至幫助模型意識到題目中的錯誤。在下面的例子中,模型在反思自己的推理過程時,意識到了自身推理和題目的矛盾之處,從而意識到問題設定中的錯誤。
3 VL-Rethinker實驗結果
在數學推理任務中,在MathVista資料集上取得80.4%的成績,在MathVerse資料集上達到63.5%,均超越GPT-o1模型(分別為73.4%和57.0%);在MathVision任務中以44.9%的成績保持領先地位。
多學科理解能力測試中:MMMU-Pro整體測試成績達55.9%,EMMA全量測試成績為38.5%,不僅刷新了開源模型的當前最佳性能,更接近OpenAI-o1模型的水平。
模型迭代效果顯著:VL-Rethinker-72B相較於基座模型Qwen2.5-VL-72B,在MathVista上提升5.6%,在MathVerse上提升6.3%;VL-Rethinker-7B在所有基準測試中大幅領先同量級的7B級強化學習型VLM。
實驗結果驗證了SSR的有效性,以及「慢思維」模式在多模態領域的應用潛力。
論文地址:https://arxiv.org/pdf/2504.08837
專案主頁:https://tiger-ai-lab.github.io/VL-Rethinker/
高品質資料集:https://huggingface.co/datasets/TIGER-Lab/ViRL39K
模型試玩:https://huggingface.co/spaces/TIGER-Lab/VL-Rethinker
技術交流群邀請函
長按添加小助手
掃描二維碼添加小助手微信
請備註:姓名-學校/公司-研究方向(如:小張-哈工大-對話系統)即可申請加入自然語言處理/Pytorch等技術交流群
關於我們
MLNLP社群是由國內外機器學習與自然語言處理學者聯合建構的民間學術社群,目前已發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習、自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平台。歡迎大家關注和加入我們。