SRO 架構賦予 Qwen-2.5-VL 推理能力,效能飆升 16.8%

本公眾號主要關注NLP、CV、LLM、RAG、Agent等AI前沿技術,免費分享業界實戰案例與課程,助力您全面擁抱AIGC。

文本領域的推理模型取得了巨大的成就,將類似的推理能力擴展到多模態大型語言模型(MLLMs)時,會遇到以下阻力:

冷啟動初始化不足:傳統的多模態模型冷啟動階段通常依賴於簡單的視覺和文本預訓練數據集,這些數據集往往無法為複雜問題解決提供足夠的準備。這種初始缺陷嚴重阻礙了後續強化學習階段對複雜推理模式的激活。

多模態強化學習中的梯度停滯問題:標準的組相對策略優化(Group Relative Policy Optimization, GRPO)演算法在多模態 RL 中存在梯度停滯問題,導致訓練不穩定且效能下降。

推理能力提升的瓶頸:在多模態 RL 後,模型的推理能力提升有限,且難以進一步優化。

圖片

一、ReVisual-R1 的解決思路

提出了一個三階段訓練框架——分階段強化優化(Staged Reinforcement Optimization, SRO)。具體分為:

冷啟動階段:使用純文本數據進行初始化,建立基礎的語言理解能力。

多模態 RL 階段:使用 GRAMMAR 數據集中的多模態樣本進行訓練,透過 PAD 技術優化訓練過程。

文本 RL 階段:使用純文本數據進行微調,進一步提升模型的語言流暢性和推理能力。

1.1 冷啟動階段

收集 40k 純文本條目,專注於建立基礎語言理解能力。

使用 LLaMA Factory 訓練 Qwen-2.5-VL-7B-Instruct,為模型提供基礎的反思能力和擴展的推理鏈(Chain-of-Thought, CoT)推理能力。

圖片

1.2 多模態 RL 階段

圖片

從 GRAMMAR 數據集中提取 26k 多樣化的多模態樣本。

確保多模態 RL 階段有效提升了模型的推理能力。

GRPO 演算法進行強化學習

樣本分組:將訓練樣本分為多個組,每組中包含多個樣本。

策略優化:在每組中優化策略相對於參考模型,提升模型在複雜推理任務中的表現。

使用 Easy R1 進行訓練,省略 KL 散度約束以鼓勵更廣泛的策略探索。

PAD 技術的原理

PAD 透過計算每個樣本的絕對優勢值,並根據設定的閾值過濾掉近零優勢的樣本。然後,根據樣本的優勢值進行優先取樣,優先選擇具有較高優勢值的樣本進行訓練。這一過程可以有效緩解梯度停滯問題,提升訓練效率。

舉個例子:假設一個批次中有 10 個樣本,其優勢值分別為 [0.1, 0.2, 0.3, 0.01, 0.02, 0.4, 0.5, 0.6, 0.001, 0.7]。設定閾值 Tlow = 0.1 和 Thigh = 0.6,過濾後的有效樣本為 [0.1, 0.2, 0.3, 0.4, 0.5, 0.6]。然後根據這些樣本的優勢值進行優先取樣,優先選擇優勢值較高的樣本進行訓練。

高效長度獎勵函數

該函數透過計算生成序列的長度與目標長度的偏差,並根據偏差值調整獎勵。生成的序列越接近目標長度,獎勵越高。這一機制可以有效控制生成回應的長度,避免過長或過短的回應對訓練過程產生負面影響。

舉個例子:假設目標長度為 100 個 token,生成的序列長度為 120 個 token,懲罰因子 α = 0.005,基準獎勵 δ = 0.5。根據公式計算獎勵值:

最終的獎勵值為:

1.3 文本 RL 階段

收集 30k 純文本條目,專注於優化模型的語言流暢性和推理能力。

使用 Easy R1 進行文本 RL 訓練,凍結視覺模組,專注於文本推理能力的提升,進一步提升模型的語言流暢性和推理能力。

確保文本 RL 階段有效提升了模型的語言流暢性和推理能力。

效果展示

圖片

在 MathVerse、MathVision、DynaMath、WeMath、LogicVista、AIME24、AIME25、GPQA 和 MATH-500 等基準測試中,ReVisual-R1 的平均效能達到了 53.1%,比之前的開源模型平均效能提升了 16.8 個百分點。

在 AIME24 和 AIME25 等挑戰性基準測試中,ReVisual-R1 的效能提升尤為顯著,分別達到了 44.6% 和 15.4%。

總結

多模態 RL 階段雖然重要,但僅依靠多模態 RL 會導致“文本能力衰減”。而後續的文本 RL 階段可以有效緩解這一問題,進一步提升模型的推理能力。

PAD 透過過濾零優勢樣本和優先取樣資訊軌跡,有效緩解了梯度停滯問題,提升了訓練效率和模型效能。比僅使用 GRPO 基準、僅過濾樣本或隨機取樣的策略表現更好

高效長度獎勵函數透過控制生成回應的長度,避免了過長或過短的回應對訓練過程產生負面影響,保持了穩定的獎勵準確率和低熵值,從而提升了模型的穩定性和效能。

https://huggingface.co/csfufu/Revisual-R1-final

https://arxiv.org/pdf/2506.04207

主標籤:強化學習

次標籤:多模態語言模型推理能力分階段優化Qwen-2.5-VL


上一篇:與圖靈獎得主約瑟夫·西法基斯對談:人工智慧能變得更聰明,但無法完全超越人類

下一篇:經濟學人書單|今年至今最值得閱讀的 40 本佳作

分享短網址