SROアーキテクチャがQwen-2.5-VLの推論能力を強化し、性能を16.8%向上

本アカウントは、NLP、CV、LLM、RAG、Agentなどの最先端AI技術に焦点を当て、業界の実践事例やコースを無料で共有し、皆様がAIGCを全面的に活用できるよう支援します。

テキスト領域の推論モデルは大きな成果を上げていますが、同様の推論能力をマルチモーダル大規模言語モデル（MLLM）に拡張する際には、以下の課題に直面します。

コールドスタート時の初期化不足：従来のマルチモーダルモデルのコールドスタート段階は、通常、単純な視覚およびテキストの事前学習データセットに依存しており、これらのデータセットは複雑な問題解決に十分な準備を提供できないことがよくあります。この初期の欠陥は、その後の強化学習段階での複雑な推論パターンの活性化を深刻に妨げます。

マルチモーダル強化学習における勾配停滞問題：標準的なグループ相対方策最適化（Group Relative Policy Optimization, GRPO）アルゴリズムは、マルチモーダルRLにおいて勾配停滞の問題を抱えており、訓練の不安定性や性能の低下につながります。

推論能力向上のボトルネック：マルチモーダルRLの後、モデルの推論能力の向上は限られており、さらなる最適化が困難です。

一、ReVisual-R1の解決策

三段階訓練フレームワーク、すなわち段階的強化学習最適化（Staged Reinforcement Optimization, SRO）が提案されました。具体的には以下のように分類されます：

コールドスタート段階：純粋なテキストデータを使用して初期化し、基本的な言語理解能力を構築します。

マルチモーダルRL段階：GRAMMARデータセット内のマルチモーダルサンプルを使用して訓練し、PAD技術を介して訓練プロセスを最適化します。

テキストRL段階：純粋なテキストデータを使用して微調整を行い、モデルの言語流暢性と推論能力をさらに向上させます。

1.1 コールドスタート段階

40kの純粋なテキストエントリを収集し、基本的な言語理解能力の確立に注力します。

LLaMA Factoryを使用してQwen-2.5-VL-7B-Instructを訓練し、モデルに基本的な反省能力と拡張された思考連鎖（Chain-of-Thought, CoT）推論能力を提供します。

1.2 マルチモーダルRL段階

GRAMMARデータセットから26kの多様なマルチモーダルサンプルを抽出します。

マルチモーダルRL段階がモデルの推論能力を効果的に向上させることを確認します。

GRPOアルゴリズムによる強化学習

サンプルグルーピング：訓練サンプルを複数のグループに分け、各グループに複数のサンプルを含めます。

方策最適化：各グループ内で参照モデルに対する方策を最適化し、複雑な推論タスクにおけるモデルの性能を向上させます。

Easy R1を使用して訓練し、KLダイバージェンス制約を省略して、より広範な方策探索を促進します。

PAD技術の原理

PADは、各サンプルの絶対優位値を計算し、設定された閾値に基づいてゼロに近い優位値のサンプルを除外します。その後、サンプルの優位値に基づいて優先サンプリングを行い、優位値が高いサンプルを優先して訓練します。このプロセスは、勾配停滞問題を効果的に緩和し、訓練効率を向上させることができます。

例：バッチに10個のサンプルがあり、その優位値がそれぞれ[0.1, 0.2, 0.3, 0.01, 0.02, 0.4, 0.5, 0.6, 0.001, 0.7]であるとします。閾値Tlow = 0.1およびThigh = 0.6を設定すると、フィルタリング後の有効なサンプルは[0.1, 0.2, 0.3, 0.4, 0.5, 0.6]です。その後、これらのサンプルの優位値に基づいて優先サンプリングを行い、優位値が高いサンプルを優先して訓練します。

効率的な長さ報酬関数

この関数は、生成されたシーケンスの長さと目標長さの偏差を計算し、その偏差値に基づいて報酬を調整します。生成されたシーケンスが目標長さに近いほど、報酬が高くなります。このメカニズムは、生成応答の長さを効果的に制御し、長すぎるまたは短すぎる応答が訓練プロセスに悪影響を与えるのを防ぎます。

例：目標長さが100トークン、生成されたシーケンスの長さが120トークン、ペナルティ因子α = 0.005、ベースライン報酬δ = 0.5であるとします。式に基づいて報酬値を計算します：

最終的な報酬値は以下の通りです：

1.3 テキストRL段階

30kの純粋なテキストエントリを収集し、モデルの言語流暢性と推論能力の最適化に注力します。

Easy R1を使用してテキストRL訓練を行い、視覚モジュールをフリーズし、テキスト推論能力の向上に焦点を当て、モデルの言語流暢性と推論能力をさらに向上させます。

テキストRL段階がモデルの言語流暢性と推論能力を効果的に向上させることを確認します。

効果の表示

MathVerse、MathVision、DynaMath、WeMath、LogicVista、AIME24、AIME25、GPQA、MATH-500などのベンチマークにおいて、ReVisual-R1の平均性能は53.1%に達し、これまでのオープンソースモデルの平均性能を16.8パーセントポイント上回りました。

AIME24やAIME25などの挑戦的なベンチマークでは、ReVisual-R1の性能向上は特に顕著であり、それぞれ44.6%と15.4%を達成しました。

まとめ

マルチモーダルRL段階は重要ですが、マルチモーダルRLだけに頼ると「テキスト能力の減衰」につながる可能性があります。しかし、その後のテキストRL段階は、この問題を効果的に緩和し、モデルの推論能力をさらに向上させることができます。

PADは、ゼロ優位値のサンプルをフィルタリングし、情報量の多い軌跡を優先サンプリングすることで、勾配停滞問題を効果的に緩和し、訓練効率とモデル性能を向上させます。GRPOベースラインのみ、サンプルフィルタリングのみ、またはランダムサンプリングの戦略と比較して、より優れたパフォーマンスを発揮します。

効率的な長さ報酬関数は、生成応答の長さを制御することで、長すぎるまたは短すぎる応答が訓練プロセスに悪影響を与えるのを防ぎ、安定した報酬精度と低いエントロピー値を維持し、それによってモデルの安定性と性能を向上させます。

https://huggingface.co/csfufu/Revisual-R1-final

https://arxiv.org/pdf/2506.04207

SROアーキテクチャがQwen-2.5-VLの推論能力を強化し、性能を16.8%向上

短いURLをシェア