初のマルチモーダル専用スローシンキングフレームワーク!GPT-o1を7ポイント近く上回り、強化学習がVLMに「熟考」を促す

画像

MLNLPコミュニティは、国内外で知られる機械学習および自然言語処理コミュニティであり、国内外のNLP修士・博士課程の学生、大学教員、企業研究者を対象としています。コミュニティのビジョンは、国内外の自然言語処理、機械学習の学術界、産業界、そして愛好家の皆様、特に初心者の皆様の交流と進歩を促進することです。

出典 | QbitAI

著者|VL-Rethinkerチーム

テキスト推論の分野では、GPT-o1やDeepSeek-R1に代表される「遅い思考」モデルは、明示的な内省メカニズムにより、数学や科学のタスクにおいて「速い思考」モデル(例:GPT-4o)をはるかに上回る優位性を示しています。

しかし、戦場がマルチモーダル推論のシナリオに移ると、これらの「思考の巨匠」は平凡なパフォーマンスを示します。GPT-oはMathVista、MathVerseなどのマルチモーダル推論ベンチマークで速い思考モデルと同等のパフォーマンスであり、Qwen2.5-VL-72Bにさえ超えられています。

なぜテキスト推論でうまくいった遅い思考能力が、マルチモーダルシナリオでは発揮しにくいのでしょうか?

香港科技大学、ウォータールー大学、INF.AI、Vector Instituteの研究チームは、この問題を深く探究し、視覚言語モデル(VLM)の遅い思考能力構築における2つの主要な障害、「優位性の消失」と「再考の惰性」を明らかにし、革新的な解決策であるVL-Rethinkerを提案しました。

このモデルは、「選択的サンプルリプレイ」(Selective Sample Replay)と「強制再考」(Forced Rethinking)という2つの主要な技術により、VLMの深層推論と自己修正能力を成功裏に引き出しました。

画像

1 マルチモーダル推論における二重の課題:優位性の消失と再考の惰性

研究チームは、Qwen2.5-VL-72Bなどの大規模視覚言語モデルを訓練する際に、従来のGRPOをマルチモーダルモデルの強化学習に適用すると、2つの主要な課題に直面することを発見しました。

1.1 GRPOにおける「優位性の消失」問題 (Vanishing Advantages)

GRPOアルゴリズムでは、優位性シグナル(advantage)は、同じクエリグループ内の異なる候補応答の報酬を比較することによって計算されます。同じ問題グループ内のすべての回答が同じ報酬(例えば、すべて正解またはすべて不正解)を得た場合、計算される優位性シグナルはゼロになります。研究チームは、GRPOでマルチモーダルモデルを訓練する過程で、訓練が進むにつれてゼロ優位性シグナルを持つサンプルの割合が著しく増加することを発見しました。この現象は「優位性の消失」 (Vanishing Advantages) と定義されています。

より高品質な推論データを使用する純粋なテキスト推論と比較して、Vanishing Advantagesは、能力の高いマルチモーダルモデルの強化学習において特に顕著です。

画像

例えば、Qwen2.5-VL-72Bモデルの訓練時(図に示す通り)、初期段階では非ゼロ優位性シグナルを持つ有効なクエリの割合は約40%でしたが、わずか約256回の勾配更新ステップ(16x16 steps)後には、この割合は急速に20%未満にまで低下しました。

この顕著なVanishing Advantagesは、2つの理由から生じます。現在のオープンソースのマルチモーダルデータセットは、品質と量において純粋なテキスト推論データに比べてまだ劣っていること、そして、データの品質と難易度の制約により、高い能力レベルのモデルが早く飽和し、早期に収束することです。

Vanishing Advantagesはまた、二重の悪影響をもたらします。有効なサンプルが急減することで勾配分散が増大し、訓練の安定性を損なうこと、そして、モデルが浅い推論パスに閉じ込められ、複雑な推論戦略の探索が抑制されることです。

1.2 マルチモーダルモデルの「再考の惰性」

強化学習後に自発的に長い思考連鎖を生成する純粋なテキストモデルとは異なり、既存のVLM基盤モデルは、視覚モダリティの知覚駆動特性と事前学習コーパスにおける内省パターンの不足により、「速い思考」(知覚入力と言語出力の直接マッピング)を実行する傾向が強く、推論プロセスの能動的な吟味と修正能力を欠いています。

この「再考の惰性」は、標準的な強化学習ではVLMの遅い思考の可能性を活性化させにくく、マルチモーダル推論能力向上の第二の大きなボトルネックとなっています。

2 VL-Rethinker:デュアルエンジンによるマルチモーダル遅い思考能力の解放

高品質なオープンソースデータの不足という課題に対応するため、研究チームはViRL39K強化学習データセットを精緻に編集しました。

データセットは、既存のマルチモーダル推論データと新規推論データを選別し、クリーニング、検証、書き換えを経て、38,870件の高品質なマルチモーダル推論問題を取得しました。

この39Kのデータは、論理推論、グラフ推論、空間推論、科学Q&Aなど、8つの主要なテーマを網羅しています。

画像

また、細粒度なモデル能力タグも含まれており、異なる能力レベルのモデルに対して均一な難易度分布を提供しています。

画像

ViRL39K訓練データに基づいて、研究チームはVL-Rethinkerを開発しました。これは、マルチモーダルシナリオのために特別に設計された初の遅い思考強化学習フレームワークであり、その核となるのは2つの革新的な技術です。

画像

2.1 選択的サンプルリプレイ (Selective Sample Replay, SSR)

Vanishing Advantagesに対処するため、研究チームは高価値訓練サンプルに動的に焦点を当てる選択的サンプルリプレイ(SSR)を提案しました。

SSRは経験リプレイメカニズムを導入し、非ゼロ優位性訓練サンプルを動的に保存し、価値に敏感なリプレイ戦略を設計しています。絶対優位性値が大きい「キーサンプル」(例えば、難しい問題の正解、簡単な問題の間違い)を優先的に再利用します。

画像

この設計には二重の利点があります。Vanishing Advantagesを効果的に緩和し、有効な訓練サンプル量を一貫して安定させます。オンラインでのアクティブラーニング。優位性の大きいサンプルは通常、モデルの決定境界近くに位置しています。例えば、より難しい問題の正解などです。これらのサンプルの重みを再割り当てすることによって(下右図を参照)、SSRはモデルの訓練に使用されるサンプルを動的に編成し、モデルがキーサンプルに焦点を当てるように誘導することで、訓練効率を向上させます(下左図を参照)。

画像

現在、SSR技術はPixel ReasonerとSkyR1V2に適用されています。

2.2 強制再考 (Forced Rethinking)

VLMの「再考の惰性」を克服するため、研究チームは「強制再考」メカニズムを提案しました。モデルが最初の回答を生成した後、特定の「再考トリガー」テキストを人為的に追加し、モデルに二次推論プロセスを強制的に開始させます。研究チームは、自己検証、自己修正、自己質問など、さまざまな種類の再考トリガーを設計し、モデルが多様な再考行動を学習し生成できるように導きます(ワードクラウドに示す通り)。訓練サンプルでは、強制再考の回答のうち正しい部分のみが保持されます。

画像

研究チームは、この拒否サンプリングと単純な正確性報酬の組み合わせにより、モデルがすべての問題に対して冗長な二次思考を盲目的に行うのではなく、選択的に再考プロセスをトリガーすることを学習できるようになり、より効率的でインテリジェントな「遅い思考」を実現することを発見しました。

興味深いことに、VL-Rethinkerが習得した再考能力は、モデル自身の回答を吟味するだけでなく、問題中の誤りにモデルが気づくのを助けることさえあります。以下の例では、モデルが自身の推論プロセスを再考する中で、自身の推論と問題の矛盾に気づき、問題設定における誤りを認識しています。

画像

3 VL-Rethinker実験結果

画像

数学推論タスクでは、MathVistaデータセットで80.4%、MathVerseデータセットで63.5%の成績を収め、いずれもGPT-o1モデル(それぞれ73.4%、57.0%)を上回りました。MathVisionタスクでは44.9%の成績でリードを維持しています。

多分野理解能力テストでは、MMMU-Proの全体テスト成績は55.9%、EMMAの全量テスト成績は38.5%に達し、オープンソースモデルの現在の最高性能を更新しただけでなく、OpenAI-o1モデルのレベルに近づいています。

モデルの反復効果は顕著です。VL-Rethinker-72Bは、ベースモデルのQwen2.5-VL-72Bと比較して、MathVistaで5.6%、MathVerseで6.3%向上しました。VL-Rethinker-7Bは、すべてのベンチマークテストで同量級の7B級強化学習型VLMを大幅に上回りました。

実験結果は、SSRの有効性、およびマルチモーダル領域における「遅い思考」モードの応用可能性を検証しました。

論文アドレス:https://arxiv.org/pdf/2504.08837

プロジェクトホームページ:https://tiger-ai-lab.github.io/VL-Rethinker/

高品質データセット:https://huggingface.co/datasets/TIGER-Lab/ViRL39K

モデル試用:https://huggingface.co/spaces/TIGER-Lab/VL-Rethinker

技術交流グループへの招待状

画像

長押ししてアシスタントを追加

QRコードをスキャンしてアシスタントのWeChatを追加

備考:氏名-学校/会社-研究方向(例:小張-ハルビン工業大学-対話システム)を記入して、自然言語処理/Pytorchなどの技術交流グループに参加申請できます。

私たちについて

MLNLPコミュニティは、国内外の機械学習と自然言語処理の学者によって共同で構築された民間学術コミュニティです。現在では国内外で知られる機械学習と自然言語処理コミュニティに発展しており、機械学習、自然言語処理の学術界、産業界、そして幅広い愛好家の間の進歩を促進することを目指しています。

コミュニティは、関連する実務家のために、深造、就職、研究などの側面で開かれた交流プラットフォームを提供しています。皆様のフォローと参加を歓迎します。

画像

メインタグ:マルチモーダルAI

サブタグ:大規模言語モデルAI推論視覚言語モデル強化学習


前の記事:マイクロソフトがAIエージェントの故障に関するホワイトペーパーを公開、悪意のあるエージェントを詳細に解説

次の記事:R1型訓練はもはや結果の正誤だけでなく!香港中文大学がSophiaVL-R1モデルを発表

短いURLをシェア