画像だけで思考可能、強化学習が推論モデルの新パラダイムを創出!複雑なシーンの計画能力を最大化

マシンインテリジェンス・レビュー

編集:Panda、+0

近年、LLMとそのマルチモーダル拡張(MLLM)は、多様なタスクにおいて推論能力を向上させてきました。しかし、既存のMLLMは、視覚情報を処理する場合でも、推論プロセスを表現し構築する媒体として主にテキストに依存しています。

画像

一般的なMLLMの構造。

このパターンでは、モデルはまず視覚情報をテキスト記述または内部のテキスト化されたトークンに「翻訳」または「マッピング」し、その後に大規模言語モデルのテキスト推論能力を利用して処理します。

この変換プロセスは、視覚情報に固有の豊富な詳細、空間関係、動的特性の損失や弱体化を不可避的に引き起こし、「モダリティギャップ」と呼ばれるものを形成します。このギャップは、モデルの視覚世界に対する精密な知覚を制限するだけでなく、複雑な視覚シーンにおける効果的なプランニング能力にも影響を与えます。

例えば、モデルは画像内の物体を認識し、それらの間の比較的単純な空間関係を記述することができますが、究極の位置特定精度を追求する場合や、物体間の高度に複雑で動的または暗黙的な相互作用ロジックを深く理解し予測する必要がある場合(単なる表面現象の認識ではなく)、そのパフォーマンスは、テキスト化プロセスにおける視覚情報の詳細の損失によって制限される可能性があります。

画像

ケンブリッジ大学、ユニバーシティ・カレッジ・ロンドン、Googleの研究チームは、特に空間的および幾何学的情報を含むタスクシナリオでは、言語が推論を行う上で常に最も自然または効果的なモダリティであるとは限らないと考えています。

画像

この動機に基づき、研究チームは全く新しい推論とプランニングのパラダイムである「視覚プランニング(Visual Planning)」を提案しました。このパラダイムは、完全に視覚表現に基づいてプランニングを行い、テキストモダリティから完全に独立しています。

画像

論文タイトル:Visual Planning: Let’s Think Only with Images

論文URL:https://arxiv.org/pdf/2505.11409

コードリポジトリ:https://github.com/yix8/VisualPlanning

このフレームワークの下では、プランニングは一連の画像を通じて視覚領域内の推論プロセスを段階的に符号化します。これは、人間がスケッチや視覚的なイメージを想像して将来の行動を計画する方法に似ています。

画像

推論パラダイムの比較。従来の方法(上段と中段)は冗長で不正確なテキストプランニングを生成する傾向がありますが、視覚プランニングパラダイム(下段)は、次の視覚状態を直接予測し、言語媒介なしに完全に画像ベースの状態軌跡を形成します。

この方法を支援するため、研究チームは革新的な強化学習フレームワークである「強化学習による視覚プランニング(Visual Planning via Reinforcement Learning, VPRL)」を提案しました。このフレームワークは、GRPO(グループ相対ポリシー最適化)を核となる最適化手法として用いて、トレーニング後に大規模視覚モデルのプランニング能力を向上させます。

FROZENLAKE、MAZE、MINIBEHAVIORを含む複数の代表的な視覚ナビゲーションタスクにおいて、この方法は顕著なパフォーマンス向上を達成しました。実験結果は、純粋なテキスト空間内で推論を行う他のすべてのプランニングバリアントと比較して、研究チームが提案する純粋な視覚プランニングパラダイムが効果の面でより強力な優位性を持つことを示しています。

以下は動的な例です。

FrozenLake:これは確率的なグリッドワールド環境であり、エージェントは指定された開始点から出発し、安全に目標地点に到達する必要があります。その間、「氷の穴」に落ちるのを避けなければなりません。

画像

Maze:エージェントは迷路のレイアウトを示す初期画像を受け取ります。そのタスクは、迷路内で開始点(緑色のマーカー)から出発し、最終的に終点(赤色の旗の位置)に到達することです。

画像

MiniBehaviour:エージェントはまず開始点からプリンターのある位置に移動してそれを「拾い」、その後プリンターをテーブルに運んで「置く」必要があります。

画像

本研究は、視覚プランニングが実行可能な代替案であることを証明するだけでなく、直感的な画像推論タスクにおいてその大きな可能性を明らかにし、画像知覚と推論の分野に新たな方向性を開拓しました。

強化学習駆動の視覚プランニング

視覚プランニングパラダイム

従来の視覚推論ベンチマークタスクのほとんどは、通常、視覚情報をテキストドメインにマッピングすることで解決されます。例えば、物体名、属性、関係などのアノテーションラベルに変換し、その上でいくつかの言語推論を実行します。

しかし、視覚コンテンツが一度テキスト表現に変換されると、そのタスクは純粋な言語推論問題に退化し、この時点で言語モデルが推論を完了でき、プロセス中に視覚モダリティの情報を再導入する必要はありません。

研究チームが提案する視覚プランニングパラダイムは、本質的に上記の方法とは異なります。それは純粋な視覚モダリティの下でプランニングを行います。研究チームは視覚プランニングを次のように形式的に定義しています。初期画像v₀が与えられた場合、中間画像シーケンスT = (ˆv₁, ..., ˆvₙ)を生成します。ここで各ˆvᵢは視覚状態を表し、共同で視覚プランニング軌跡を構成します。具体的には、π_θをパラメータ化された生成視覚モデルとします。この視覚プランニング軌跡は自己回帰的に生成され、各中間視覚状態ˆvᵢは初期状態と以前に生成された状態が与えられた条件でサンプリングされます。

画像

大規模視覚モデルにおける強化学習

強化学習(RL)は、自己回帰モデルの最適化において顕著な優位性を示し、シーケンスレベルの報酬信号による学習を通じて、従来のトークンレベルの教師信号の限界を突破しました。自己回帰画像生成タスクでは、画像は視覚トークンのシーケンスとして表現されます。

言語推論タスクにおけるRLの成功から着想を得て、研究チームは大規模モデル下での視覚プランニングをサポートするためのRLベースの訓練フレームワークを導入し、GRPO手法を採用しました。この手法は、視覚状態間の遷移情報を用いて報酬を計算し、生成戦略が環境制約を満たしているかを検証します。

効果的な行動を生成し、RLフェーズで探索の多様性を維持できる戦略モデルを訓練するため、研究チームは革新的な2段階強化学習フレームワークを提案しました。

ステージ1:ポリシーの初期化。この段階では、研究チームは教師あり学習を採用し、環境内でのランダムウォークによって生成された軌跡を用いて視覚生成モデルπ_θを初期化しました。目標は、有効な視覚状態シーケンスを生成し、「シミュレーション」環境内で十分な探索性を維持することです。訓練中、各軌跡は視覚状態シーケンス(v₀, ..., vₙ)で構成されます。各軌跡について、研究チームはn−1組の画像サンプル(v≤ᵢ, vᵢ₊₁)を抽出します。ここでv≤ᵢはプレフィックスシーケンス(v₀, ..., vᵢ)を表します。その後、入力プレフィックスが与えられた条件下で、モデルはK個の有効な軌跡から次状態候補セット{vᵢ₊₁^(j)}_{j=1}^Kに接触します。これらの候補状態は同じプレフィックスを共有しており、特定の遷移へのモデルの過学習を防ぎ、同時に生成プロセスのランダム性を促すため、研究チームは各訓練ステップで候補状態vᵢ₊₁^(ℓ)を教師目標としてランダムにサンプリングし、視覚ファインチューニング損失関数(VPFT)を最小化することでモデルを最適化します。

画像画像

提案するVPRLフレームワークの概要。図は、自己回帰型大規模視覚モデルを用いた画像生成における本フレームワークの視覚ナビゲーションタスクでの応用を示しています。GRPOを用いて視覚ポリシーモデルを訓練し、進行報酬関数を導入して推進的な行動を奨励し、不正な行動を罰することで、目標と一致した視覚プランニングを実現します。

全体として、この段階は、生成される画像の整合性と全体的なプランニング品質を向上させることを目的とした、次の強化学習段階のウォームアッププロセスとして機能します。

ステージ2:視覚プランニングに向けた強化学習。第1段階の初期化後、モデルは強力な探索能力を持ちます。これは強化学習にとって極めて重要であり、モデルが多様な状態遷移パスをカバーし、準最適戦略に陥るのを防ぐことができます。第2段階では、モデルは将来の状態(すなわち、潜在的な行動の結果)をシミュレートし、生成結果に基づいて報酬フィードバックを得ることで、効果的な視覚プランニング戦略を段階的に学習します。

具体的には、現在の入力プレフィックス v≤ᵢ が与えられた場合、旧バージョンのモデル π_θ^old は G 個の候補中間状態 {ˆvᵢ₊₁^(1), ..., ˆvᵢ₊₁^(G)} をサンプリングします。各候補状態は、時間ステップ i でエージェントが特定の行動 a^(k) を取った後にシミュレートされる次の視覚状態を表します。研究チームは、ルールベースの解析関数を使用して、状態ペア (vᵢ, ˆvᵢ₊₁^(k)) を離散行動にマッピングし、構造化された解釈を可能にします。

続いて、研究チームは各候補状態を評価するための複合報酬関数 r (vᵢ, ˆvᵢ₊₁^(k)) を設計しました。この報酬は、候補状態が目標状態への有効な推進を表しているか(つまり、有用であるか)を測定します。

従来の強化学習が価値関数評価器(critic)の学習に依存するのとは異なり、GRPOは候補グループ内の相対比較を通じて優位性値を計算し、これにより解釈しやすく、より計算効率の高い訓練信号を提供します。この時、各候補の相対優位性A^(k)の計算方法は以下の通りです。

画像

モデルがより優れた候補応答を生成し、高い優位性を持つ行動の傾向を強化するために、研究チームは以下の目的関数に基づいて戦略を更新しました。

画像

ここで、Dはプレフィックス分布を指し、ρ^(k) = π_θ(ˆvᵢ₊₁^(k) | v≤ᵢ) / π_θ^old (ˆvᵢ₊₁^(k) | v≤ᵢ)は重要度サンプリング比を表します。

報酬設計。離散的な操作やテキストトークンとは異なり、視覚出力は高次元の疎な情報であり、直接解釈可能な単位に分解することは困難です。研究チームの視覚プランニングフレームワークでは、生成された視覚状態が対応するプランニング行動を正確に表現できるかを判断することが核心的な課題です。したがって、報酬設計は、環境制約を考慮しつつ、目標状態への推進を評価することに焦点を当てています。

状態 vᵢ から候補状態 ˆvᵢ₊ₜ^(k) に暗示される行動計画を解釈するため、研究チームは状態-行動解析関数 P: V × V → A ∪ E を定義します。ここで、A は有効な行動の集合、E は不正な状態遷移の集合(例:物理的な制約に違反する行動)を表します。

画像

このプロセスは、独立した画像分割コンポーネントまたはルールベースのスクリプトを利用して、ピクセルレベルのデータから解釈可能な行動単位を解析することで完了できます。

行動が認識されると、研究チームは「進行マップ」(progress map)D(v) ∈ ℕ を導入します。これは、ある可視状態 v から目標状態に到達するために必要な残りのステップ数または努力度を表します。現在の状態と生成された状態の進行マップ上の相対的な変化を比較することにより、研究チームは行動集合 A ∪ E を次の3つのカテゴリに分類しました。

画像

これに基づいて、研究チームは進行報酬関数 r (vᵢ, ˆvᵢ₊₁^(k)) を提案しました。

画像

r =αₒₚₜ, もし推進有効行動の場合(optimal)r =αₙₒₚₜ, もし無推進行動の場合(non-optimal) r =αᵢₙᵥ, もし不正行動の場合(invalid)

実験では、研究チームはαₒₚₜ = 1、αₙₒₚₜ = 0、αᵢₙᵥ = −5と設定し、これにより推進行動を奨励し、実行不可能な状態遷移を罰するようにしました。

システムバリアント

提案されたVPRLの主要フレームワークに加えて、教師あり学習の方法(言語 vs. 画像)と最適化手法(教師ありファインチューニング vs. 強化学習)がパフォーマンスに与える影響を包括的に評価するため、研究チームは比較ベースラインとしていくつかのシステムバリアントを提案しました。

視覚ファインチューニングプランニング(VPFT)。研究チームは、本フレームワークの簡略化バージョンとして「視覚ファインチューニングプランニング」(Visual Planning via Fine-Tuning, VPFT)を提案しました。その訓練構造は2.2節のステージ1と一致しますが、ランダムな軌跡の代わりに最適プランニング軌跡を使用します。各環境について、研究チームは初期状態v₀^opt = v₀から目標状態へ導く最小ステップの最適軌跡(v₀^opt, v₁^opt, ..., vₙ^opt)をサンプリングします。各ステップで、モデルは現在のプレフィックスv≤ᵢ^optに基づいて次の状態vᵢ₊₁^optを予測することを学習します。訓練目標は式(2)と同じで、最適軌跡を教師信号として使用します。

言語ベースの教師ありファインチューニング(SFT)。この比較方法では、プランニングタスクは言語モダリティで構築されます。画像形式の中間状態を生成するのではなく、モデルは行動シーケンスのテキスト記述を生成する必要があります。形式的には、入力視覚状態vとタスク記述テキストプロンプトpが与えられた場合、モデルは行動シーケンスt = (t₁, ..., t_L)を出力するように訓練されます。ここで各トークンtᵢ ∈ V_textは行動を表します。モデルの入力はプロンプトトークンと視覚トークンの連結であり、目標は対応するテキスト行動シーケンスです。研究チームは、自己回帰モデルで従来から使用されている教師ありファインチューニング手法を採用し、交差エントロピー損失を最小化することで行動予測を学習します。

画像

視覚プランニングの実験結果は?

このチームは、いくつかの代表的なタスクに基づいて、この新しい視覚プランニングパラダイムの実際の性能を検証しました。

具体的には、視覚プランニングと言語ベースのプランニングを比較するために、チームは3つの視覚ナビゲーション環境(FROZENLAKE、MAZE、MINIBEHAVIOR)で実験を行いました。これらの環境はすべて両方のモダリティで解決できるため、2つの戦略をより簡単に比較できます。

モデルに関しては、チームは完全に視覚データでトレーニングされたモデルを選択しました。これらのモデルは、事前トレーニングプロセス中にテキストデータに一切触れていません。

具体的には、彼らは大規模視覚モデルLVM-3Bをバックボーンネットワークとして選択し、VPFTとVPRLの手法を使用しました。同時に、比較対象のテキストモデルには、異なる設定のQwen 2.5-VL-Instruct、Gemini 2.0 Flash (gemini-2.0-flash-002)、および先進的な推論モデルGemini 2.5 Pro (gemini-2.5-pro-preview-03-25)が含まれていました。

評価指標としては、完全一致(EM)と進行率(PR)の2種類が採用されました。

それでは、視覚プランニングの性能はどうだったのでしょうか?

視覚プランニングがテキストプランニングを凌駕

画像

下の表1に示すように、視覚プランナー(VPFTとVPRL)はすべてのタスクで最高スコアを達成し、言語推論を使用するすべてのベースラインモデルを上回りました。

同一のファインチューニングによる教師あり学習方法の下で、VPFTはExact Match (EM) 指標で言語ベースのSFTよりも平均22%以上高く、VPRLの優位性はさらに大きかった。Progress Rate (PR) の面でも同様の傾向が観察されました。

これらの結果は、言語駆動型の手法がタスク構造にあまり適合しない可能性があるため、視覚プランニングパラダイムが視覚中心のタスクにおいて明確な優位性を持つことを示しています。純粋な推論モデル(大規模なクローズドソースシステムでも小規模なオープンソースMLLMでも)は、特定のタスク向けに調整されていない場合、これらのプランニングタスクを完了する際に困難に直面します。先進的な推論モデルであるGemini 2.5 Proでさえ、より複雑なMAZEおよびMINIBEHAVIORタスクではEMとPRがほぼ50%を下回っており、これらのタスクが人間にとっては直感的であるにもかかわらず、現在の最先端の言語モデルがこれらの課題に対応するのは依然として難しいことを示しています。

強化学習がもたらす利益

2段階強化学習手法VPRLは、他のバリアントを凌駕し、最高の全体性能をもたらしました。第2段階後、このモデルはより単純なFROZENLAKEタスクでほぼ完璧なプランニング(91.6% EM、93.2% PR)を実現し、MAZEおよびMINIBEHAVIORタスクでも強力な性能を維持しました。すべてのタスクでの性能はVPFTよりも20%以上高かったです。

予想通り、チームの強化学習トレーニングの第一段階(出力形式を強制するが、プランニング行動を教えない)は、ほぼランダムな性能(例:FROZENLAKEデータセットで11%のEM)しか得られませんでした。しかし、新しく提案された報酬スキームを使用して第二段階で全面的に最適化を行った後、プランナーは最高の性能を達成しました。この向上は、強化学習がSFTに対して持つ重要な利点を浮き彫りにしています。VPRLは、モデルが様々な行動を自由に探索し、その結果から学習することを可能にする一方、VPFTは模倣に依存し、トレーニング分布に適合する傾向があります。報酬駆動型の更新を通じて利用(exploitation)を促進することで、VPRLは潜在的なルールとパターンを捉えることを学び、より堅牢なプランニング性能を実現しました。

下の図は、視覚的な比較例を示しています。

画像

複雑性の向上に対する堅牢性

チームは、異なる手法の異なるタスク難易度(より大きなグリッドは通常、より難しい)での性能を調査したところ、強化学習が依然として優位性を維持していることを発見しました。

画像

図5に示すように、FROZENLAKE環境において、グリッドサイズが3×3から6×6に増加すると、Gemini 2.5 ProのEMスコアは98.0%から38.8%へと急落しました。対照的に、新しく提案された視覚プランナーは、すべてのグリッドサイズでより高い精度を維持しただけでなく、性能曲線もより平坦でした。同様に、VPRLはVPFTよりも安定した性能を示し、3×3グリッドではEMスコアが97.6%を維持し、6×6グリッドでも82.4%に達することができました。これはVPRLが非常に堅牢であることを示しています。

画像

© THE END

転載については、本公式アカウントにご連絡の上、許可を得てください。

寄稿または取材の依頼:liyazhou@jiqizhixin.com

メインタグ:強化学習

サブタグ:ビジュアルプランニング人工知能コンピュータビジョンマルチモーダルAI


前の記事:312の軌跡で性能241%向上!上海交通大学とSIIがオープンソースのコンピューターエージェントを開発、Claude 3.7を超える

次の記事:彼女はいかにして「システム2」を大規模言語モデルにもたらしたか | マイクロソフトリサーチアジアの張麗氏との対話

短いURLをシェア