手動アノテーションを不要に!華人チームがマルチモーダル大規模モデルの自己進化アルゴリズムを提案

現在、コード、モデル、およびプロジェクトホームページが公開されています:

著者には、デューク大学の汪勤思、林閲千、李海教授、陳怡然教授、シンガポール国立大学の劉博、メリーランド大学の周天翼教授、そしてAdobeの研究員である施靖、万锟、趙文天が含まれます。

画像

背景紹介

現在のVLM(視覚言語モデル)はマルチモーダルタスクで優れた性能を発揮していますが、そのトレーニングは手動でアノテーションされたデータと、慎重に設計された強化学習(RL)の報酬に過度に依存しています。この依存はデータ不足の問題を引き起こします。マルチモーダルアノテーションのコストが高く、トレーニングデータの規模と多様性が制限されるためです。同時に知識の天井も存在します。モデルの能力は人間の監督の境界に制約され、人間の既存の知識や戦略を突破することが困難です。かつてAlphaGoが使用した自己対局技術は、モデルが自身のコピーと競争・相互作用し、フィードバックを自動的に獲得することで、計算をデータに変換すると同時に、人間による監督への依存を取り除きました。これにより、モデルは継続的に進化し、人間の能力の上限を突破することが可能になりました。しかし、VLMのマルチモーダルな特性に制約され、現在、VLMへの自己対局の応用に関する体系的な研究はほとんどありません。このため、研究チームはVLMの特性に適応した自己対局フレームワーク「Vision-Zero」を設計しました。このフレームワークには以下の特徴があります:

  1. ポリシー自己対局フレームワーク:Vision-Zeroは、ソーシャル推論ゲームをモデルとした環境でVLMを訓練し、エージェントが自己対局プロセス中に、手動アノテーションなしで、高複雑度の推論データを自動生成できるようにします。
  2. あらゆる形式の画像をインプットとして利用可能:従来の制限付きゲーム化トレーニングフレームワークとは異なり、Vision-Zeroはあらゆる形式の画像でゲームを開始できます。これにより、モデルは多くの異なる領域で能力向上を果たし、優れた汎化性能を持つことができます。
  3. 継続的な性能向上:研究チームは、自己対局と検証可能な報酬による強化学習(RLVR)を交互に最適化する自己対局ポリシー最適化アルゴリズム(Iterative-SPO)を提案しました。このアルゴリズムは、従来の自己対局アルゴリズムでよく見られる性能のボトルネックを解決します。

Vision-Zeroは、トレーニングにアノテーションデータを使用していないにもかかわらず、推論、グラフQ&A、ビジョン中心の理解タスクなど、複数の領域で、アノテーションを必要とする他のSOTA後続トレーニング手法を上回る性能を示しました。

画像

盤上から現実へ:AlphaGoの自己対局思想の一般化

自己対局は、OpenAIの初期の重要な技術路線の一つとして、人工知能の発展におけるいくつかのマイルストーン的出来事の主要な推進力となってきました。代表的な例として、2016年のAlphaGoによる李世石への勝利、および2019年のOpenAI FiveによるDota 2での世界チャンピオンOGチームの撃破が挙げられます。人々は、自己対局が特定の領域で人間の知能を大幅に凌駕するのを見る一方で、この思想をもっと多くのオープンなシナリオに適用できるのではないかと考えることがよくあります。しかし、AlphaGoを盤上から現実へと導くためには、以下の課題を解決する必要がありました:

  1. エージェントが対局に勝つために習得したスキルが、ターゲットタスクに必要なスキルと高度に一致していること。
  2. 広範なターゲットタスクが条件 1 を満たせるように、対局環境が十分に多様で複雑であること。
  3. スキルの成長がスケーラブルであること:自己対局が進むにつれて、環境は難易度を継続的に高め、ますます強力な知能体が現れるようにすること。トレーニングが固定の上限に収束しないようにすること。

「人狼(Who is the Spy)」のようなソーシャル推論ゲームからヒントを得て、研究チームはこれらの課題を解決するための完全な自己対局ルールセットを設計しました。具体的なルールは以下の通りです:

  1. ゲームには n 人の一般市民と 1 人のスパイが参加します。プレイヤーはまず自分の役割を知らされます。
  2. 各プレイヤーは画像を受け取りますが、スパイの画像は一般市民のものとわずかに異なります(例:特定の物体が欠けている、追加されている、または修正されている)。
  3. 手がかりフェーズ:各プレイヤーは自分の画像を観察し、画像の内容を説明する口頭の手がかりを提供します(物体描写、推測情報など)。
  4. 決定フェーズ:複数ラウンドの手がかりが提供された後、決定フェーズに入ります。プレイヤーは手がかりと自分の画像を組み合わせて、投票でスパイを特定します。

画像

このゲームは高度に戦略的で挑戦的であり、スパイは他者の手がかりから推測し、身を偽装して正体がばれるのを避けなければなりません。一般市民は、十分に正確でありながら機密性の高すぎない手がかりを提供し、同時に他者の手がかりを分析して不審な点を探します。このようにして、エージェントはゲームプロセス中に十分長く複雑な推論チェーンを生成することができ、対戦相手の能力が向上するにつれて、直面する課題も増大し、より強力な視覚理解と推論能力が引き出されます。

ドメインに依存しないデータ入力

このゲームは、わずかに異なる2枚の画像ペアを入力として開始するだけでよく、現在の強力な画像編集ツール(ChatGPTやnano bananaなど)のおかげで、データの構築が非常に簡単で低コストであるため、このフレームワークの応用範囲は非常に広範です。研究チームは、トレーニングデータとして、完全に異なる3種類のシーン画像入力を使用しました:

  1. CLEVR合成シーン:CLEVRレンダラーを使用して2000組の画像を自動生成しました。元の画像には4〜6個のランダムに配置された物体が含まれており、修正画像では2つの物体の色と形状が変更されています。
  2. グラフデータ:ChartQAトレーニングセットからランダムに1000枚のグラフをオリジナル画像として選択し、Gemini 2.5-Flashを使用してグラフ内の数値属性をランダムに交換することで、対応する修正画像を生成しました。
  3. 実世界画像:ImgEditトレーニングセットからランダムに1000組の画像ペアを抽出しました。このデータセットには、高品質な実世界のシングルターン画像編集ペアが含まれています。

局所的な均衡から持続可能な向上へ

純粋な自己対局トレーニングは局所的な均衡に陥りやすく、新しい推論経路の探索が困難になります。一方、単独の強化学習手法も、既存の問題セットを習得した後で知識飽和を起こしやすいです。これらの問題を軽減するため、著者チームは二段階の交互トレーニングを採用することを提案しました。決定フェーズのパフォーマンスが、手がかりフェーズでの飽和を示した場合、難易度を高めるために手がかりトレーニングに切り替えます。そうでない場合は決定フェーズに戻ります。この手法は Iterative Self-Play Policy Optimization(Iterative-SPO)と名付けられました。実験結果は、二段階交互トレーニングが単一段階トレーニングよりも明らかに優れた性能を発揮することを示しています(下の図を参照)。

画像

実験結果

強力なタスク汎化能力。 Vision-Zeroフレームワークで訓練されたVLMが、より広範な推論および数学タスクに汎化できるかを評価するため、著者チームは6つのベンチマークデータセットでモデルをテストしました(結果は表1を参照)。実験結果は、アノテーションデータを使用して訓練していないにもかかわらず、Vision-Zeroがすべてのベンチマークにおいて、アノテーションを必要とする他のSOTA手法を一貫して上回ることを示しました。特に、VisionZero-Qwen-7B(CLEVR、実世界)はベースラインと比較して約3%の向上、VisionZero-Qwen-7B(グラフ)は約2.8%の向上を達成したのに対し、既存の最良のベースライン手法の向上は約1.9%に留まっています。注目すべきは、ベースライン手法が大量の数学および推論サンプルで訓練を必要とするのに対し、Vision-Zero環境は明示的に数学タスクを含んでおらず、自然言語戦略対局を通じて論理推論能力を向上させただけで、その学習能力をより広範な数学および推論タスクに効果的に転移させ、大規模なタスクデータで専門的に訓練されたモデルさえも上回った点です。

画像

クロス能力の負の転移の軽減。

VLMの後続トレーニングにおける主要な課題の一つは、クロス能力の負の転移、すなわち特定のタスクでモデルを訓練した後、他のタスクでの性能がかえって悪化することです。表2は、ベースラインモデルが推論データや数学データで後続トレーニングを行った後、性能が著しく低下することを示しています(例:MM-Eureka-Qwen-7BはChartQAで約10%低下)。対照的に、Vision-Zeroで訓練されたモデルは、負の転移を効果的に軽減できます。VisionZero-Qwen-7B(CLEVR)は視覚タスクで顕著に向上し、同時に4つのグラフ/OCRタスクでの平均低下はわずか0.2%でした。VisionZero-Qwen-7B(グラフ)は、すべてのグラフ/OCRベンチマークで向上し、視覚タスクでは平均でさらに1%増加しました。これは、Vision-Zeroの多能力戦略トレーニングが、従来の単一タスク訓練におけるクロス能力の負の転移問題を大幅に軽減することを示しています。

画像

示唆

Vision-Zeroは、自己対局が単一タスクから汎用タスクへと移行する可能性と巨大な潜在力を証明しました。オープンでスケーラブルな対局環境を構築することで、手動アノテーションへの依存から脱却し、データと知識のボトルネックを打破しました。これにより、特定のタスクトレーニングなしで、持続可能な能力の進化とクロスドメインの汎化を実現します。同時に、二段階交互最適化は、自己対局でよく見られる局所的な均衡問題を効果的に回避します。さらに、自己対局を通じて訓練されたVLMは、従来の単一タスク訓練におけるクロス能力の負の転移問題を効果的に軽減しました。

メインタグ:マルチモーダルAI

サブタグ:自己対局学習機械学習VLM大規模言語モデル


前の記事:NTUらがA-MemGuardを発表:AIメモリをロックし、ポイズニング攻撃の成功率を95%以上削減

次の記事:失敗するほど学習が速くなる!軌跡リライティング技術により、エージェントは失敗から完璧な経験を創造する!

短いURLをシェア