Gemini Diffusionよりも万能!初のマルチモーダル拡散型大規模言語モデルMMaDAが発表、強力な推論と高い制御性を両立

画像

近年、大規模言語モデル(LLM)はマルチモーダルタスクで強力な可能性を示していますが、既存のモデルはアーキテクチャの統一性と後学習(Post-Training)手法において依然として大きな課題に直面しています。

従来のマルチモーダル大規模モデルの多くは自己回帰(Autoregressive)アーキテクチャに基づいており、テキストと画像生成プロセスの分離により、クロスモーダルな協調効率が低下し、後学習段階で複雑な推論タスクを効果的に最適化することが困難でした。

DeepMindが最近発表したGemini Diffusionは、初めて拡散モデル(Diffusion Model)をテキストモデリングの基盤として採用し、汎用推論および生成タスクで画期的なパフォーマンスを達成し、テキストモデリング分野における拡散モデルの可能性を検証しました。

このような背景のもと、プリンストン大学とByteDance Seed、北京大学、清華大学などの研究チームは協力してMMaDA(Multimodal Large Diffusion Language Models)を提案しました。拡散アーキテクチャを体系的に探求する初のマルチモーダル基盤モデルとして、MMaDAは3つの核心技術的ブレークスルーを通じて、テキスト推論、マルチモーダル理解、および画像生成の統一モデリングを成功裏に実現しました。

画像

論文タイトル:MMaDA: Multimodal Large Diffusion Language Models

論文リンク:https://arxiv.org/abs/2505.15809

コードリポジトリ:https://github.com/Gen-Verse/MMaDA

モデルアドレス:https://huggingface.co/Gen-Verse/MMaDA-8B-Base

デモアドレス:https://huggingface.co/spaces/Gen-Verse/MMaDA

チームはすでに学習、推論、MMaDA-8B-Baseウェイト、およびオンラインデモをオープンソース化しており、今後MMaDA-8B-MixCoTおよびMMaDA-8B-Maxウェイトもオープンソース化する予定です。

性能とタスク間シナジー

画像

MMaDAは3つの主要タスクでSOTA性能を達成しています:

テキスト推論:MMLU精度68.4%で、LLaMA-3-8B、Qwen2-7B、LLaDA-8Bを上回る。現在、すべての統一理解・生成モデルは強力なテキスト推論をサポートしていませんが、MMaDAはマルチモーダルタスクで初めてテキストのモデリング能力を維持し、真に統一された基盤モデルを実現しました。

マルチモーダル理解:POPE(86.1対85.9)、VQAv2(76.7対78.5)などのベンチマークで、LLaVA、Qwen-VLなどの専用モデルと同等。

画像生成:CLIP Scoreは32.46に達し、SDXL、Janusなどのモデルと比較して大幅に向上し、文化知識生成タスク(WISE)では精度が56%向上しました。画像生成タスクにおいて、世界知識(World Knowledge)を含むテキストから画像への生成タスクにおける統一マルチモーダル大規模モデルの性能を初めて比較しました。下図の通り:

画像

タスク間シナジー効果

下図に示すように、混合学習段階(130K~200Kステップ)では、テキスト推論と画像生成の指標が同時に向上しました。例えば、モデルは複雑な幾何学的問題を解決する能力と、生成された画像のセマンティックな正確性を大幅に向上させ、拡散モデルを統一アーキテクチャとして使用することによる多タスクシナジー効果を証明しました。

画像

タスク汎化

拡散モデルの顕著な利点の一つは、追加のファインチューニングなしでインペインティング(Inpainting)および外挿(Extrapolation)タスクに汎化できることです。MMaDAは3種類のクロスモーダル補完タスクをサポートしています:

テキスト補完:テキストシーケンス内の欠落した部分を予測する。

視覚質問応答補完:不完全な画像とテキストの入力に基づいて完全な回答を生成する。

画像補完:局所的な視覚的ヒントに基づいて完全な画像を再構築する。

画像

これらの事例は、統一された拡散アーキテクチャが複雑な生成および推論タスクにおいて持つ柔軟性と汎化能力を十分に示しています。

主要技術解析

トレーニングとテストのフレームワークは以下の通りです:

画像

統一拡散アーキテクチャ(Unified Diffusion Architecture)

MMaDAの核心的なアーキテクチャのブレークスルーは、テキストと画像の生成プロセスを拡散フレームワークに統一した点にあります:

データ表現:テキストにはLLaMAのTokenizerを使用し、画像にはMAGVIT-v2のTokenizerを採用し、512×512の画像を1024個の離散Tokenに変換します。

拡散目標:統一されたマスク予測損失関数を定義し、ランダムなマスクを通じてテキストと画像のセマンティックリカバリ能力を同期的に最適化します。例えば、事前学習段階では、モデルは部分的にマスクされたTokenシーケンスに基づいて欠落した内容を予測する必要があり、入力がテキスト段落であろうと画像ブロックであろうと関係ありません。

画像

この設計により、従来のハイブリッドアーキテクチャ(例:AR+Diffusion)の複雑さが解消され、モデルが基層でクロスモーダル情報インタラクションを実現できるようになりました。

混合長連鎖思考ファインチューニング(Mixed Long-CoT Finetuning)

複雑なタスクにおけるコールドスタート問題を解決するため、MMaDAはクロスモーダル混合CoTのファインチューニング戦略を提案しています:

統一推論フォーマット:特殊なタグ構造 <think>推論過程</think> を定義し、モデルが回答を生成する前にクロスモーダルな推論ステップを出力することを強制します。例えば、幾何学的問題を処理する際、モデルはまず図形関係を解析してから数値計算を行う必要があります。

データ拡張:LLM/VLMを利用して高品質な推論軌跡を生成し、バリデーターを通じて論理的に厳密なサンプルをフィルタリングします。テキストの数学的推論能力の向上は、画像生成の事実整合性を直接改善することができます(例:「北極最大の陸生肉食動物——ホッキョクグマ」を正確に生成するなど)。

統一戦略勾配最適化(UniGRPOアルゴリズム)

拡散モデルの強化学習における三大課題、すなわち局所マスク依存性、マスク比率感度、および非自己回帰特性に対処するため、MMaDAは革新的な解決策を提案しています:

構造化ノイズ戦略:回答部分のマスク比率をランダムにサンプリング(例:30%~70%)し、質問部分は完全なまま保持します。この設計は多段階デノイズプロセスをシミュレートし、以前の方法(例:d1)の完全マスクによる単一ステップ予測のバイアスを回避します。

画像

多様な報酬モデリング:異なるタスク向けに複合報酬関数を設計します。例えば画像生成では、CLIP Rewardはテキストと画像の整合性を測定し、Image Rewardは人間の美的嗜好を反映し、両者は0.1の係数で加重融合されます。

画像

下図に示すように、UniGRPOはGSM8Kトレーニングにおいて報酬値を安定して上昇させ、ベースラインメソッドと比較して収束速度を40%向上させました。これは、UniGRPOが拡散モデルの多段階生成特性に完全に適応しているおかげです。

画像

主な著者紹介

楊霊(Yang Ling):プリンストン大学研究員、北京大学博士。研究分野は大規模言語モデル、拡散モデル、強化学習。

田野(Tian Ye):北京大学智能学院博士課程学生。研究分野は拡散モデル、統一モデル、強化学習。

沈科(Shen Ke):ByteDance Seed大規模モデルチームのAI研究員。研究分野は大規模言語モデルの事前学習と統一学習パラダイム。

童雲海(Tong Yunhai):北京大学智能学院教授。研究分野はマルチモーダル大規模モデル、画像・動画の生成と編集。

王夢迪(Wang Mengdi):プリンストン大学電子・コンピュータ工学部終身教授。プリンストン大学「AI for Accelerated Invention」センターの創設者であり初代ディレクターを務める。研究分野は強化学習、制御可能大規模モデル、最適化学習理論、AI for Scienceなど多岐にわたる。

画像

© THE END

転載は本公式アカウントに連絡し、許諾を得てください。

投稿または取材の依頼:liyazhou@jiqizhixin.com

メインタグ:人工知能

サブタグ:機械学習拡散モデルマルチモーダルAI大規模言語モデル


前の記事:OpenAIが大きく動く!コアAPIがMCPをサポート、一夜にしてエージェント開発を変革

次の記事:Gemini Diffusion:1500トークン/秒、稲妻のような速さ!

短いURLをシェア