比Gemini Diffusion更全能!首個多模態擴散大語言模型MMaDA發布,同時實現強推理與高可控性

圖片

近年來,大型語言模型(LLM)在多模態任務中展現出強大潛力,但現有模型在架構統一性與後訓練(Post-Training)方法上仍面臨顯著挑戰。

傳統多模態大模型多基於自迴歸(Autoregressive)架構,其文本與圖像生成過程的分離導致跨模態協同效率低下,且在後訓練階段難以有效優化複雜推理任務。

DeepMind 近期推出的 Gemini Diffusion 首次將擴散模型(Diffusion Model)作為文本建模基座,在通用推理與生成任務中取得突破性表現,驗證了擴散模型在文本建模領域的潛力。

在此背景下,普林斯頓大學與字節 Seed、北大、清華等研究團隊合作提出了 MMaDA(Multimodal Large Diffusion Language Models),作為首個系統性探索擴散架構的多模態基礎模型,MMaDA 透過三項核心技術突破,成功實現了文本推理、多模態理解與圖像生成的統一建模。

圖片

論文標題:MMaDA: Multimodal Large Diffusion Language Models

論文連結:https://arxiv.org/abs/2505.15809

程式碼倉庫:https://github.com/Gen-Verse/MMaDA

模型位址:https://huggingface.co/Gen-Verse/MMaDA-8B-Base

Demo 位址:https://huggingface.co/spaces/Gen-Verse/MMaDA

團隊已經開源訓練、推理、MMaDA-8B-Base 權重和線上 Demo,後續還將開源 MMaDA-8B-MixCoT 和 MMaDA-8B-Max 權重。

性能表現與跨任務協同

圖片

MMaDA 在三大任務中實現 SOTA 性能:

文本推理:MMLU 準確率 68.4%,超越 LLaMA-3-8B、Qwen2-7B、LLaDA-8B;目前所有的統一理解與生成模型都不支援文本的強推理,MMaDA 首次在多模態任務中保持了文本的建模能力,實現真正意義上的統一基座模型。

多模態理解:在 POPE(86.1 vs 85.9)、VQAv2(76.7 vs 78.5)等基準上與 LLaVA、Qwen-VL 等專用模型持平;

圖像生成:CLIP Score 達 32.46,較 SDXL、Janus 等模型提升顯著,在文化知識生成任務(WISE)中準確率提升 56%。圖像生成任務裡,首次對比了統一多模態大模型在含有世界知識(World Knowledge)的文生圖任務上的表現,如下圖所示:

圖片

跨任務協同效應

如下圖所示,在混合訓練階段(130K-200K 步),文本推理與圖像生成指標同步上升。例如,模型在解決複雜幾何問題和生成圖像的語義準確性上顯著提高,證明了以擴散模型作為統一架構的多任務協同效應。

圖片

任務泛化

擴散模型的一個顯著優勢在於其無需額外微調即可泛化到補全(Inpainting)與外推(Extrapolation)任務上。MMaDA 支援三類跨模態的補全任務:

文本補全:預測文本序列中的缺失片段。

視覺問答補全:基於不完整圖文輸入生成完整答案。

圖像補全:根據局部視覺提示重建完整圖像。

圖片

這些案例充分展現了統一擴散架構在複雜生成與推理任務中的靈活性與泛化能力。

關鍵技術解析

訓練與測試框架如下:

圖片

統一擴散架構(Unified Diffusion Architecture)

MMaDA 的核心架構突破在於將文本與圖像的生成過程統一到擴散框架中:

數據表徵:文本使用 LLaMA 的 Tokenizer,圖像採用 MAGVIT-v2 的 Tokenizer,將 512×512 圖像轉化為 1024 個離散 Token;

擴散目標:定義統一掩碼預測損失函數,透過隨機掩碼同步優化文本與圖像的語義恢復能力。例如,在預訓練階段,模型需根據部分掩碼的 Token 序列預測缺失內容,無論輸入是文本段落還是圖像塊。

圖片

這種設計消除了傳統混合架構(如 AR+Diffusion)的複雜性,使模型在底層實現跨模態資訊交互。

混合長鏈思維微調(Mixed Long-CoT Finetuning)

為解決複雜任務中的冷啟動問題,MMaDA 提出跨模態混合 CoT 的微調策略:

統一推理格式:定義特殊標記結構 <think>推理過程</think>,強制模型在生成答案前輸出跨模態推理步驟。例如,在處理幾何問題時,模型需先解析圖形關係,再進行數值計算;

數據增強:利用 LLM/VLM 生成高品質推理軌跡,並透過驗證器篩選邏輯嚴謹的樣本。文本數學推理能力的提升可直接改善圖像生成的事實一致性(如正確生成「北極最大陸生食肉動物——北極熊」)。

統一策略梯度優化(UniGRPO 演算法)

針對擴散模型強化學習的三大難點——局部掩碼依賴、掩碼比例敏感性與非自迴歸特性,MMaDA 提出創新解決方案:

結構化噪聲策略:對答案部分隨機採樣掩碼比例(如 30%-70%),保留問題部分完整。這種設計模擬多步去噪過程,避免之前方法(如 d1)的全掩碼導致的單步預測偏差;

圖片

多樣化獎勵建模:針對不同任務設計複合獎勵函數。例如在圖像生成中,CLIP Reward 衡量圖文對齊度,Image Reward 反映人類審美偏好,二者以 0.1 係數加權融合。

圖片

如下圖所示,UniGRPO 在 GSM8K 訓練中使獎勵值穩定上升,相較基線方法收斂速度提升 40%。這得益於 UniGRPO 對擴散模型多步生成特性的充分適配。

圖片

主要作者介紹

楊靈:普林斯頓大學 Research Fellow,北京大學博士,研究方向為大語言模型、擴散模型和強化學習。

田野:北京大學智能學院博士生,研究方向為擴散模型、統一模型及強化學習。

沈科:字節跳動 Seed 大模型團隊的 AI 研究員,研究方向為大語言模型預訓練和統一學習範式。

童雲海:北京大學智能學院教授,研究領域涵蓋多模態大模型、圖像/影片的生成與編輯。

王夢迪:現任普林斯頓大學電子與計算機工程系終身教授,並創立並擔任普林斯頓大學「AI for Accelerated Invention」中心的首任主任。她的研究領域涵蓋強化學習、可控大模型、優化學習理論以及 AI for Science 等多個方向。

圖片

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:liyazhou@jiqizhixin.com

主標籤:人工智慧

次標籤:機器學習擴散模型多模態大語言模型


上一篇:OpenAI放大招!核心API支援MCP,一夜改變智能體開發

下一篇:Gemini Diffusion:1500 token/秒,快如閃電!

分享短網址