擴散模型正當紅,何愷明最新論文也與此相關。
研究的是如何將擴散模型和表徵學習聯繫起來——
為擴散模型加入「整理收納」功能,使其內部特徵更加有序,進而生成更自然逼真的圖片。
具體來說,論文提出了分散損失(Dispersive Loss)——一種即插即用的正規化方法。
核心思想是,在模型輸出的標準迴歸損失(如去噪)之外,引入一個目標函數,用於對模型的中間表示進行正規化。
這有點類似於對比學習中的排斥效應。但相較於對比學習,其獨特的優勢在於:
無需正樣本對,避免了對比學習中的複雜性;
具有高度通用性,可以直接應用於現有擴散模型,不需要修改模型結構;
計算開銷低,幾乎不增加額外的計算成本;
與原始損失相容,不干擾擴散模型原有的迴歸訓練目標,易於在現有框架中整合。
讓中間表示在隱藏空間中分散
一起來看論文細節。
何愷明和合作者Runqian Wang的發想有三:
擴散模型的局限性
擴散模型在生成複雜資料分佈方面表現出色,但其訓練通常依賴於基於迴歸的目標函數,缺乏對中間表示的明確正規化。
表徵學習的啟發
表徵學習(特別是對比學習)透過鼓勵相似樣本靠近、不同樣本分散,能有效學習通用表示。
對比學習在分類、檢測等任務中已經取得成功,但在生成任務中的潛力尚未被充分探索。
現有方法的不足
REPA(表徵對齊)等現有方法嘗試透過對齊生成模型的中間表示和預訓練表示來改進生成效果,但存在依賴外部資料、額外模型參數和預訓練過程的問題,代價高昂且複雜。
他們開始考慮,如何借鑒對比自監督學習,鼓勵生成模型的中間表示在隱藏空間中分散,從而提高模型的泛化能力和生成品質。
基於這樣的核心思想,他們設計了分散損失(Dispersive Loss):透過正規化模型的中間表示,增大中間表示的分散性,使其在隱藏空間中分佈得更加均勻。
與對比學習的不同之處在於,在對比學習中,正樣本對需要透過資料增強等方法手動定義,並透過損失函數將正樣本對拉近、負樣本對分開。
分散損失則不需要定義正樣本對,僅透過鼓勵負樣本對之間的分散性來實現正規化。
對於一批輸入樣本,分散損失的目標函數可以表示為:
其中,是單個樣本的標準擴散損失,
為分散損失項,即正規化項,λ為正規化強度,用於平衡擴散損失和分散損失的權重。
可以看到,分散損失的實現非常簡潔,不需要額外的樣本對或複雜操作,可以直接作用於模型的中間層表示。
並且不僅支持單層應用,也支持多層疊加——理論上可以在多個中間層同時應用分散損失,進一步增強不同層級特徵的分散性。
實驗結果
作者在ImageNet上,使用DiT和SiT作為基準模型,對不同規模的模型進行了廣泛測試。
結果顯示,分散損失在所有模型和設置中均提高了生成品質。例如,在SiT-B/2模型上,FID從36.49降到了32.45。
與REPA方法相比,分散損失不依賴預訓練模型或外部資料,生成品質則不遜色。
在SiT-XL/2 模型上,分散損失的FID為1.97,而REPA的FID為1.80。
另外,無論是多步擴散模型還是單步生成模型,都能基於分散損失得到明顯改進。
作者認為,不僅是在圖像生成任務上,分散損失在圖像識別等其他任務上也具有潛力。
論文地址:https://arxiv.org/abs/2506.09027v1
— 完 —
📪 量子位AI主題策劃正在徵集中!歡迎參與專題365行AI落地方案,一千零一個AI應用,或與我們分享你在尋找的AI產品,或發現的AI新動向。
💬 也歡迎你加入量子位每日AI交流群,一起來暢聊AI吧~
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點讚」「轉發」「小心心」
歡迎在評論區留下你的想法!