OPA-DPO:多模態大型模型幻覺問題的高效解決方案

(本文閱讀時間:13分鐘)

編者按:在視覺多模態大型語言模型的快速發展中,幻覺問題一直是研究者們關注的焦點。模型生成與輸入圖像不一致甚至虛假的內容,不僅影響使用者體驗,也阻礙了多模態技術在實際場景中的落地。對此,微軟亞洲研究院和香港中文大學的聯合研究團隊從直接偏好最佳化(DPO)入手,提出了 On-Policy Alignment (OPA)-DPO 演算法,可透過確保訓練資料與初始策略(reference policy)的一致性,有效解決幻覺問題。該成果已獲選電腦視覺領域頂會 CVPR 2025 的 Oral 論文。

在視覺多模態大型語言模型領域,生成與輸入圖像不一致甚至還有虛假內容的「幻覺」現象,是一個亟待攻克的核心難題。作為一種簡單有效的解決方案,直接偏好最佳化 (DPO) [1] 正在引起越來越多的關注。研究者們透過比較模型在相同提示詞和圖像下的不同回應,根據幻覺程度直接建構偏好資料對,用於 DPO 訓練。

然而,微軟亞洲研究院的研究人員們注意到,現有研究中不同的資料建構方法會導致顯著的效能差異。因此,他們對「基於 DPO 解決多模態大型模型幻覺問題」的演算法進行了全面分析,總結了它們的表現及局限性,同時從理論角度揭示了各演算法效能差異背後的根本原因,並指出決定模型效能的最關鍵因素是「用於建構偏好對的資料,相較於 DPO 開始前的策略(reference policy)是否為同策略(on-policy)」。

圖片

DPO:幻覺問題的曙光,還是新的挑戰?

研究人員們將此前的研究工作分為三類:

第一類是幻覺注入類,如 HALVA [2]和 POVID [3],透過在已有圖像和提示的標準回應中人為注入幻覺片段來建構偏好對;

第二類是幻覺識別類,如 RLHF-V [4]、HA-DPO [5]和 HSA-DPO [6],先讓模型根據圖像和提示自行生成回應,然後利用專家回饋(人類或 GPT-4/4v)來識別和修改其中的幻覺,從而建構偏好對;

第三類是自我進化類,如 RLAIF-V[7],讓模型針對同一圖像和提示生成多個回應,並由一個在幻覺識別方面能力更強的導師模型對這些回應中的幻覺嚴重程度進行判斷和排序,以此建構偏好對。

圖片

圖1:三類此前的研究工作

根據實驗結果,這三類演算法的效能總結為:自我進化類 > 幻覺識別類 > 幻覺注入類。

對於幻覺注入類,幻覺通常並不來自模型本身,因此透過 DPO 訓練往往不能給模型帶來很大增益。對於自我進化類,理論上由於維度災難問題,讓模型自行探索並找到完全正確的回覆是十分困難的,所以那些存在於多個回覆中的頑固幻覺通常無法透過這種方法消除。

直覺上,幻覺識別類的方法應該是最高效的解決幻覺的方案,那為什麼在實踐中這類方法卻敗下陣來?為了了解背後的原因,研究人員們從 DPO 演算法的細節入手進行研究。

與最常用的 RLHF 演算法 PPO 的初始目標相同,DPO 的初始目標也是(π_θ 是模型的目前策略,π_ref 是模型的初始策略/參考策略,x 為提示詞,m 為圖像,y 為回應,r(x,y,m) 是透過 Bradley-Terry model 訓練得到的獎勵函數):

圖片

即在最大化獎勵的同時,約束模型目前策略與模型初始策略之間的 KL 散度。然而,研究人員們重新審視 KL 散度的定義發現,給定任何一個提示詞和圖像 (x,m),若存在一個回應 (y) 使得 π_θ(y|x,m)>0,但 π_ref(y|x,m)→0,此時 KL 散度會趨於無限大。這個性質說明——對於任何從目標函數 (1) 出發的演算法,那些相對原始策略 (π_ref) 取樣機率極低的回應(根據強化學習的命名規範,這種資料被稱為異策略(off-policy)資料,相反則為同策略(on-policy)資料)將沒有任何機會被模型學會。

圖片

如果非要將這些異策略(off-policy)的優選回應(preferred response)拿來建構 DPO 偏好對,會導致梯度在下一次更新時幾乎消失。

重溫 DPO 訓練的最佳化目標:

圖片

其中 y_w 是優選回應(preferred response),y_l 是被拒回應(rejected response),其梯度可表示為(σ(⋅) 是 sigmoid 函數):

圖片

訓練開始前 π_θ=π_ref,所以 sigmoid 函數內部的值應當為0,即目前策略會以 0.5β 為係數對 y_w 進行最大對數似然更新(max-loglikelihood update)。但是在這一步更新過後,logπ_ref(y_w∣x,m)π_θ(y_w∣x,m) 將會趨近於極大值(因為分子 > 0,而分母趨近於0),從而導致 σ(−r_w+r_l)→0。因此,梯度會在下一次更新時幾乎消失。

回顧幻覺識別類的方法,專家改動後的回應,大部分對於原模型來說都是異策略(off-policy)的,即使這些改動再微小也無濟於事,所以根本無法指望這些專家回饋能被模型學會。相對應地,自我進化類方法即使存在學習效率不高的潛在問題,但是它建構的偏好對都來自模型本身,即全是同策略(on-policy)的,因此效果最好。

圖片

OPA-DPO:打破常規,重塑對齊策略

是否存在一種方法既能夠利用專家的精確回饋,又能完全避免異策略(off-policy)導致的 KL 散度約束問題?

針對現有方法的局限性,微軟亞洲研究院聯合香港中文大學提出了一種簡單而高效的演算法 On-Policy Alignment(OPA)-DPO,將專家的精確回饋資料在 DPO 訓練前與模型策略對齊。在僅使用4.8k資料的情況下,OPA-DPO 可以實現目前 SOTA 的效能,而之前的 SOTA 演算法需要16k資料。該成果已獲選電腦視覺領域頂會 CVPR 2025 的 Oral 論文。

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

論文連結:

https://arxiv.org/abs/2501.09695

圖片

圖2:OPA-DPO 的具體實現方法

OPA-DPO 的具體實現方法如下:首先,給定圖像和提示,讓模型自行生成對應的回應;接著,利用專家回饋(如 GPT-4v)對生成內容進行細粒度修改,保留正確的回應部分,同時糾正其中存在的幻覺內容;然後,將資料集中的真實回應與專家修改後的回應進行 LoRA-SFT 微調,得到一個新的模型(研究人員們將其稱為 OPA 模型);最後,在 OPA 模型的基础上,進行後續的 DPO 訓練,其中研究人員們參考了 mDPO 的設定,在建構語言偏好對的同時也建構了圖像偏好對以及錨點對,儘管這些元素都很重要,但對最終結果影響最大的還是 OPA 操作。

圖片

圖3:OPA-DPO 透過四步實現對齊

研究人員們綜合比較了基於 LLaVA-1.5-7B 和 13B 模型微調的各種 DPO-based 的演算法,OPA-DPO 在使用 4.8k 資料的情況下可在多個指標上實現 SOTA 效果。

圖片

表1:為公平比較各類 RLAIF/RLHF 增強 LVLM 的演算法,研究人員們在多個基準上統一使用了貪婪取樣評估,標註了來源以區分官方復現與論文結果,並對每組指標中的最佳成績加粗標示。

圖片

OPA-DPO的真正實力

為了驗證 OPA 操作的重要性以及資料量對最終效果的影響,研究人員們進行了細緻的消融實驗。

圖片

圖4:訓練資料量和 OPA 操作對 OPA-DPO 的影響(消融實驗)

此外,研究人員們還使用了最近提出的 LLaVA-OneVision 作為基座模型進行實驗。據觀察,LLaVA-OneVision 輸出的內容細緻但略顯冗餘,往往會出現嚴重的幻覺現象,在這種情況下 OPA-DPO 的效果更加顯著,僅僅透過2.4k資料的訓練就可以實現幻覺指標上的顯著提升。

圖片

表2:OPA-DPO 在 LLaVA-OneVision 上的實驗結果

研究人員們發現,使用 OPA-DPO 訓練過的模型會呈現出一種略顯保守的策略,尤其是在描述任務中,它通常只輸出顯著並且確定的觀測,而忽略一些不重要的細節。

圖片

圖5:圖像描述任務下 OPA 操作對 DPO 訓練模型輸出的影響

不僅如此,研究人員們還觀測到一個有趣的現象:基座模型往往預設 query 中的語言是準確無誤的,即使這部分文字存在嚴重幻覺,模型也會順著其描述圖片,這或許可以理解為一種文字慣性現象。而透過 OPA-DPO 訓練的模型則展現出了甄別 query 文字部分幻覺的能力。

圖片

圖6:錯誤前提問詢任務下,OPA-DPO 訓練後的模型出現甄別 query 內幻覺的能力

OPA-DPO 的提出不僅提升了演算法效能,更推動了多模態對齊方法的發展。其「以專家回饋生成同策略(on-policy)資料」的理念,已成為目前多模態對齊訓練中的重要突破口。

參考文獻:

[1] Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 2023, 36: 53728-53741.

[2] Zhou Y, Cui C, Rafailov R, et al. Aligning Modalities in Vision Large Language Models via Preference Fine-tuning. ICLR 2024 Workshop on Reliable and Responsible Foundation Models.

[3] Sarkar P, Ebrahimi S, Etemad A, et al. Data-augmented phrase-level alignment for mitigating object hallucination. arXiv preprint arXiv:2405.18654, 2024.

[4] Yu T, Yao Y, Zhang H, et al. RLHF-V: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13807-13816.

[5] Zhao Z, Wang B, Ouyang L, et al. Beyond hallucinations: Enhancing lvlms through hallucination-aware direct preference optimization. arXiv preprint arXiv:2311.16839, 2023.

[6] Xiao W, Huang Z, Gan L, et al. Detecting and mitigating hallucination in large vision language models via fine-grained ai feedback. arXiv preprint arXiv:2404.14233, 2024. (AAAI 2025)

[7] Yu T, Zhang H, Yao Y, et al. Rlaif-v: Aligning mllms through open-source ai feedback for super gpt-4v trustworthiness. arXiv preprint arXiv:2405.17220, 2024. (CVPR 2025)

[8] Wang F, Zhou W, Huang J Y, et al. mDPO: Conditional Preference Optimization for Multimodal Large Language Models. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024: 8078-8088.

微軟亞洲研究院人工智慧與機器學習組(上海)正在招募實習生,歡迎對 RL for Large Models 感興趣的同學加入我們!履歷請寄送至:xufluo@microsoft.com

微軟亞洲研究院新書《無界》上市

當面對集體性的難題時,思想的碰撞與智慧的共鳴顯得尤為重要。微軟亞洲研究院歷時兩年打磨的《無界——透視微軟創新研究之境》一書,正是獻給這個時代的探索指南。

包括周禮棟院長在內的十餘位頂尖科研人員參與了本書的編寫工作,他們從不同角度探討了人工智慧、電腦科學及其交叉領域的最新進展,分享了前沿的展望、觀點以及寶貴的科研經驗。

本書已獲得十餘位全球頂尖學者的推薦,其中包括圖靈獎得主、院士、知名高校領導、在各自領域享有盛譽的學者,以及微軟亞洲研究院的傑出院友。

現在,《無界——透視微軟創新研究之境》已全平台火熱開售!首批讀者將獲得限量版微軟50週年書籤,書籤上的文章作者親筆簽名將隨機呈現,盲盒式驚喜等你開啟!

立即點擊下方連結,開啟你的專屬閱讀之旅!

你或許還想看:

圖片

圖片

圖片

主標籤:人工智慧

次標籤:機器學習多模態AI直接偏好最佳化電腦視覺大型語言模型


上一篇:AI僅憑「自信」學會推理,浙大校友復刻DeepSeek長思維鏈湧現,強化學習無需外部獎勵訊號

下一篇:整理RL推理的進展

分享短網址