OPA-DPO:マルチモーダル大規模モデルにおける幻覚問題の効率的な解決策

(この記事の読了時間:13分)

編集者より:視覚マルチモーダル大規模言語モデルの急速な発展において、幻覚問題は研究者たちの注目を集めてきました。モデルが入力画像と一致しない、あるいは虚偽の内容を生成することは、ユーザー体験に影響を与えるだけでなく、マルチモーダル技術の実際の応用を妨げています。これに対し、マイクロソフトアジア研究所と香港中文大学の共同研究チームは、直接選好最適化(DPO)に着手し、On-Policy Alignment (OPA)-DPOアルゴリズムを提案しました。これにより、訓練データと初期ポリシー(reference policy)の一貫性を確保することで、幻覚問題を効果的に解決できます。この成果は、コンピュータビジョン分野のトップカンファレンスCVPR 2025のOral論文に採択されました。

視覚マルチモーダル大規模言語モデルの分野では、入力画像と一致しない、あるいは虚偽の内容を生成する「幻覚」現象が、克服すべき核心的な課題となっています。シンプルで効果的な解決策として、直接選好最適化 (DPO) [1] がますます注目を集めています。研究者たちは、同じプロンプトと画像に対するモデルの異なる応答を比較し、幻覚の程度に基づいて直接選好データペアを構築し、DPO訓練に利用しています。

しかし、マイクロソフトアジア研究所の研究者たちは、既存の研究におけるデータ構築方法の違いが顕著な性能差を引き起こすことに気づきました。そこで、「DPOに基づいたマルチモーダル大規模モデルの幻覚問題解決」に関するアルゴリズムを包括的に分析し、その性能と限界をまとめました。同時に、理論的な観点から各アルゴリズムの性能差の根本原因を明らかにし、モデル性能を決定する最も重要な要素は「選好ペアを構築するために使用されるデータが、DPO開始前のポリシー(reference policy)と比較して同ポリシー(on-policy)であるか」であると指摘しました。

画像

DPO:幻覚問題の夜明け、それとも新たな挑戦?

研究者たちはこれまでの研究を3つのカテゴリに分類しました:

第一のカテゴリは幻覚注入型であり、HALVA [2] や POVID [3] のように、既存の画像とプロンプトの標準的な応答に人為的に幻覚的な断片を注入することで選好ペアを構築します。

第二のカテゴリは幻覚識別型であり、RLHF-V [4]、HA-DPO [5]、HSA-DPO [6] のように、まずモデルに画像とプロンプトに基づいて応答を生成させ、その後、専門家からのフィードバック(人間またはGPT-4/4v)を利用して幻覚を特定し修正することで、選好ペアを構築します。

第三のカテゴリは自己進化型であり、RLAIF-V[7] のように、モデルに同じ画像とプロンプトに対して複数の応答を生成させ、幻覚識別の能力がより高いメンターモデルがこれらの応答における幻覚の重症度を判断し順位付けすることで、選好ペアを構築します。

画像

図1:これまでの研究の3つのカテゴリ

実験結果に基づくと、これら3種類のアルゴリズムの性能は、「自己進化型 > 幻覚識別型 > 幻覚注入型」とまとめられます。

幻覚注入型の場合、幻覚は通常モデル自体から生じるものではないため、DPOトレーニングを行ってもモデルに大きな利益をもたらすことはめったにありません。自己進化型の場合、理論的には次元の呪いの問題により、モデルが自ら探索して完全に正しい応答を見つけることは非常に困難であるため、複数の応答に存在する頑固な幻覚は通常この方法では排除できません。

直感的に、幻覚識別型の手法は幻覚を解決する最も効率的な方法であるはずですが、なぜ実践ではこのタイプの手法が劣っていたのでしょうか?その背景にある理由を理解するため、研究者たちはDPOアルゴリズムの詳細から研究を開始しました。

最も一般的に使用されるRLHFアルゴリズムPPOの初期目標と同様に、DPOの初期目標も(π_θはモデルの現在のポリシー、π_refはモデルの初期ポリシー/参照ポリシー、xはプロンプト、mは画像、yは応答、r(x,y,m)はBradley-Terryモデルによって訓練された報酬関数):

画像

つまり、報酬を最大化すると同時に、モデルの現在のポリシーと初期ポリシー間のKLダイバージェンスを制約します。しかし、研究者たちはKLダイバージェンスの定義を再検討し、任意のプロンプトと画像 (x,m) が与えられたとき、π_θ(y|x,m)>0 となる応答 (y) が存在するが、π_ref(y|x,m)→0 となる場合、KLダイバージェンスは無限大に近づくことを発見しました。この特性は、目標関数 (1) から出発するいかなるアルゴリズムにとっても、元のポリシー (π_ref) からのサンプリング確率が極めて低い応答(強化学習の命名規則では、このようなデータは異方策(off-policy)データと呼ばれ、反対は同方策(on-policy)データと呼ばれます)はモデルによって学習される機会がないことを示しています。

画像

もしこれらの異方策(off-policy)の優先応答(preferred response)をDPO選好ペアの構築に無理に用いると、次の更新時に勾配がほぼ消失してしまいます。

DPO訓練の最適化目標を再確認しましょう:

画像

ここでy_wは優先応答(preferred response)、y_lは拒否された応答(rejected response)であり、その勾配は(σ(⋅)はシグモイド関数):

画像

訓練開始前はπ_θ=π_refなので、シグモイド関数の内部の値は0であるべきです。つまり、現在のポリシーは0.5βを係数としてy_wに対して最大対数尤度更新(max-loglikelihood update)を行います。しかし、この更新の後、logπ_ref(y_w∣x,m)π_θ(y_w∣x,m)は極大値に近づき(分子 > 0、分母は0に近づくため)、その結果σ(−r_w+r_l)→0となります。したがって、勾配は次の更新時にほぼ消失します。

幻覚識別型の方法を振り返ると、専門家によって変更された応答のほとんどは、元のモデルにとっては異方策(off-policy)であり、たとえこれらの変更がわずかであっても役に立たないため、これらの専門家のフィードバックがモデルに学習されることを期待することはできません。対照的に、自己進化型の手法は、学習効率が低いという潜在的な問題があるにもかかわらず、構築された選好ペアはすべてモデル自体から得られたものであり、すなわちすべて同方策(on-policy)であるため、最も良い結果をもたらします。

画像

OPA-DPO:常識を打ち破り、アラインメント戦略を再構築する

専門家の正確なフィードバックを活用しつつ、異方策(off-policy)に起因するKLダイバージェンス制約問題を完全に回避できる方法は存在するのでしょうか?

既存の手法の限界に対処するため、マイクロソフトアジア研究所は香港中文大学と共同で、シンプルかつ効率的なアルゴリズムであるOn-Policy Alignment (OPA)-DPOを提案しました。これは、専門家からの正確なフィードバックデータをDPO訓練の前にモデルポリシーと整合させるものです。わずか4.8kのデータを使用するだけで、OPA-DPOはSOTA(State-of-the-Art)性能を達成でき、これまでのSOTAアルゴリズムが16kのデータを必要としたのと比較して大幅な改善です。この成果は、コンピュータビジョン分野のトップ会議であるCVPR 2025のOral論文に選出されました。

Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key

論文リンク:

https://arxiv.org/abs/2501.09695

画像

図2:OPA-DPOの具体的な実装方法

OPA-DPOの具体的な実装方法は以下の通りです。まず、画像とプロンプトが与えられると、モデルは対応する応答を自動生成します。次に、専門家からのフィードバック(GPT-4vなど)を利用して生成内容をきめ細かく修正し、正しい応答部分は保持しつつ、存在する幻覚内容を訂正します。その後、データセット内の実際の応答と専門家が修正した応答をLoRA-SFTでファインチューニングし、新しいモデル(研究者たちはこれをOPAモデルと呼んでいます)を得ます。最後に、OPAモデルに基づいてDPO訓練を継続します。研究者たちはmDPOの設定を参照し、言語選好ペアの構築と同時に画像選好ペアおよびアンカーペアも構築しましたが、これらの要素はどれも重要であるものの、最終結果に最も大きな影響を与えたのはOPA操作でした。

画像

図3:OPA-DPOは4ステップでアラインメントを実現

研究者たちは、LLaVA-1.5-7Bおよび13Bモデルに基づいてファインチューニングされた様々なDPOベースのアルゴリズムを包括的に比較しました。OPA-DPOは、4.8kのデータを使用するだけで、複数の指標でSOTA(State-of-the-Art)効果を達成できます。

画像

表1:様々なRLAIF/RLHF強化LVLMアルゴリズムを公平に比較するため、研究者たちは複数のベンチマークで一様に貪欲サンプリング評価を使用し、公式の再現と論文結果を区別するために出典を明記し、各指標グループの最高成績を太字で示しました。

画像

OPA-DPOの真の実力

OPA操作の重要性とデータ量が最終結果に与える影響を検証するため、研究者たちは詳細なアブレーション実験を行いました。

画像

図4:訓練データ量とOPA操作がOPA-DPOに与える影響(アブレーション実験)

さらに、研究者たちは最近提案されたLLaVA-OneVisionを基盤モデルとして実験を行いました。観察されたところ、LLaVA-OneVisionの出力は詳細であるもののやや冗長で、深刻な幻覚現象を示すことがしばしばあります。このような状況下では、OPA-DPOの効果はさらに顕著であり、わずか2.4kのデータでの訓練でも幻覚指標の大幅な改善を実現しました。

画像

表2:LLaVA-OneVisionにおけるOPA-DPOの実験結果

研究者たちは、OPA-DPOで訓練されたモデルがやや控えめな戦略を示すことを発見しました。特に記述タスクでは、重要でない詳細を無視し、顕著で確実な観察のみを出力する傾向があります。

画像

図5:画像記述タスクにおけるOPA操作がDPO訓練モデルの出力に与える影響

それだけでなく、研究者たちは興味深い現象も観測しました。基盤モデルは、クエリ内の言語が正確であるとデフォルトで仮定する傾向があり、たとえそのテキスト部分に深刻な幻覚が存在しても、モデルはそれに従って画像を記述します。これは一種のテキスト慣性現象と理解できるかもしれません。しかし、OPA-DPOで訓練されたモデルは、クエリテキスト部分の幻覚を識別する能力を示しました。

画像

図6:誤った前提のクエリタスクにおいて、OPA-DPO訓練後のモデルがクエリ内の幻覚を識別する能力を示した

OPA-DPOの提案は、アルゴリズム性能を向上させただけでなく、マルチモーダルアラインメント手法の発展も推進しました。「専門家フィードバックによる同方策(on-policy)データ生成」というその理念は、現在のマルチモーダルアラインメント訓練における重要な突破口となっています。

参考文献:

[1] Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 2023, 36: 53728-53741.

[2] Zhou Y, Cui C, Rafailov R, et al. Aligning Modalities in Vision Large Language Models via Preference Fine-tuning. ICLR 2024 Workshop on Reliable and Responsible Foundation Models.

[3] Sarkar P, Ebrahimi S, Etemad A, et al. Data-augmented phrase-level alignment for mitigating object hallucination. arXiv preprint arXiv:2405.18654, 2024.

[4] Yu T, Yao Y, Zhang H, et al. RLHF-V: Towards trustworthy mllms via behavior alignment from fine-grained correctional human feedback. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 13807-13816.

[5] Zhao Z, Wang B, Ouyang L, et al. Beyond hallucinations: Enhancing lvlms through hallucination-aware direct preference optimization. arXiv preprint arXiv:2311.16839, 2023.

[6] Xiao W, Huang Z, Gan L, et al. Detecting and mitigating hallucination in large vision language models via fine-grained ai feedback. arXiv preprint arXiv:2404.14233, 2024. (AAAI 2025)

[7] Yu T, Zhang H, Yao Y, et al. Rlaif-v: Aligning mllms through open-source ai feedback for super gpt-4v trustworthiness. arXiv preprint arXiv:2405.17220, 2024. (CVPR 2025)

[8] Wang F, Zhou W, Huang J Y, et al. mDPO: Conditional Preference Optimization for Multimodal Large Language Models. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. 2024: 8078-8088.

マイクロソフトアジア研究所 人工知能・機械学習グループ(上海)ではインターンを募集しています。大規模モデル向けの強化学習にご興味のある方はぜひご応募ください!履歴書はxufluo@microsoft.comまでお送りください。

マイクロソフトアジア研究所の新刊『無界』が発売

集団的な難題に直面する時、思想の衝突と知恵の共鳴は特に重要になります。マイクロソフトアジア研究所が2年を費やして丹念に作り上げた書籍『無界——マイクロソフトの革新的研究の境地を透視する』は、まさにこの時代に捧げる探索の指針です。

周礼棟院長を含む十数名のトップレベルの研究者が本書の執筆に参加し、彼らは人工知能、コンピュータ科学、およびその学際分野における最新の進展を様々な角度から議論し、最先端の展望、見解、そして貴重な研究経験を共有しました。

本書はすでに、チューリング賞受賞者、アカデミー会員、有名大学のリーダー、それぞれの分野で高い評価を得ている学者、そしてマイクロソフトアジア研究所の著名なOBを含む十数名の世界トップレベルの学者から推薦を得ています。

現在、『無界——マイクロソフトの革新的研究の境地を透視する』は全プラットフォームで絶賛発売中!最初の読者の方々には、限定版のマイクロソフト50周年記念しおりが贈呈されます。しおりには著者の直筆サインがランダムに現れ、ブラインドボックスのようなサプライズをお楽しみいただけます!

今すぐ以下のリンクをクリックして、あなただけの読書旅を始めましょう!

こちらもご覧ください:

画像

画像

画像

メインタグ:人工知能

サブタグ:機械学習マルチモーダルAI直接選好最適化コンピュータビジョン大規模言語モデル


前の記事:AIが「自信」のみで推論を学習、浙江大学出身者がDeepSeekの長思考連鎖の出現を再現、強化学習は外部報酬信号を必要としない

次の記事:RL推論の進捗整理

短いURLをシェア