[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization

V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided
Direct Preference Optimization Yuxi Xie, Guanzhen Li, Xiao Xu, Min-Yen Kan (National University of Singapore) 慶應義塾⼤学杉浦孔明研究室 D1 和⽥唯我 Yuxi Xie et al., “V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization” in EMNLP (2024) EMNLP24

概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時，モデルは画像トークンを軽視している傾向 ü 提案⼿法:
Vision-Guided DPO • 拡散モデルのCFG(Classifier-Free Guidance) に基づきDPOを拡張 • i2i, LLM, CLIPScoreを⽤いてObject hallucinationを含むPreference Dataを収集 ü 結果 • POPE [Li+, EMNLP23], MMHal-Bench [Sun+, ACL24] 等にてhallucination低減

背景: Hallucination発⽣時モデルは画像トークンを軽視する傾向あり 3 o MLLMにおけるhallucinatonの問題 [Gunjal+, AAAI24] • InstructBLIP [Dai+,
NeurIPS23]の出⼒するキャプションのうち30%はhallucination → MLLMにおけるHallucinationの軽減は重要 o 問題 • 画像を⾒ない＝画像トークンの⼀部しか⾒ない場合がある拡散モデルにおけるCFG (Classifier-Free Guidance)に基づくV-DPOにより，画像トークンの軽視を防ぐ → hallucinationを低減できると期待される ← ⾔語のみの⼊⼒であっても分布が変わらず

前提: Direct Preference Optimization (DPO) 4 o Direct Preference Optimization
(DPO) [Rafailov+, NeurIPS23] o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝑍 𝑥 は分配関数 Policy Reference Reward

(DPO) [Rafailov+, NeurIPS23] o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝜋∗ 𝑦|𝑥 を仮に以下と定義

(DPO) o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝑍 𝑥 は 𝜋 に依存しないので，KLを最⼩化すれば良い → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩が最適解

(DPO) [Rafailov+, NeurIPS23] • Rewardについて変形すると 𝑍 𝑥 は 𝜋 に依存しないので，KLを最⼩化すれば良い → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩が最適解

(DPO) [Rafailov+, NeurIPS23] • Bradley-Terry でモデリングすれば正体不明の分配関数𝑍 𝑥 が消える

(DPO) [Rafailov+, NeurIPS23] • Bradley-Terry でモデリングすれば DPOではこれを計算するだけでOK

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 10 o 分類器ガイダンス [Dhariwal+, NeurIPS21] • ある条件 𝑐
で画像 𝑥 を⽣成する拡散モデルの学習にて，分類器で条件付けノイズあり画像 𝑥 に対して条件（e.g. テキスト）を分類するモデル DDPM [Ho+, NeurIPS20] → 分類器の学習が⾯倒等，様々な問題あり

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 11 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+,
NeurIPS WS21] • 分類器を使わず，ある条件 𝑐 で画像 𝑥 を⽣成する拡散モデルの学習分類器ガイダンスでの式に代⼊して Conditionalな⽣成 Unconditionalな⽣成分類器を使わずに conditional / unconditionalそれぞれの加重和で表現可

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 12 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+,
NeurIPS WS21] • 分類器を使わず，ある条件 𝑐 で画像 𝑥 を⽣成する拡散モデルの学習分類器ガイダンスでの式に代⼊して Conditionalな⽣成 Unconditionalな⽣成分類器を使わずに conditional / unconditionalそれぞれの荷重和で表現可 CFGはある条件 𝑐 による影響を強めることが知られている [Sanchez+, 23], [Kornblith+, ICCV23] → CFGによりMLLMにおける画像トークンの影響を強めることが期待される

提案: Vision-Guided DPO (V-DPO) 13 o Vision-Guided DPO (V-DPO) •
CFGをDPOへと組み込み，画像トークンを⼀部しか参照しない問題を低減 → hallucinationの発⽣頻度を減らす元のCFG 新たな⽬的関数 logで期待値取れば KLと同じ → 新しい⽬的関数をどう最適化するか？再掲: DPOは以下をlossとする

提案: Vision-Guided DPO (V-DPO) 14 o 新しい⽬的関数をどう最適化するか ← KLの定義 ←
前述のDPOと同じように分配関数を定義 ← 𝛾 = − " # + 1 に置換

提案: Vision-Guided DPO (V-DPO) 15 𝑍 𝑥 は 𝜋 に依存しないので，KLを最⼩化すれば良い
→ 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩が最適解 𝜋∗ 𝑦|𝑥 を仮に以下と定義↓ （再掲）DPO o 新しい⽬的関数をどう最適化するか CFG由来の項があっても同様に処理すれば良い

提案: Vision-Guided DPO (V-DPO) 16 o 新しい⽬的関数をどう最適化するか • 新たに分配関数 𝑊
を定義して → この項を無理やりKLとして計算してあげればDPOと同様に計算できそう

提案: Vision-Guided DPO (V-DPO) 17 o 新しい⽬的関数をどう最適化するかを計算すれば良く 𝑃 =
𝑄 →

提案: Vision-Guided DPO (V-DPO) 18 o 新しい⽬的関数をどう最適化するか o DPO同様，Bradley-Terry の元でrewardの差分を取れば良い
• 右辺に対して 𝑊 . 𝑣, 𝑥 が掛かっているので， 𝑍(𝑣, 𝑥) ← 𝑍 𝑣, 𝑥 /𝑊 . 𝑣, 𝑥 としてDPO同様計算すると（ 𝑊 を無視する雑な近似を取って）ただし，

提案: V-DPOを学習するためObject hallucinationを含むPreference Dataを収集 19 1. V-DPOにはobject hallucinationを含むPreference Dataが必要 2.
検出された物体を拡散モデル（inpainting）により描き換える 3. キャプションも同時にLLMによって修正 4. CLIPScore [Hessel+, EMNLP21]でフィルタリング → 修正済み画像ーキャプション間の⼀貫性をチェック 5. V-DPOによりMLLMをtuning CLIPScore [Hessel+, EMNLP21]

実験設定: 多様なベンチマークにおいて評価 20 o ベンチマーク • POPE [Li+, EMNLP23] /
AMBER [Wang+, 23] • Hallusion-Bench [Liu+, CVPR24] / MMHal-Bench [Sun+, ACL24] o ベースライン（すべてLLaVA-v1.5-7Bにおいて実験） • DPO [Rafailov+, NeurIPS23] • HA-DPO [Zhao+, 23] o データセット • Synthetic Augmented Data: 半⾃動的に収集（前⾴） • RLHF-V [Yu+, CVPR24]: ⼈⼿で収集 o 実験環境: A100 x 4台 POPE [Li+, EMNLP23] Hallusion-Bench [Liu+, CVPR24]

定量的結果: POPEやAMBERにおいて良好な結果 21 o POPE → SFT, DPO, HA-DPO を上回る
/ comparableな結果 (P: popular, A: adversarial) o AMBER → ⽣成タスクの多数において⼤きく上回る結果 (Cog: Cognition) （上）POPE /（下）AMBER

定性的結果: Hallucinationの低減を確認 22 • 定性的にも良好な結果 • ⼆番⽬の例 → 物体だけでなく属性についても適切に出⼒ •
三番⽬の例 → 具体的な視覚的⽬印を元に判断＝画像トークンを重要視所感: そこまで⽰唆的な⽣成例ではないと思う

Ablation Study: 𝛾 = 0.75, 0 が最良 (Synthetic-Data, RLHF-V) 23
o 𝛾 の性能への寄与を調査（CHAIR ↓ / F1 ↑） • Synthetic-Dataにおいては 𝛾 の影響を受けやすい • 𝛾 が極端に⼩さいと，reference model (SFT) との乖離が起こりやすい • 𝛾 = 0.75, 0 が最良 (Synthetic-Data, RLHF-V)

まとめ 25 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時，モデルは画像トークンを軽視している傾向 ü 提案⼿法:
Vision-Guided DPO • 拡散モデルのCFG(Classifier-Free Guidance) に基づきDPOを拡張 • i2i, LLM, CLIPScoreを⽤いてObject hallucinationを含むPreference Dataを収集 ü 結果 • POPE [Li+, EMNLP23], MMHal-Bench [Sun+, ACL24] 等にてhallucination低減

[Journal club] V-DPO: Mitigating Hallucination ...

[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided

概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時，モデルは画像トークンを軽視している傾向 ü 提案⼿法:

背景: Hallucination発⽣時モデルは画像トークンを軽視する傾向あり 3 o MLLMにおけるhallucinatonの問題 [Gunjal+, AAAI24] • InstructBLIP [Dai+,

前提: Direct Preference Optimization (DPO) 4 o Direct Preference Optimization

前提: Direct Preference Optimization (DPO) 5 o Direct Preference Optimization

前提: Direct Preference Optimization (DPO) 6 o Direct Preference Optimization

前提: Direct Preference Optimization (DPO) 7 o Direct Preference Optimization

前提: Direct Preference Optimization (DPO) 8 o Direct Preference Optimization

前提: Direct Preference Optimization (DPO) 9 o Direct Preference Optimization

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 10 o 分類器ガイダンス [Dhariwal+, NeurIPS21] • ある条件 𝑐

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 11 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+,

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 12 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+,

提案: Vision-Guided DPO (V-DPO) 13 o Vision-Guided DPO (V-DPO) •

提案: Vision-Guided DPO (V-DPO) 14 o 新しい⽬的関数をどう最適化するか ← KLの定義 ←

提案: Vision-Guided DPO (V-DPO) 15 𝑍 𝑥 は 𝜋 に依存しないので，KLを最⼩化すれば良い

提案: Vision-Guided DPO (V-DPO) 16 o 新しい⽬的関数をどう最適化するか • 新たに分配関数 𝑊

提案: Vision-Guided DPO (V-DPO) 17 o 新しい⽬的関数をどう最適化するかを計算すれば良く 𝑃 =

提案: Vision-Guided DPO (V-DPO) 18 o 新しい⽬的関数をどう最適化するか o DPO同様，Bradley-Terry の元でrewardの差分を取れば良い

提案: V-DPOを学習するためObject hallucinationを含むPreference Dataを収集 19 1. V-DPOにはobject hallucinationを含むPreference Dataが必要 2.

実験設定: 多様なベンチマークにおいて評価 20 o ベンチマーク • POPE [Li+, EMNLP23] /

定量的結果: POPEやAMBERにおいて良好な結果 21 o POPE → SFT, DPO, HA-DPO を上回る

定性的結果: Hallucinationの低減を確認 22 • 定性的にも良好な結果 • ⼆番⽬の例 → 物体だけでなく属性についても適切に出⼒ •

Ablation Study: 𝛾 = 0.75, 0 が最良 (Synthetic-Data, RLHF-V) 23

まとめ 25 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時，モデルは画像トークンを軽視している傾向 ü 提案⼿法: