[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization

Slide 1

Slide 1 text

V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization Yuxi Xie, Guanzhen Li, Xiao Xu, Min-Yen Kan (National University of Singapore) 慶應義塾⼤学杉浦孔明研究室 D1 和⽥唯我 Yuxi Xie et al., “V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization” in EMNLP (2024) EMNLP24

Slide 2

Slide 2 text

概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時，モデルは画像トークンを軽視している傾向 ü 提案⼿法: Vision-Guided DPO • 拡散モデルのCFG(Classifier-Free Guidance) に基づきDPOを拡張 • i2i, LLM, CLIPScoreを⽤いてObject hallucinationを含むPreference Dataを収集 ü 結果 • POPE [Li+, EMNLP23], MMHal-Bench [Sun+, ACL24] 等にてhallucination低減

Slide 3

Slide 3 text

背景: Hallucination発⽣時モデルは画像トークンを軽視する傾向あり 3 o MLLMにおけるhallucinatonの問題 [Gunjal+, AAAI24] • InstructBLIP [Dai+, NeurIPS23]の出⼒するキャプションのうち30%はhallucination → MLLMにおけるHallucinationの軽減は重要 o 問題 • 画像を⾒ない＝画像トークンの⼀部しか⾒ない場合がある拡散モデルにおけるCFG (Classifier-Free Guidance)に基づくV-DPOにより，画像トークンの軽視を防ぐ → hallucinationを低減できると期待される ← ⾔語のみの⼊⼒であっても分布が変わらず

Slide 4

Slide 4 text

前提: Direct Preference Optimization (DPO) 4 o Direct Preference Optimization (DPO) [Rafailov+, NeurIPS23] o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝑍 𝑥 は分配関数 Policy Reference Reward

Slide 5

Slide 5 text

前提: Direct Preference Optimization (DPO) 5 o Direct Preference Optimization (DPO) [Rafailov+, NeurIPS23] o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝜋∗ 𝑦|𝑥 を仮に以下と定義

Slide 6

Slide 6 text

前提: Direct Preference Optimization (DPO) 6 o Direct Preference Optimization (DPO) o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝑍 𝑥 は 𝜋 に依存しないので，KLを最⼩化すれば良い → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩が最適解

Slide 7

Slide 7 text

前提: Direct Preference Optimization (DPO) 7 o Direct Preference Optimization (DPO) [Rafailov+, NeurIPS23] • Rewardについて変形すると 𝑍 𝑥 は 𝜋 に依存しないので，KLを最⼩化すれば良い → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩が最適解

Slide 8

Slide 8 text

前提: Direct Preference Optimization (DPO) 8 o Direct Preference Optimization (DPO) [Rafailov+, NeurIPS23] • Bradley-Terry でモデリングすれば正体不明の分配関数𝑍 𝑥 が消える

Slide 9

Slide 9 text

前提: Direct Preference Optimization (DPO) 9 o Direct Preference Optimization (DPO) [Rafailov+, NeurIPS23] • Bradley-Terry でモデリングすれば DPOではこれを計算するだけでOK

Slide 10

Slide 10 text

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 10 o 分類器ガイダンス [Dhariwal+, NeurIPS21] • ある条件 𝑐 で画像 𝑥 を⽣成する拡散モデルの学習にて，分類器で条件付けノイズあり画像 𝑥 に対して条件（e.g. テキスト）を分類するモデル DDPM [Ho+, NeurIPS20] → 分類器の学習が⾯倒等，様々な問題あり

Slide 11

Slide 11 text

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 11 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+, NeurIPS WS21] • 分類器を使わず，ある条件 𝑐 で画像 𝑥 を⽣成する拡散モデルの学習分類器ガイダンスでの式に代⼊して Conditionalな⽣成 Unconditionalな⽣成分類器を使わずに conditional / unconditionalそれぞれの加重和で表現可

Slide 12

Slide 12 text

前提: 分類器ガイダンスと分類器なしガイダンス（CFG） 12 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+, NeurIPS WS21] • 分類器を使わず，ある条件 𝑐 で画像 𝑥 を⽣成する拡散モデルの学習分類器ガイダンスでの式に代⼊して Conditionalな⽣成 Unconditionalな⽣成分類器を使わずに conditional / unconditionalそれぞれの荷重和で表現可 CFGはある条件 𝑐 による影響を強めることが知られている [Sanchez+, 23], [Kornblith+, ICCV23] → CFGによりMLLMにおける画像トークンの影響を強めることが期待される

Slide 13

Slide 13 text

提案: Vision-Guided DPO (V-DPO) 13 o Vision-Guided DPO (V-DPO) • CFGをDPOへと組み込み，画像トークンを⼀部しか参照しない問題を低減 → hallucinationの発⽣頻度を減らす元のCFG 新たな⽬的関数 logで期待値取れば KLと同じ → 新しい⽬的関数をどう最適化するか？再掲: DPOは以下をlossとする

Slide 14

Slide 14 text

提案: Vision-Guided DPO (V-DPO) 14 o 新しい⽬的関数をどう最適化するか ← KLの定義 ← 前述のDPOと同じように分配関数を定義 ← 𝛾 = − " # + 1 に置換

Slide 15

Slide 15 text

提案: Vision-Guided DPO (V-DPO) 15 𝑍 𝑥 は 𝜋 に依存しないので，KLを最⼩化すれば良い → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩が最適解 𝜋∗ 𝑦|𝑥 を仮に以下と定義↓ （再掲）DPO o 新しい⽬的関数をどう最適化するか CFG由来の項があっても同様に処理すれば良い

Slide 16

Slide 16 text

提案: Vision-Guided DPO (V-DPO) 16 o 新しい⽬的関数をどう最適化するか • 新たに分配関数 𝑊 を定義して → この項を無理やりKLとして計算してあげればDPOと同様に計算できそう

Slide 17

Slide 17 text

提案: Vision-Guided DPO (V-DPO) 17 o 新しい⽬的関数をどう最適化するかを計算すれば良く 𝑃 = 𝑄 →

Slide 18

Slide 18 text

提案: Vision-Guided DPO (V-DPO) 18 o 新しい⽬的関数をどう最適化するか o DPO同様，Bradley-Terry の元でrewardの差分を取れば良い • 右辺に対して 𝑊 . 𝑣, 𝑥 が掛かっているので， 𝑍(𝑣, 𝑥) ← 𝑍 𝑣, 𝑥 /𝑊 . 𝑣, 𝑥 としてDPO同様計算すると（ 𝑊 を無視する雑な近似を取って）ただし，

Slide 19

Slide 19 text

提案: V-DPOを学習するためObject hallucinationを含むPreference Dataを収集 19 1. V-DPOにはobject hallucinationを含むPreference Dataが必要 2. 検出された物体を拡散モデル（inpainting）により描き換える 3. キャプションも同時にLLMによって修正 4. CLIPScore [Hessel+, EMNLP21]でフィルタリング → 修正済み画像ーキャプション間の⼀貫性をチェック 5. V-DPOによりMLLMをtuning CLIPScore [Hessel+, EMNLP21]

Slide 20

Slide 20 text

実験設定: 多様なベンチマークにおいて評価 20 o ベンチマーク • POPE [Li+, EMNLP23] / AMBER [Wang+, 23] • Hallusion-Bench [Liu+, CVPR24] / MMHal-Bench [Sun+, ACL24] o ベースライン（すべてLLaVA-v1.5-7Bにおいて実験） • DPO [Rafailov+, NeurIPS23] • HA-DPO [Zhao+, 23] o データセット • Synthetic Augmented Data: 半⾃動的に収集（前⾴） • RLHF-V [Yu+, CVPR24]: ⼈⼿で収集 o 実験環境: A100 x 4台 POPE [Li+, EMNLP23] Hallusion-Bench [Liu+, CVPR24]

Slide 21

Slide 21 text

定量的結果: POPEやAMBERにおいて良好な結果 21 o POPE → SFT, DPO, HA-DPO を上回る / comparableな結果 (P: popular, A: adversarial) o AMBER → ⽣成タスクの多数において⼤きく上回る結果 (Cog: Cognition) （上）POPE /（下）AMBER

Slide 22

Slide 22 text

定性的結果: Hallucinationの低減を確認 22 • 定性的にも良好な結果 • ⼆番⽬の例 → 物体だけでなく属性についても適切に出⼒ • 三番⽬の例 → 具体的な視覚的⽬印を元に判断＝画像トークンを重要視所感: そこまで⽰唆的な⽣成例ではないと思う

Slide 23

Slide 23 text

Ablation Study: 𝛾 = 0.75, 0 が最良 (Synthetic-Data, RLHF-V) 23 o 𝛾 の性能への寄与を調査（CHAIR ↓ / F1 ↑） • Synthetic-Dataにおいては 𝛾 の影響を受けやすい • 𝛾 が極端に⼩さいと，reference model (SFT) との乖離が起こりやすい • 𝛾 = 0.75, 0 が最良 (Synthetic-Data, RLHF-V)

Slide 24

Slide 24 text

まとめ 25 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時，モデルは画像トークンを軽視している傾向 ü 提案⼿法: Vision-Guided DPO • 拡散モデルのCFG(Classifier-Free Guidance) に基づきDPOを拡張 • i2i, LLM, CLIPScoreを⽤いてObject hallucinationを含むPreference Dataを収集 ü 結果 • POPE [Li+, EMNLP23], MMHal-Bench [Sun+, ACL24] 等にてhallucination低減