Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] V-DPO: Mitigating Hallucination ...

[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided

    Direct Preference Optimization Yuxi Xie, Guanzhen Li, Xiao Xu, Min-Yen Kan (National University of Singapore) 慶應義塾⼤学 杉浦孔明研究室 D1 和⽥唯我 Yuxi Xie et al., “V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization” in EMNLP (2024) EMNLP24
  2. 概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時,モデルは画像トークンを軽視している傾向 ü 提案⼿法:

    Vision-Guided DPO • 拡散モデルのCFG(Classifier-Free Guidance) に基づきDPOを拡張 • i2i, LLM, CLIPScoreを⽤いてObject hallucinationを含むPreference Dataを収集 ü 結果 • POPE [Li+, EMNLP23], MMHal-Bench [Sun+, ACL24] 等にてhallucination低減
  3. 背景: Hallucination発⽣時モデルは画像トークンを軽視する傾向あり 3 o MLLMにおけるhallucinatonの問題 [Gunjal+, AAAI24] • InstructBLIP [Dai+,

    NeurIPS23]の出⼒するキャプションのうち30%はhallucination → MLLMにおけるHallucinationの軽減は重要 o 問題 • 画像を⾒ない=画像トークンの⼀部しか⾒ない場合がある 拡散モデルにおけるCFG (Classifier-Free Guidance)に 基づくV-DPOにより,画像トークンの軽視を防ぐ → hallucinationを低減できると期待される ← ⾔語のみの⼊⼒であっても分布が変わらず
  4. 前提: Direct Preference Optimization (DPO) 4 o Direct Preference Optimization

    (DPO) [Rafailov+, NeurIPS23] o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝑍 𝑥 は分配関数 Policy Reference Reward
  5. 前提: Direct Preference Optimization (DPO) 5 o Direct Preference Optimization

    (DPO) [Rafailov+, NeurIPS23] o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝜋∗ 𝑦|𝑥 を仮に以下と定義
  6. 前提: Direct Preference Optimization (DPO) 6 o Direct Preference Optimization

    (DPO) o 上記⽬的関数の最適解 𝜋∗ は解析的に求まる 𝑍 𝑥 は 𝜋 に依存しないので,KLを最⼩化すれば良い → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩ が最適解
  7. 前提: Direct Preference Optimization (DPO) 7 o Direct Preference Optimization

    (DPO) [Rafailov+, NeurIPS23] • Rewardについて変形すると 𝑍 𝑥 は 𝜋 に依存しないので,KLを最⼩化すれば良い → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩ が最適解
  8. 前提: Direct Preference Optimization (DPO) 8 o Direct Preference Optimization

    (DPO) [Rafailov+, NeurIPS23] • Bradley-Terry でモデリングすれば 正体不明の分配関数𝑍 𝑥 が消える
  9. 前提: Direct Preference Optimization (DPO) 9 o Direct Preference Optimization

    (DPO) [Rafailov+, NeurIPS23] • Bradley-Terry でモデリングすれば DPOではこれを計算するだけでOK
  10. 前提: 分類器ガイダンスと分類器なしガイダンス(CFG) 10 o 分類器ガイダンス [Dhariwal+, NeurIPS21] • ある条件 𝑐

    で画像 𝑥 を⽣成する拡散モデルの学習にて,分類器で条件付け ノイズあり画像 𝑥 に対して 条件(e.g. テキスト)を分類するモデル DDPM [Ho+, NeurIPS20] → 分類器の学習が⾯倒等,様々な問題あり
  11. 前提: 分類器ガイダンスと分類器なしガイダンス(CFG) 11 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+,

    NeurIPS WS21] • 分類器を使わず,ある条件 𝑐 で画像 𝑥 を⽣成する拡散モデルの学習 分類器ガイダンスでの式に代⼊して Conditionalな⽣成 Unconditionalな⽣成 分類器を使わずに conditional / unconditionalそれぞれの加重和 で表現可
  12. 前提: 分類器ガイダンスと分類器なしガイダンス(CFG) 12 o Classifier-Free Guidance (CFG) → 分類器なしガイダンス [Ho+,

    NeurIPS WS21] • 分類器を使わず,ある条件 𝑐 で画像 𝑥 を⽣成する拡散モデルの学習 分類器ガイダンスでの式に代⼊して Conditionalな⽣成 Unconditionalな⽣成 分類器を使わずに conditional / unconditionalそれぞれの荷重和 で表現可 CFGはある条件 𝑐 による影響を強めることが知られている [Sanchez+, 23], [Kornblith+, ICCV23] → CFGによりMLLMにおける画像トークンの影響を強めることが期待される
  13. 提案: Vision-Guided DPO (V-DPO) 13 o Vision-Guided DPO (V-DPO) •

    CFGをDPOへと組み込み,画像トークンを⼀部しか参照しない問題を低減 → hallucinationの発⽣頻度を減らす 元のCFG 新たな⽬的関数 logで期待値取れば KLと同じ → 新しい⽬的関数をどう最適化するか? 再掲: DPOは以下をlossとする
  14. 提案: Vision-Guided DPO (V-DPO) 14 o 新しい⽬的関数をどう最適化するか ← KLの定義 ←

    前述のDPOと同じように 分配関数を定義 ← 𝛾 = − " # + 1 に置換
  15. 提案: Vision-Guided DPO (V-DPO) 15 𝑍 𝑥 は 𝜋 に依存しないので,KLを最⼩化すれば良い

    → 当然 𝜋 𝑦 𝑥 と 𝜋∗ 𝑦 𝑥 が⼀致すれば最⼩ が最適解 𝜋∗ 𝑦|𝑥 を仮に以下と定義↓ (再掲)DPO o 新しい⽬的関数をどう最適化するか CFG由来の項があっても同様に処理すれば良い
  16. 提案: Vision-Guided DPO (V-DPO) 16 o 新しい⽬的関数をどう最適化するか • 新たに分配関数 𝑊

    を定義して → この項を無理やりKLとして計算してあげればDPOと同様に計算できそう
  17. 提案: Vision-Guided DPO (V-DPO) 18 o 新しい⽬的関数をどう最適化するか o DPO同様,Bradley-Terry の元でrewardの差分を取れば良い

    • 右辺に対して 𝑊 . 𝑣, 𝑥 が掛かっているので, 𝑍(𝑣, 𝑥) ← 𝑍 𝑣, 𝑥 /𝑊 . 𝑣, 𝑥 としてDPO同様計算すると( 𝑊 を無視する雑な近似を取って) ただし,
  18. 提案: V-DPOを学習するためObject hallucinationを含むPreference Dataを収集 19 1. V-DPOにはobject hallucinationを含むPreference Dataが必要 2.

    検出された物体を拡散モデル(inpainting)により描き換える 3. キャプションも同時にLLMによって修正 4. CLIPScore [Hessel+, EMNLP21]でフィルタリング → 修正済み画像ーキャプション間の⼀貫性をチェック 5. V-DPOによりMLLMをtuning CLIPScore [Hessel+, EMNLP21]
  19. 実験設定: 多様なベンチマークにおいて評価 20 o ベンチマーク • POPE [Li+, EMNLP23] /

    AMBER [Wang+, 23] • Hallusion-Bench [Liu+, CVPR24] / MMHal-Bench [Sun+, ACL24] o ベースライン (すべてLLaVA-v1.5-7Bにおいて実験) • DPO [Rafailov+, NeurIPS23] • HA-DPO [Zhao+, 23] o データセット • Synthetic Augmented Data: 半⾃動的に収集(前⾴) • RLHF-V [Yu+, CVPR24]: ⼈⼿で収集 o 実験環境: A100 x 4台 POPE [Li+, EMNLP23] Hallusion-Bench [Liu+, CVPR24]
  20. 定量的結果: POPEやAMBERにおいて良好な結果 21 o POPE → SFT, DPO, HA-DPO を上回る

    / comparableな結果 (P: popular, A: adversarial) o AMBER → ⽣成タスクの多数において ⼤きく上回る結果 (Cog: Cognition) (上)POPE /(下)AMBER
  21. 定性的結果: Hallucinationの低減を確認 22 • 定性的にも良好な結果 • ⼆番⽬の例 → 物体だけでなく属性についても適切に出⼒ •

    三番⽬の例 → 具体的な視覚的⽬印を元に判断= 画像トークンを重要視 所感: そこまで⽰唆的な⽣成例ではないと思う
  22. Ablation Study: 𝛾 = 0.75, 0 が最良 (Synthetic-Data, RLHF-V) 23

    o 𝛾 の性能への寄与を調査 (CHAIR ↓ / F1 ↑) • Synthetic-Dataにおいては 𝛾 の影響を受けやすい • 𝛾 が極端に⼩さいと,reference model (SFT) との乖離が起こりやすい • 𝛾 = 0.75, 0 が最良 (Synthetic-Data, RLHF-V)
  23. まとめ 25 ü 背景 • MLLMにおけるhallucinationの問題は重要 • hallucination発⽣時,モデルは画像トークンを軽視している傾向 ü 提案⼿法:

    Vision-Guided DPO • 拡散モデルのCFG(Classifier-Free Guidance) に基づきDPOを拡張 • i2i, LLM, CLIPScoreを⽤いてObject hallucinationを含むPreference Dataを収集 ü 結果 • POPE [Li+, EMNLP23], MMHal-Bench [Sun+, ACL24] 等にてhallucination低減