Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Detecting and Preventing Halluci...

[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Detecting and Preventing Hallucinations in Large Vision Language Models Anisha

    Gunjal, Jihan Yin, Erhan Bas (Scale AI) 慶應義塾⼤学 杉浦孔明研究室 D1 和⽥唯我 Anisha Gunjal et al., “Detecting and Preventing Hallucinations in Large Vision Language Models” in AAAI (2024) AAAI24
  2. 概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination

    detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減
  3. 背景: MLLMにおけるhallucinationの問題は喫緊の課題 3 o InstructBLIP [Dai+, NeurIPS23] • 30%のhallucinationを含むことを確認(存在しない物体,不正確な記述・関係) →

    MLLMにおけるHallucinationの軽減は重要 • ⽂⽣成におけるhallucinationを検出できる⼿法は存在せず → ⾃動的にhallucinationを検出できる⼿法があれば,hallucination低減に有益 InstructBLIP [Dai+, NeurIPS23]
  4. 関連研究: ⽂⽣成におけるfine-grainedなhallcuination検出は未だ研究の余地あり 4 o POPE [Li+, EMNLP23] (Polling-based Object Probing

    Evaluation) • 各オブジェクトの⼆値分類タスクを解くことでMLLMのhallucinationを評価 • 抽出したオブジェクト各々に対してQAを解かせる → ⽂⽣成におけるhallucinationは評価できず o GAVIE [Liu+, ICLR24] • ⽂⽣成において適切に指⽰へ従っているかを評価 → 物体存在に関するhallucinationしか評価できず → ⽂⽣成における位置や属性に関する fine-grained な hallucination detection ⼿法が必要 GAVIE [Liu+, ICLR24] POPE [Li+, EMNLP23]
  5. 提案: M-HalDetect (Multi-Modal Hallucination Detection Dataset) 5 o M-HalDetect: Multi-Modal

    Hallucination Detection Dataset • InstructBLIPの出⼒に対して,単語レベルでhallucinationのラベルが付与 • 画像: 4000枚 (COCO val2014 split) → train / val = 3,200 / 800 • キャプション: 16k → train / val = 12,800 (3,200 × 4) / 3,200 (800 × 4) • Accurate : 適切な物体および物体間の関係が記述 • Inaccurate: 不適切な物体および物体の属性が記述 • Analysis: 複雑なreasoningを含む物体についての記述(主観的な記述を含む) • Unsure: 上記3つに該当しない記述 ※valというよりもtest
  6. 提案: Reward ModelによるMLLMの改善 6 o Sentence-level Reward Prediction • InstructBLIPに回帰ヘッドを追加

    → 全体として適切 / 不適切を検出 • Inaccurateがあれば全体もInaccurateとラベルを付与 • 下記2つの戦略を選択 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 o Segment-level Reward Prediction • 各単語に対してaccurate / inaccurate / analysisを検出 o 上記2つの検出器を学習し,Rejection Samplingを実施 • best-of-𝑛 / worst-of-𝑛 により,MLLMにrewardを与える • MLLM = {Instruct-BLIP, LLaVA, mPLUG-Owl} , 𝑛 = {16, 64} [Liu+, NeurIPS23] [Ye+, 2023]
  7. 提案: Fine-grained Direct Preference Optimization 7 o Fine-grained Direct Preference

    Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored
  8. 提案: Fine-grained Direct Preference Optimization 8 o Fine-grained Direct Preference

    Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Dispreffered Preffered Ignored
  9. 提案: Fine-grained Direct Preference Optimization 9 o Fine-grained Direct Preference

    Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation 対⽐を明確にすると…
  10. 提案: Fine-grained Direct Preference Optimization 10 o Fine-grained Direct Preference

    Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored M-HalDetectはhuman preferenceのラベルを持たない • accurate → preferred,inaccurate → dispreffered, • {analysis, unsure} → neutralとする
  11. 定量的評価: Binary / Ternary ともに Rejection Samplingに活⽤可能 11 o {Segment,

    Sentence}-level Reward Predictionの評価 • InstructBLIPに回帰ヘッドを追加 → 全体として適切 / 不適切を検出 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 • Ternaryの混同⾏列をBinaryとして評価すると,Binaryと同程度の性能 • Ternary ClassificationによるRejection Samplingでも⼗分
  12. 定性的評価: Rejection Samplingは⼗分に機能 12 • Setence-level Prediction • 適切にaccurate /

    inaccurateを評価 • ⼈⼿評価とreward model の相関を評価 • (定量的結果は記載なし) • ⼈⼿評価と強い相関を確認 Prediction ↓ ⼈⼿評価とreward model の結果をプロット Describe the following image
  13. 定量的結果: 提案⼿法によりMLLMのhallucinationが低減 13 • FDPO, RS (Rejection Sampling) • IA:

    analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectした サンプルのhall.率を評価 (評価者数は記載なし) • DAよりもIAのほうが⾼い性能 • MLLMは最終⽂に主観的記述(analysis)を出⼒する傾向にあり • DAの場合,analysisを抑えることで出⼒⽂⻑が増加し,hallucinationを誘発する可能性
  14. 定量的結果: 提案⼿法によりMLLMのhallucinationが低減 14 • FDPO, RS (Rejection Sampling) • IA:

    analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectした サンプルのhall.率を評価 (評価者数は記載なし) • IAについて RS best-of-{16,64}と同程度の性能 • FDPOは訓練集合に近しい最適化しかできない • RSは(正しいかどうかはともかく)全体を最適化可能 → RSの場合速度が低下するため,速度と性能のtrade-off HallucinationをInstructBLIP, LLaVAにおいてそれぞれ41%, 15%低減
  15. まとめ 16 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination

    detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減