[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models

Detecting and Preventing Hallucinations in Large Vision Language Models Anisha
Gunjal, Jihan Yin, Erhan Bas (Scale AI) 慶應義塾⼤学杉浦孔明研究室 D1 和⽥唯我 Anisha Gunjal et al., “Detecting and Preventing Hallucinations in Large Vision Language Models” in AAAI (2024) AAAI24

概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination
detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減

背景: MLLMにおけるhallucinationの問題は喫緊の課題 3 o InstructBLIP [Dai+, NeurIPS23] • 30%のhallucinationを含むことを確認（存在しない物体，不正確な記述・関係） →
MLLMにおけるHallucinationの軽減は重要 • ⽂⽣成におけるhallucinationを検出できる⼿法は存在せず → ⾃動的にhallucinationを検出できる⼿法があれば，hallucination低減に有益 InstructBLIP [Dai+, NeurIPS23]

関連研究: ⽂⽣成におけるfine-grainedなhallcuination検出は未だ研究の余地あり 4 o POPE [Li+, EMNLP23] (Polling-based Object Probing
Evaluation) • 各オブジェクトの⼆値分類タスクを解くことでMLLMのhallucinationを評価 • 抽出したオブジェクト各々に対してQAを解かせる → ⽂⽣成におけるhallucinationは評価できず o GAVIE [Liu+, ICLR24] • ⽂⽣成において適切に指⽰へ従っているかを評価 → 物体存在に関するhallucinationしか評価できず → ⽂⽣成における位置や属性に関する fine-grained な hallucination detection ⼿法が必要 GAVIE [Liu+, ICLR24] POPE [Li+, EMNLP23]

提案: M-HalDetect (Multi-Modal Hallucination Detection Dataset) 5 o M-HalDetect: Multi-Modal
Hallucination Detection Dataset • InstructBLIPの出⼒に対して，単語レベルでhallucinationのラベルが付与 • 画像: 4000枚 (COCO val2014 split) → train / val = 3,200 / 800 • キャプション: 16k → train / val = 12,800 (3,200 × 4) / 3,200 (800 × 4) • Accurate : 適切な物体および物体間の関係が記述 • Inaccurate: 不適切な物体および物体の属性が記述 • Analysis: 複雑なreasoningを含む物体についての記述（主観的な記述を含む） • Unsure: 上記３つに該当しない記述 ※valというよりもtest

提案: Reward ModelによるMLLMの改善 6 o Sentence-level Reward Prediction • InstructBLIPに回帰ヘッドを追加
→ 全体として適切 / 不適切を検出 • Inaccurateがあれば全体もInaccurateとラベルを付与 • 下記２つの戦略を選択 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 o Segment-level Reward Prediction • 各単語に対してaccurate / inaccurate / analysisを検出 o 上記２つの検出器を学習し，Rejection Samplingを実施 • best-of-𝑛 / worst-of-𝑛 により，MLLMにrewardを与える • MLLM = {Instruct-BLIP, LLaVA, mPLUG-Owl} , 𝑛 = {16, 64} [Liu+, NeurIPS23] [Ye+, 2023]

提案: Fine-grained Direct Preference Optimization 7 o Fine-grained Direct Preference
Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく，直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored

Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく，直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Dispreffered Preffered Ignored

Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく，直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation 対⽐を明確にすると…

Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく，直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored M-HalDetectはhuman preferenceのラベルを持たない • accurate → preferred，inaccurate → dispreffered, • {analysis, unsure} → neutralとする

定量的評価: Binary / Ternary ともに Rejection Samplingに活⽤可能 11 o {Segment,
Sentence}-level Reward Predictionの評価 • InstructBLIPに回帰ヘッドを追加 → 全体として適切 / 不適切を検出 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 • Ternaryの混同⾏列をBinaryとして評価すると，Binaryと同程度の性能 • Ternary ClassificationによるRejection Samplingでも⼗分

定性的評価: Rejection Samplingは⼗分に機能 12 • Setence-level Prediction • 適切にaccurate /
inaccurateを評価 • ⼈⼿評価とreward model の相関を評価 • （定量的結果は記載なし） • ⼈⼿評価と強い相関を確認 Prediction ↓ ⼈⼿評価とreward model の結果をプロット Describe the following image

定量的結果: 提案⼿法によりMLLMのhallucinationが低減 13 • FDPO, RS (Rejection Sampling) • IA:
analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectしたサンプルのhall.率を評価（評価者数は記載なし） • DAよりもIAのほうが⾼い性能 • MLLMは最終⽂に主観的記述（analysis）を出⼒する傾向にあり • DAの場合，analysisを抑えることで出⼒⽂⻑が増加し，hallucinationを誘発する可能性

定量的結果: 提案⼿法によりMLLMのhallucinationが低減 14 • FDPO, RS (Rejection Sampling) • IA:
analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectしたサンプルのhall.率を評価（評価者数は記載なし） • IAについて RS best-of-{16,64}と同程度の性能 • FDPOは訓練集合に近しい最適化しかできない • RSは（正しいかどうかはともかく）全体を最適化可能 → RSの場合速度が低下するため，速度と性能のtrade-off HallucinationをInstructBLIP, LLaVAにおいてそれぞれ41%, 15%低減

まとめ 16 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination
detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減

[Journal club] Detecting and Preventing Halluci...

[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Detecting and Preventing Hallucinations in Large Vision Language Models Anisha

概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination

背景: MLLMにおけるhallucinationの問題は喫緊の課題 3 o InstructBLIP [Dai+, NeurIPS23] • 30%のhallucinationを含むことを確認（存在しない物体，不正確な記述・関係） →

関連研究: ⽂⽣成におけるfine-grainedなhallcuination検出は未だ研究の余地あり 4 o POPE [Li+, EMNLP23] (Polling-based Object Probing

提案: M-HalDetect (Multi-Modal Hallucination Detection Dataset) 5 o M-HalDetect: Multi-Modal

提案: Reward ModelによるMLLMの改善 6 o Sentence-level Reward Prediction • InstructBLIPに回帰ヘッドを追加

提案: Fine-grained Direct Preference Optimization 7 o Fine-grained Direct Preference

提案: Fine-grained Direct Preference Optimization 8 o Fine-grained Direct Preference

提案: Fine-grained Direct Preference Optimization 9 o Fine-grained Direct Preference

提案: Fine-grained Direct Preference Optimization 10 o Fine-grained Direct Preference

定量的評価: Binary / Ternary ともに Rejection Samplingに活⽤可能 11 o {Segment,

定性的評価: Rejection Samplingは⼗分に機能 12 • Setence-level Prediction • 適切にaccurate /

定量的結果: 提案⼿法によりMLLMのhallucinationが低減 13 • FDPO, RS (Rejection Sampling) • IA:

定量的結果: 提案⼿法によりMLLMのhallucinationが低減 14 • FDPO, RS (Rejection Sampling) • IA:

まとめ 16 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination