Slide 1

Slide 1 text

Detecting and Preventing Hallucinations in Large Vision Language Models Anisha Gunjal, Jihan Yin, Erhan Bas (Scale AI) 慶應義塾⼤学 杉浦孔明研究室 D1 和⽥唯我 Anisha Gunjal et al., “Detecting and Preventing Hallucinations in Large Vision Language Models” in AAAI (2024) AAAI24

Slide 2

Slide 2 text

概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減

Slide 3

Slide 3 text

背景: MLLMにおけるhallucinationの問題は喫緊の課題 3 o InstructBLIP [Dai+, NeurIPS23] • 30%のhallucinationを含むことを確認(存在しない物体,不正確な記述・関係) → MLLMにおけるHallucinationの軽減は重要 • ⽂⽣成におけるhallucinationを検出できる⼿法は存在せず → ⾃動的にhallucinationを検出できる⼿法があれば,hallucination低減に有益 InstructBLIP [Dai+, NeurIPS23]

Slide 4

Slide 4 text

関連研究: ⽂⽣成におけるfine-grainedなhallcuination検出は未だ研究の余地あり 4 o POPE [Li+, EMNLP23] (Polling-based Object Probing Evaluation) • 各オブジェクトの⼆値分類タスクを解くことでMLLMのhallucinationを評価 • 抽出したオブジェクト各々に対してQAを解かせる → ⽂⽣成におけるhallucinationは評価できず o GAVIE [Liu+, ICLR24] • ⽂⽣成において適切に指⽰へ従っているかを評価 → 物体存在に関するhallucinationしか評価できず → ⽂⽣成における位置や属性に関する fine-grained な hallucination detection ⼿法が必要 GAVIE [Liu+, ICLR24] POPE [Li+, EMNLP23]

Slide 5

Slide 5 text

提案: M-HalDetect (Multi-Modal Hallucination Detection Dataset) 5 o M-HalDetect: Multi-Modal Hallucination Detection Dataset • InstructBLIPの出⼒に対して,単語レベルでhallucinationのラベルが付与 • 画像: 4000枚 (COCO val2014 split) → train / val = 3,200 / 800 • キャプション: 16k → train / val = 12,800 (3,200 × 4) / 3,200 (800 × 4) • Accurate : 適切な物体および物体間の関係が記述 • Inaccurate: 不適切な物体および物体の属性が記述 • Analysis: 複雑なreasoningを含む物体についての記述(主観的な記述を含む) • Unsure: 上記3つに該当しない記述 ※valというよりもtest

Slide 6

Slide 6 text

提案: Reward ModelによるMLLMの改善 6 o Sentence-level Reward Prediction • InstructBLIPに回帰ヘッドを追加 → 全体として適切 / 不適切を検出 • Inaccurateがあれば全体もInaccurateとラベルを付与 • 下記2つの戦略を選択 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 o Segment-level Reward Prediction • 各単語に対してaccurate / inaccurate / analysisを検出 o 上記2つの検出器を学習し,Rejection Samplingを実施 • best-of-𝑛 / worst-of-𝑛 により,MLLMにrewardを与える • MLLM = {Instruct-BLIP, LLaVA, mPLUG-Owl} , 𝑛 = {16, 64} [Liu+, NeurIPS23] [Ye+, 2023]

Slide 7

Slide 7 text

提案: Fine-grained Direct Preference Optimization 7 o Fine-grained Direct Preference Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored

Slide 8

Slide 8 text

提案: Fine-grained Direct Preference Optimization 8 o Fine-grained Direct Preference Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Dispreffered Preffered Ignored

Slide 9

Slide 9 text

提案: Fine-grained Direct Preference Optimization 9 o Fine-grained Direct Preference Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation 対⽐を明確にすると…

Slide 10

Slide 10 text

提案: Fine-grained Direct Preference Optimization 10 o Fine-grained Direct Preference Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored M-HalDetectはhuman preferenceのラベルを持たない • accurate → preferred,inaccurate → dispreffered, • {analysis, unsure} → neutralとする

Slide 11

Slide 11 text

定量的評価: Binary / Ternary ともに Rejection Samplingに活⽤可能 11 o {Segment, Sentence}-level Reward Predictionの評価 • InstructBLIPに回帰ヘッドを追加 → 全体として適切 / 不適切を検出 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 • Ternaryの混同⾏列をBinaryとして評価すると,Binaryと同程度の性能 • Ternary ClassificationによるRejection Samplingでも⼗分

Slide 12

Slide 12 text

定性的評価: Rejection Samplingは⼗分に機能 12 • Setence-level Prediction • 適切にaccurate / inaccurateを評価 • ⼈⼿評価とreward model の相関を評価 • (定量的結果は記載なし) • ⼈⼿評価と強い相関を確認 Prediction ↓ ⼈⼿評価とreward model の結果をプロット Describe the following image

Slide 13

Slide 13 text

定量的結果: 提案⼿法によりMLLMのhallucinationが低減 13 • FDPO, RS (Rejection Sampling) • IA: analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectした サンプルのhall.率を評価 (評価者数は記載なし) • DAよりもIAのほうが⾼い性能 • MLLMは最終⽂に主観的記述(analysis)を出⼒する傾向にあり • DAの場合,analysisを抑えることで出⼒⽂⻑が増加し,hallucinationを誘発する可能性

Slide 14

Slide 14 text

定量的結果: 提案⼿法によりMLLMのhallucinationが低減 14 • FDPO, RS (Rejection Sampling) • IA: analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectした サンプルのhall.率を評価 (評価者数は記載なし) • IAについて RS best-of-{16,64}と同程度の性能 • FDPOは訓練集合に近しい最適化しかできない • RSは(正しいかどうかはともかく)全体を最適化可能 → RSの場合速度が低下するため,速度と性能のtrade-off HallucinationをInstructBLIP, LLaVAにおいてそれぞれ41%, 15%低減

Slide 15

Slide 15 text

まとめ 16 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減