Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Detecting and Preventing Halluci...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 14, 2024
Technology
290
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models
慶應義塾⼤学 杉浦孔明研究室 D1 和田唯我 / Yuiga Wada (YuWd)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
November 14, 2024
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
40
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
100
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
100
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
90
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
160
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.8k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
140
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
200
Other Decks in Technology
See All in Technology
「勝手に広まる」人気 AI エージェントを爆速で作ろう!(AWS Summit Japan 2026講演資料)
minorun365
PRO
10
2.3k
入門!AWS Blocks
ysuzuki
1
170
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
3
730
千葉での単身赴任からAWSをやり続け、千葉に戻ってきた話
yama3133
1
100
GitHub Copilot 最新アップデート – 「一歩先」の実践活用術
moulongzhang
5
1.6k
【2026年版】 ベクトル検索とEmbedding最前線
mocobeta
23
7k
Bucharest Tech Week 2026 - Reinventing testing practices in the AI era
edeandrea
PRO
1
170
水を運ぶ人としてのリーダーシップ
izumii19
3
720
あなたの知らないPDFのアクセシビリティ
lycorptech_jp
PRO
0
230
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
180
徹底討論!ECS vs EKS!
daitak
3
1.3k
クレデンシャル流出 ― 攻撃 3 時間 vs 復旧 10 時間。この非対称性にどう備えるか
kazzpapa3
3
460
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
The Spectacular Lies of Maps
axbom
PRO
1
820
Site-Speed That Sticks
csswizardry
13
1.2k
Speed Design
sergeychernyshev
33
1.9k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Six Lessons from altMBA
skipperchong
29
4.3k
Exploring anti-patterns in Rails
aemeredith
3
420
How to make the Groovebox
asonas
2
2.2k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
200
The Mindset for Success: Future Career Progression
greggifford
PRO
0
360
Practical Orchestrator
shlominoach
191
11k
Being A Developer After 40
akosma
91
590k
Transcript
Detecting and Preventing Hallucinations in Large Vision Language Models Anisha
Gunjal, Jihan Yin, Erhan Bas (Scale AI) 慶應義塾⼤学 杉浦孔明研究室 D1 和⽥唯我 Anisha Gunjal et al., “Detecting and Preventing Hallucinations in Large Vision Language Models” in AAAI (2024) AAAI24
概要 2 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination
detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減
背景: MLLMにおけるhallucinationの問題は喫緊の課題 3 o InstructBLIP [Dai+, NeurIPS23] • 30%のhallucinationを含むことを確認(存在しない物体,不正確な記述・関係) →
MLLMにおけるHallucinationの軽減は重要 • ⽂⽣成におけるhallucinationを検出できる⼿法は存在せず → ⾃動的にhallucinationを検出できる⼿法があれば,hallucination低減に有益 InstructBLIP [Dai+, NeurIPS23]
関連研究: ⽂⽣成におけるfine-grainedなhallcuination検出は未だ研究の余地あり 4 o POPE [Li+, EMNLP23] (Polling-based Object Probing
Evaluation) • 各オブジェクトの⼆値分類タスクを解くことでMLLMのhallucinationを評価 • 抽出したオブジェクト各々に対してQAを解かせる → ⽂⽣成におけるhallucinationは評価できず o GAVIE [Liu+, ICLR24] • ⽂⽣成において適切に指⽰へ従っているかを評価 → 物体存在に関するhallucinationしか評価できず → ⽂⽣成における位置や属性に関する fine-grained な hallucination detection ⼿法が必要 GAVIE [Liu+, ICLR24] POPE [Li+, EMNLP23]
提案: M-HalDetect (Multi-Modal Hallucination Detection Dataset) 5 o M-HalDetect: Multi-Modal
Hallucination Detection Dataset • InstructBLIPの出⼒に対して,単語レベルでhallucinationのラベルが付与 • 画像: 4000枚 (COCO val2014 split) → train / val = 3,200 / 800 • キャプション: 16k → train / val = 12,800 (3,200 × 4) / 3,200 (800 × 4) • Accurate : 適切な物体および物体間の関係が記述 • Inaccurate: 不適切な物体および物体の属性が記述 • Analysis: 複雑なreasoningを含む物体についての記述(主観的な記述を含む) • Unsure: 上記3つに該当しない記述 ※valというよりもtest
提案: Reward ModelによるMLLMの改善 6 o Sentence-level Reward Prediction • InstructBLIPに回帰ヘッドを追加
→ 全体として適切 / 不適切を検出 • Inaccurateがあれば全体もInaccurateとラベルを付与 • 下記2つの戦略を選択 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 o Segment-level Reward Prediction • 各単語に対してaccurate / inaccurate / analysisを検出 o 上記2つの検出器を学習し,Rejection Samplingを実施 • best-of-𝑛 / worst-of-𝑛 により,MLLMにrewardを与える • MLLM = {Instruct-BLIP, LLaVA, mPLUG-Owl} , 𝑛 = {16, 64} [Liu+, NeurIPS23] [Ye+, 2023]
提案: Fine-grained Direct Preference Optimization 7 o Fine-grained Direct Preference
Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored
提案: Fine-grained Direct Preference Optimization 8 o Fine-grained Direct Preference
Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Dispreffered Preffered Ignored
提案: Fine-grained Direct Preference Optimization 9 o Fine-grained Direct Preference
Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation 対⽐を明確にすると…
提案: Fine-grained Direct Preference Optimization 10 o Fine-grained Direct Preference
Optimization (FDPO) によるMLLMの改善 • Reward Modelだけでなく,直接最適化する⼿法も提案 • 通常のDPO [Rafailov+, NeurIPS23] は⽂全体に対するpreferenceにより最適化 → fine-grainedにDPOを適⽤するためFDPOを提案 DPO FDPO Policy model Reference model Preferred generation Dispreferred generation Dispreffered Preffered Ignored M-HalDetectはhuman preferenceのラベルを持たない • accurate → preferred,inaccurate → dispreffered, • {analysis, unsure} → neutralとする
定量的評価: Binary / Ternary ともに Rejection Samplingに活⽤可能 11 o {Segment,
Sentence}-level Reward Predictionの評価 • InstructBLIPに回帰ヘッドを追加 → 全体として適切 / 不適切を検出 • Binary Classification → accurate / inaccurate のみ検出 • Ternary Classification → accurate / inaccurate / analysisを検出 • Ternaryの混同⾏列をBinaryとして評価すると,Binaryと同程度の性能 • Ternary ClassificationによるRejection Samplingでも⼗分
定性的評価: Rejection Samplingは⼗分に機能 12 • Setence-level Prediction • 適切にaccurate /
inaccurateを評価 • ⼈⼿評価とreward model の相関を評価 • (定量的結果は記載なし) • ⼈⼿評価と強い相関を確認 Prediction ↓ ⼈⼿評価とreward model の結果をプロット Describe the following image
定量的結果: 提案⼿法によりMLLMのhallucinationが低減 13 • FDPO, RS (Rejection Sampling) • IA:
analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectした サンプルのhall.率を評価 (評価者数は記載なし) • DAよりもIAのほうが⾼い性能 • MLLMは最終⽂に主観的記述(analysis)を出⼒する傾向にあり • DAの場合,analysisを抑えることで出⼒⽂⻑が増加し,hallucinationを誘発する可能性
定量的結果: 提案⼿法によりMLLMのhallucinationが低減 14 • FDPO, RS (Rejection Sampling) • IA:
analysisを無視 • DA: analysisをdispreferred として処理 • RM Score • Non-hallucinatedである NLL (Negative log-likelihood) • Human Eval • 50画像に対してrejectした サンプルのhall.率を評価 (評価者数は記載なし) • IAについて RS best-of-{16,64}と同程度の性能 • FDPOは訓練集合に近しい最適化しかできない • RSは(正しいかどうかはともかく)全体を最適化可能 → RSの場合速度が低下するため,速度と性能のtrade-off HallucinationをInstructBLIP, LLaVAにおいてそれぞれ41%, 15%低減
まとめ 16 ü 背景 • MLLMにおけるhallucinationの問題は重要 ü 提案⼿法 • MLLMのhallucination
detection向けデータセットM-HalDetectを構築 • Detectorを⽤いたReward Model / hallucinationの低減⼿法FDPOを提案 ü 結果 • InstructBLIP, LLaVAにおけるhallucinationをそれぞれ41%, 15%低減