Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文読み会 / Counterfactual VQA: A Cause-Effect Look...
Search
chck
August 16, 2021
Research
0
17
論文読み会 / Counterfactual VQA: A Cause-Effect Look at Language Bias
社内論文読み会、PaperFridayでの発表資料です
chck
August 16, 2021
Tweet
Share
More Decks by chck
See All by chck
CyberAgent AI Lab研修 / Container for Research
chck
0
1.7k
CyberAgent AI Lab研修 / Code Review in a Team
chck
2
1.6k
論文読み会 / Socio-Technical Anti-Patterns in Building ML-Enabled Software: Insights from Leaders on the Forefront
chck
0
39
CyberAgent AI事業本部MLOps研修Container編 / Container for MLOps
chck
2
5.5k
論文読み会 / GLAZE: Protecting Artists from Style Mimicry by Text-to-Image Models
chck
0
21
論文読み会 / On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models
chck
0
8
論文読み会 / GUIGAN: Learning to Generate GUI Designs Using Generative Adversarial Networks
chck
0
14
機械学習開発のためのコンテナ入門 / Container for ML
chck
0
910
Web系企業研究所における研究開発を加速させるエコシステム / Ecosystem accelerates our R&D in CyberAgent AI Lab
chck
0
140
Other Decks in Research
See All in Research
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.2k
[CV勉強会@関東 CVPR2025] VLM自動運転model S4-Driver
shinkyoto
2
330
近似動的計画入門
mickey_kubo
4
990
Sosiaalisen median katsaus 03/2025 + tekoäly
hponka
0
1.3k
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
450
実行環境に中立なWebAssemblyライブマイグレーション機構/techtalk-2025spring
chikuwait
0
240
Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
satai
3
100
Streamlit 総合解説 ~ PythonistaのためのWebアプリ開発 ~
mickey_kubo
1
1.1k
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
360
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
280
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
330
カスタマーサクセスの視点からAWS Summitの展示を考える~製品開発で活用できる勘所~
masakiokuda
2
130
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
70
11k
Java REST API Framework Comparison - PWX 2021
mraible
31
8.7k
Building Adaptive Systems
keathley
43
2.7k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
700
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
Into the Great Unknown - MozCon
thekraken
40
1.9k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
We Have a Design System, Now What?
morganepeng
53
7.7k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.1k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
Transcript
Counterfactual VQA: A Cause-Effect Look at Language Bias 21/08/16 PaperFriday,
Yuki Iwazaki@AI Lab
2 Point: 画像とテキストを両方扱うタスクで、 フルモデルとテキストのみモデルの予測分布間の差分を利用した テキストのバイアス除去法を提案 CVPR 2021: acceptance rate 23.7%
Authors: Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, Ji-Rong Wen 選定理由: - Multimodal dataの偏りに悩むことが多い - Debiasに興味がある
Introduction 3
Debiased Visual Question Answering ◂ Visual Question Answering ◂ Answer
the question based on the image 4 Q: Do you see a player? A: Yes. Q: What sports is he playing? A: Tennis.
Debiased Visual Question Answering ◂ Dataset bias in VQA: language
bias 5 (VQA v1 dataset) Q: What sports is … ? Q: How many … ? language priors poor ODD generalization [Goyal, CVPR2017]
Related Work 6
Debiasing Strategies in VQA ◂ VQA-CP...VQAモデルの汎化性を評価するためのdataset ◂ train/testで質問タイプ毎に回答の分布が異なるように ◂ VQAの言語バイアス低減は大きく3種類
◂ 1.視覚情報の補強 ◂ 2.言語情報の弱化 ◂ 3.明示的/暗黙的なData Augmentation 7
Debiasing Strategies in VQA ◂ VQA-CP...VQAモデルの汎化性を評価するためのdataset ◂ train/testで質問タイプ毎に回答の分布が異なるように ◂ VQAの言語バイアス低減は大きく3種類
◂ 1.視覚情報の補強 ◂ 2.言語情報の弱化 ◂ 3.明示的/暗黙的なData Augmentation 8
9
10 Fact: 観測されるデータには常にバイアスがかかっている Challenge: 偏った学習をしていても偏りのない推論ができるか ?
Preliminaries 11
Causal Graph 12 変数間の因果関係を表すグラフ 原因Xが効果Yに直接影響を与えている場合、 X → Yと表す 原因Xが中間変数Mを介して 効果Yに間接的に影響を与えている場合、
X → M → Yと表す
Causal Graph 13 変数間の因果関係を表すグラフ 原因Xが効果Yに直接影響を与えている場合、 X → Yと表す 原因Xが中間変数Mを介して 効果Yに間接的に影響を与えている場合、
X → M → Yと表す コロナ罹患 年齢 ワクチン
Causal effects 異なる方策の介入(treatment)を受けた同一対象の 2つの世界線の結果を擬似的に比較したもの 14 treatment群(e.g.ワクチンあり) control群(e.g.ワクチンなし) Yに対するX=xのtotal effect 中間変数Mが介入しない状態での
XのYへのnatural direct effect. X=x*からX=xに変化したときのYの増加
Cause-Effect Look at VQA 15
16
17
18
Causal Graph for VQA ◂ Causal relations in VQA ◂
A→B: AはBを引き起こす ◂ VQA: VとQはAを引き起こす 19
Causal Graph for VQA 20 ◂ Causal relations in VQA
◂ A→B: AはBを引き起こす ◂ VQA: VとQはAを引き起こす ◂ Direct path: Q→A, V→A ◂ Uni-modal alignment, direct effect
Causal Graph for VQA 21 ◂ Causal relations in VQA
◂ A→B: AはBを引き起こす ◂ VQA: VとQはAを引き起こす ◂ Direct path: Q→A, V→A ◂ Uni-modal alignment, direct effect ◂ Indirect path: V,Q→K→A ◂ Multi-modal reasoning, indirect effect
Ours: Cause-Effect View on VQA 22 Total Effect Nature Direct
Effect Total Indirect Effect VQAにおける因果効果は2シナリオ間( (1), (2) )の比較で導出可能
Implementation: Parameterization 23 V,Q,Kが与えられたときの目的変数の予測スコア Y_{v,q}:
Implementation: Parameterization 24 質問Qが与えられる 与えられない 画像Vが与えられる 与えられない 画像Vと質問Qが与えられる どちらかが与えられない
Implementation: Fusion Strategies 25
Implementation: Training 26
Implementation: Inference 27
Conventional Models 30
Experiments 31
Experiments ◂ VQA-CP dataset ◂ train/testの回答分布が大きく異なる場合に モデルの頑健性を評価するためのdataset ◂ VQA v2
dataset(re-balanced v1) ◂ VQA v1の反省を活かし分布偏りを改善したdataset ◂ metric: Accuracy ◂ baseline ◂ Stacked Attention Network (SAN) ◂ Bottom-up and Top-down Attention (UpDn) ◂ a simplified MUREL (S-MRL) 32
Quantitative Results 33
Quantitative Results 34
Ablation Study 35 baseline with CF-VQAによりbaselineより2%-5%の性能改善
Qualitative Results 37
Qualitative Results 38 Q: Is this room large or small?
Q: What type of flowers are theses? language context “large or small” “what type”
Qualitative Results 39
Conclusion 40
Conclusion ◂ VQAの言語バイアスを軽減するCF-VQAを提案 ◂ 総合効果から言語効果を引き算 ◂ 最近のdebias系の研究は提案手法で統一可能 ◂ 因果効果に基づいて1つのパラメータの追加で baselineを改善
◂ 頑健性とバイアス軽減のバランスが課題 41
Comment ◂ 斎藤さん、安井さん、成田さん、Susan Athey界隈の 有用な記事が無限に出てきました🙏 ◂ 本買ってもう少し勉強します 42
43 Thanks! Any questions? You can find me at: ◂
@chck ◂ #times_chck ◂
[email protected]