Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NAACL読み会 Attention is not Explanation
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Reo
August 01, 2019
Research
180
0
Share
NAACL読み会 Attention is not Explanation
2019年8月1日 小町研究室 NAACL読み会
Reo
August 01, 2019
More Decks by Reo
See All by Reo
論文紹介 Taking Notes on the Fly Helps Language Pre-Trainig
reo11
0
44
論文紹介 Reformer: The Efficient Transformer
reo11
0
260
EMNLP論文紹介 The Myth of Double-Blind Review Revisited: ACL vs. EMNLP
reo11
0
170
論文読み会 How Large Are Lions? Inducing Distributions over Quantitative Attributes
reo11
1
270
ACL読み会 Give Me More Feedback II: Annotating Thesis Strength and Related Attributes in Student Essays
reo11
0
190
Other Decks in Research
See All in Research
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
120
一般道の交通量減少と速度低下についての全国分析と熊本市におけるケーススタディ(20251122 土木計画学研究発表会)
trafficbrain
0
190
FUSE-RSVLM: Feature Fusion Vision-Language Model for Remote Sensing
satai
3
310
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
550
世界モデルにおける分布外データ対応の方法論
koukyo1994
7
2k
量子コンピュータの紹介
oqtopus
0
260
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
130
業界横断 副業コンプライアンス調査 三者(副業者・本業先・発注者)におけるトラブル認知ギャップの構造分析
fkske
0
1.2k
An Open and Reproducible Deep Research Agent for Long-Form Question Answering
ikuyamada
0
380
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
440
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
1.6k
通時的な類似度行列に基づく単語の意味変化の分析
rudorudo11
0
230
Featured
See All Featured
Six Lessons from altMBA
skipperchong
29
4.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
Code Review Best Practice
trishagee
74
20k
GitHub's CSS Performance
jonrohan
1032
470k
How to Ace a Technical Interview
jacobian
281
24k
B2B Lead Gen: Tactics, Traps & Triumph
marketingsoph
0
95
The untapped power of vector embeddings
frankvandijk
2
1.7k
Build your cross-platform service in a week with App Engine
jlugia
234
18k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
510
Embracing the Ebb and Flow
colly
88
5k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
150
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Transcript
Attention is not Explanation Sarthak Jain, Byron C. Wallace Northeastern
University NAACLಡΈձ 2019/8/1 ฏඌྱԝ
概要 • Attentionは様々なNLPタスクで利⽤される • その重みが「出⼒に対する重要性」として扱われる Øしかし、重みと出⼒の関係は明らかではない • 標準的なAttentionは意味のある説明を提供していない Øよって、それらが説明的であると扱われるべきではない
検証⽅法 1. Attentionによる重みと素性重要度の相関 Ø 例えば勾配に基づく重要度と相関があるはず 2. 重みを別の設定にした場合の予測結果への影響 Ø 事実に反した設定にすれば予測結果は悪くなるはず •
RNNエンコーダを使った以下の3つのタスクで実験 • テキスト分類 • 質問応答(QA) • ⾃然⾔語推論(NLI)
データセット 上からテキスト分類、質問応答、⾃然⾔語推論のデータセット
相関の検証 • 相関はKendall順位相関係数を使⽤ Ø 2つのリストの順序の⼀致度を測定 • Gradient(3, 4⾏⽬) Ø 統計的に求めた重要度
• Leave One Out(5, 6⾏⽬) Ø 系列からt番⽬を抜き出した時の精度の下り⽅からtの重要度を決める 1 2 3 4 5 6
Kendall順位相関係数
Kendall順位相関係数の分布 • 各データの相関係数の分布 • SNLI以外 ü橙⾊がpositive ü灰(紫)⾊がnegative • SNLI ü灰(紫)⾊が⽭盾
ü橙⾊が含意 ü緑が中⽴を表す üBiLSTMでは、平均0.5以下 üAverageでも、0.6~0.8程度
Attentionの重みを変更 • 2つの⽅法でAttentionを変更する • Attention Permutation • Attentionの重みのシャッフルを⾏う • 出⼒の差の中央値を取る
• Adversarial Attention • 出⼒を変えずにAttentionを変化させる
Attentionの重みをシャッフル • 1に近い⽅が影響が⼤きい • 橙⾊の部分 • 出⼒への影響が⼩さい • ⻘⾊の部分 •
出⼒への影響が⼤きい • QAのタスク • Diabetes • ⾼確率で糖尿病を⽰すトークン があるため
Attentionの分布を変える • 出⼒をあまり変化させずに、Attentionの分布を変更可能
Attentionの分布を変える • Attentionの重みが⼤きいものでも変えられるものが結構ある
まとめ üAttentionの重みと重要度の相関は弱い üAttentionの重みを変更しても結果が変わらないものもある üヒートマップによる解釈性にあまり意味はない