Slide 78
Slide 78 text
言語処理学会第31回年次大会(NLP2025)チュートリアル資料 — ハインツァリング, 横井, 小林 「言語モデルの内部機序:解析と解釈」
● 注意重みを「モデルの振る舞い」や「予測の説明」として解釈してよいのか、
RNN+Attention の時代から議論がある
○ 注意重みの値を置き換えても予測が大して変わらない
○ タスクの重要情報に注意重みを割り振らない損失で学習しても、間接的に重要情報
にアクセスして十分なタスク性能を達成できる [Pruthi+’20]
● 注意重みを拡張した手法が提案されている
○ 注意重みから後段計算において本質的でない成分を除去する [Brunner+’20]
○ Value ベクトルのノルムを考慮する [Kobayashi+’20]
○ 注意機構以外のモジュールも考慮して注意パターンを観察する [Kobayashi+’21;’24]
Kobayashi+, Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (EMNLP 2020)
Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021)
Kobayashi+, Analyzing Feed-Forward Blocks in Transformers through the Lens of Attention Maps (ICLR 2024)
Jain&Wallace, Attention is not Explanation (NAACL 2019)
Serrano&Smith, Is Attention Interpretable? (ACL 2019)
Pruthi, Learning to Deceive with Attention-Based Explanations (ACL 2020)
Brunner+, On Identifiability in Transformers (ICLR 2020)
注意重みに関する議論と拡張
78
[Jain&Wallace’19; Serrano&Smith’19]