【論文紹介】The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?

The elephant in the interpretability room: Why use attention as
explanation when we have saliency methods? Bastings and Filippova, EMNLP 2020 杉本海人 Aizawa Lab. B4 2021/01/07 1 / 21

BlackboxNLP Workshop 11/20 17:00～ (UTC+9): 第 3 回目の開催 2 /
21

ワークショップの概要 • ニューラルネットという Blackbox が行う計算や学習した表現を、人間がどのように評価するか？ • 広く取ると「解釈/説明可能な AI」がトピックだが、NLP のワー
クショップなので「ニューラルネットが獲得する知識を言語学的に分析できるか？」というのも議論の対象 3 / 21

今回 • Saliency Methods というのを知らなかったので読んだ • The elephant in the
room = 見て見ぬふり 4 / 21

Attention Mechanism Attention Mechanism が普及しているのは周知の通り • タスクとして：機械翻訳、言語生成、NLI など、ある単語列から別の単語列を生成するタスク全般に •
モデルとして：Attention 付き seq2seq から Transformer (self-attention)、その後の大規模言語モデルへ Attention Mechanism が、タスクに対するネットワークの性能を上げていることには異論の余地がない 5 / 21

原理出力の t − 1 番目の隠れ層 st−1 から t 番目の隠れ層
st を計算する際に、入力の隠れ層 h1, ..., hT 全てを考慮する 1） 1 i 番目の出力 si に j 番目の入力 hj がどの程度寄与するのか定める eij = a(si−1, hj ) を計算する（関数 a は tanh など） 2 j に関して eij の softmax を取ることで attention weight 𝛼ij を計算する 3 重み付けされた context vector ci = ∑ j 𝛼ijhj を計算し、これと si−1 から si を求める 1さまざまなバリエーションがある https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html 6 / 21

Attention Mechanism 𝛼ij のヒートマップを見ることが多い（図は要約の例: Rush et al. 2015） 7 /
21

Attention はモデルが正当であることの説明になっているのか？最近、Attention Mechanism の説明性・解釈可能性に関する論文が多い • "Attention is not Explanation"
(Jain and Wallace, 2019) では、 attention weight が既存の他の特徴量抽出手法と相関がないことや、全く異なる attention weight でも同じ予測になることを指摘 • これに追従するような論文2 や、カウンター論文（例えば attention weight の有効性をより綿密にテストすることを提唱3、 attention weight の改良を提唱4、など）がいくつも出ている 2Is attention interpretable? (Serrano and Smith, 2019) 3Attention is not not explanation. (Wiegreﬀe and Pinter, 2019) 4Towards transparent and explainable attention models. (Mohankumar et al., 2020) 8 / 21

筆者らの問題指摘 • 既存の attention の解釈可能性に関する研究では、Explanation によって何を目指しているのか不明瞭 → goal と
user を明確にすべき • 明確に書かれているわけではないが、現状の研究は goal: どの入力の word が最終的な予測に最も寄与するかを明らかにすること user: モデルの開発者（≠ 一般の利用者）である 9 / 21

Faithfulness vs. Plausibility • 先程の指摘点は、解釈可能性の評価における Faithfulness と Plausibility の議論 5
にも密接に関連する • Plausibility（もっともらしさ）とは、その解釈が人間にとって妥当であるかどうか • Faithfulness（忠実性）とは、その解釈がモデルの "Reasoning Process (推論過程?)" を反映しているかどうか（人間による質的評価が関わらない） • これら 2 つを明確に区別すべきだとしている 5Towards Faithfully Interpretable NLP Systems: How Should We Deﬁne and Evaluate Faithfulness? (Jacovi and Goldberg, 2020) 10 / 21

具体例 • plausible であるが faithful ではないモデルの（極端な）例： • 正解の入力であれば、説明がランダムな単語列になるのに対し、不正解の入力であれば、説明がランダムな記号列になるモデル •
HCI コミュニティで行われるようなユーザーテストを行うと、正解の方が説明がそれっぽく見えるのでユーザーが納得する可能性があり plausible であることになるが、いずれの入力でもランダムなトークンを使って説明をしているので推論過程を表しているとは言えず faithful ではない 11 / 21

Faithfulness についてもう少し... (Jacovi and Goldberg, 2020) は既存研究が行っている Faithfulness に関する
3 つの Assumption（仮定）をまとめている6 1 2 つのモデルが同じ予測をすることは、2 つのモデルが同じ推論過程を用いることと等価 2 あるモデルが似たような入力に対して似たような予測をすることは、あるモデルが似たような推論過程を用いることと等価 3 入力の場所によって推論過程にどの程度影響を与えるかは異なり、その寄与は互いに独立である attention のヒートマップを説明として使っている論文は、3 番目の仮定に立脚している 6もっとも、筆者らはあるモデルが faithful か否かという二元論には否定的 12 / 21

元の論文に戻ると... • 現状の attention による説明のゴールである「モデルの開発者が、どの入力の word が最終的な予測に最も寄与するかを明らかにすること」は、Plausibility というよりも
Faithfulness が対象である • このような具体的な目的意識の下では、Attention weight よりも Saliency Methods（後述）を説明に使うべきだという主張 13 / 21

Saliency Methods • saliency とは元々は脳神経科学、のちに Computer Vision に導入された概念 •
人間の脳は、目に映る映像から目立つ (salient) 部分を瞬時に特定できる • 特徴統合理論（Treisman et al., 1980）: 輝度や色などの特徴量から feature map を作り、それを統合することで saliency map を作成し、その map の輝度値が最も高い箇所に注意が向けられる7 • 転じて、機械学習の文脈では、モデルが出力する際に入力のどこが目立つかを調べるという意味で Saliency Methods と呼ぶ（Attribution Methods などと呼ぶこともある） 7http://www.kecl.ntt.co.jp/people/kimura.akisato/pdf/sip2010presentation.pdf 14 / 21

NLP における Saliency Methods • NLP では、勾配（一回微分）を使った Gradient-based methods が
初期に提案された8 • 入力の単語列 x1:n = (x1, ..., xn )、モデルを表す関数 fc (x1:n ) に対し， ∇xi fc (x1:n ) を各単語 xi に関して計算する 9（スコアなら L2 ノルム） • 代わりに勾配 × 入力である ∇xi fc (x1:n ) · xi を計算するもの 10 や、さらなる改良 11 など 8Visualizing and Understanding Neural Models in NLP (Li et al, 2016) 9実質的には誤差逆伝播の値を取ること？ 10Extraction of salient sentences from labelled documents (Denil et al, 2015) 11Axiomatic Attribution for Deep Networks (Sundararajan et al., 2017) 15 / 21

具体例 Stanford Sentiment Treebank による感情分類タスク（前提として、全てのモデルは正しく "very negative" に分類できている） 16
/ 21

具体例（上手くいかない例） "I hate the movie though the plot is interesting."
正しく very negative に判定できるモデルにもかかわらず、gradient は though 以下にばかり大きな値が出るなお，though 以下のみでこのモデルを動かすと positive に判定される（なので、faithful な説明にはなっていないとも言える） 17 / 21

Gradient-based Methods 以外の Saliency Methods • Propagation-based methods • Back
Propagation する際に特殊な計算を行うことで、出力が入力の各部分とどの程度関連があるのかをスコア付けする 12 • Occlusion-based methods • 入力の各部分を排除 (Occlusion) した時に出力がどの程度変化するのかでスコア付けする 13 。最も単純には fc (x1:n ) − fc (x1:n|xi =0 ) • 実装は簡単だが n + 1 回計算が必要 12Evaluating Recurrent Neural Network Explanations (Arras et al., 2019) など 13ERASER: A Benchmark to Evaluate Rationalized NLP Models (DeYoung et al., 2020) など 18 / 21

なぜ筆者らは Saliency Methods を推すのか？ • Saliency Methods は、入力のどの部分が予測に寄与するかを調べるという明確なゴールを持っている。また、ネットワークの計算パス全体を反映してスコア計算するものが多い。
• Attention weights は、ネットワークのある一部分において、入力側にある representation のどこに注意するかを反映しているだけ。しかもその representation は他の入力の結果が既に混ざっている可能性もある（seq2seq の後の方の hidden state など）。 • したがって、「モデルの開発者が、どの入力の word が最終的な予測に最も寄与するかを明らかにすること」が目的なら Saliency Methods を使うべき 19 / 21

補足 • そもそもモデルの説明ではなく Attention の役割自体を調べるという目的なら使うべき 14 • この論文で扱ったのとは異なる user
や goal が対象の説明なら使うべき • 学習された attention weight を使って文章にマーカーを引いた文では、そうでないマーカーよりも、人間がより速く文書分類をできるようになった 15 というような plausible な説明も考えられる • Saliency の方にも様々な課題が指摘されている（筆者らは問題点が少ないから推しているというわけではない） 14ベクトル長に基づく自己注意機構の解析 https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B4-5.pdf など 15Do Human Rationales Improve Machine Explanations? (Strout et al., 2019) 20 / 21

感想など • NLP における Saliency Methods の良いまとめになっている • 説明の goal
と user を明確にすべきという主張はなるほどと感じた • Faithfulness vs. Plausibility の議論は、解釈可能性に関わる研究をしていなくても、モデルの結果の具体例を示す / 見る時に意識したい... • まだ読めていないが、Saliency Methods が上手くいっていないことを指摘する論文 16 が面白そうだった -> 1 つの手法に固執するのは良くなさそう 16Evaluating Attribution Methods using White-Box LSTMs (Hao, 2020) 21 / 21

【論文紹介】The elephant in the interpretability room...

【論文紹介】The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?

Kaito Sugimoto

More Decks by Kaito Sugimoto

Other Decks in Research

Featured

Transcript

The elephant in the interpretability room: Why use attention as

BlackboxNLP Workshop 11/20 17:00～ (UTC+9): 第 3 回目の開催 2 /

ワークショップの概要 • ニューラルネットという Blackbox が行う計算や学習した表現を、人間がどのように評価するか？ • 広く取ると「解釈/説明可能な AI」がトピックだが、NLP のワー

今回 • Saliency Methods というのを知らなかったので読んだ • The elephant in the

Attention Mechanism Attention Mechanism が普及しているのは周知の通り • タスクとして：機械翻訳、言語生成、NLI など、ある単語列から別の単語列を生成するタスク全般に •

原理出力の t − 1 番目の隠れ層 st−1 から t 番目の隠れ層

Attention Mechanism 𝛼ij のヒートマップを見ることが多い（図は要約の例: Rush et al. 2015） 7 /

Attention はモデルが正当であることの説明になっているのか？最近、Attention Mechanism の説明性・解釈可能性に関する論文が多い • "Attention is not Explanation"

筆者らの問題指摘 • 既存の attention の解釈可能性に関する研究では、Explanation によって何を目指しているのか不明瞭 → goal と

Faithfulness vs. Plausibility • 先程の指摘点は、解釈可能性の評価における Faithfulness と Plausibility の議論 5

具体例 • plausible であるが faithful ではないモデルの（極端な）例： • 正解の入力であれば、説明がランダムな単語列になるのに対し、不正解の入力であれば、説明がランダムな記号列になるモデル •

Faithfulness についてもう少し... (Jacovi and Goldberg, 2020) は既存研究が行っている Faithfulness に関する

元の論文に戻ると... • 現状の attention による説明のゴールである「モデルの開発者が、どの入力の word が最終的な予測に最も寄与するかを明らかにすること」は、Plausibility というよりも

Saliency Methods • saliency とは元々は脳神経科学、のちに Computer Vision に導入された概念 •

NLP における Saliency Methods • NLP では、勾配（一回微分）を使った Gradient-based methods が

具体例 Stanford Sentiment Treebank による感情分類タスク（前提として、全てのモデルは正しく "very negative" に分類できている） 16

具体例（上手くいかない例） "I hate the movie though the plot is interesting."

Gradient-based Methods 以外の Saliency Methods • Propagation-based methods • Back

なぜ筆者らは Saliency Methods を推すのか？ • Saliency Methods は、入力のどの部分が予測に寄与するかを調べるという明確なゴールを持っている。また、ネットワークの計算パス全体を反映してスコア計算するものが多い。

補足 • そもそもモデルの説明ではなく Attention の役割自体を調べるという目的なら使うべき 14 • この論文で扱ったのとは異なる user

感想など • NLP における Saliency Methods の良いまとめになっている • 説明の goal