Is Attention Interpretable?

アテンションは解釈可能か？ Is Attention Interpretable? 岡崎直観（東京工業大学） http://www.nlp.c.titech.ac.jp/ Sofia Serrano and
Noah A. Smith. Proc. of ACL 2019, pages 2931–2951

アテンション (attention) (Bahdanau+ 2015) 1 計算例  各入力ℎ をベクトル
に変換  とからスコアを計算し，ソフトマックス関数で確率分布に変換  を「重み」として入力ℎ の重み付き和を計算 = tanh ℎ + = exp ⊺ ∑ exp ⊺ = � ℎ 1 3 2 -1 -2 2 ℎ1 ℎ2 ℎ3 Linear & tanh .1 -.4 .3 .2 .4 -.2 1 2 3 Dot product with & softmax .2 .5 .3 1 3 2 -1 -2 2 ℎ1 ℎ2 ℎ3 × × × .6 .7 1 2 3 機械翻訳など種々のタスクで性能向上を示す重みをからモデルの挙動を解釈する研究がある Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In Proc. of ICLR.

本研究の概要 2 検証したい仮説  モデルが重要と考える入力をアテンションから同定できるか？検証方法  学習済モデルに対して，ある指標（例：高いアテンション重みやランダムなど）で選んだ入力のアテンションの重みをゼロにしていく 
モデルが予測したラベル及び確率分布はどのように変わるか？  ラベルの予測が変わるまでに要した「重みゼロ」の回数は？結論  アテンションは入力の重要度をノイジーに予測するが，モデル予測の原因を特定することができるくらいの絶対確実な指標ではない

Hierarchical Attention Network (HAN) (検証に利用する既存モデル) 3 Yang+ (2016) を改変 Zichao
Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. 2016. Hierarchical attention networks for document classification. In Proc. of NAACL-HLT. 単語に対するアテンション Query: (どのような単語が重要か) Key と Value: ℎ (文の単語の表現) 単語列を双方向GRUでエンコード文系列を双方向GRUでエンコード文に対するアテンション Query: (どのような文が重要か) Key と Value: ℎ (文の表現) 線形変換＋ソフトマックスで予測 ← 検証対象

Flat Attention Network (FLAN) (検証に利用する本研究独自のモデル) 4 Serrano+ (2019) を改変単語に対するアテンション
Query: Key と Value: ℎ (単語の表現) = tanh ℎ + , = exp ⊺ ∑ exp ⊺ 重み付き和以下のCNNに加えて，双方向RNNと単語ベクトルのみの設定でも実験する ← 検証対象

検証に用いるデータセットと実験設定 5 実験設定  エンコーダにCNNを用いるときは，窓幅3トークンと5トークンの畳み込み結果を結合  OptimizerはAdam（勾配クリッピングを10に設定）  開発セット上の正解率が5エポックにわたり改善しなくなったら学習を終了 
データセットやモデルごとに，ドロップアウト率（各層で異なる）と学習率を設定データセットの統計情報 (Serrano+ 2019) 各手法の正解率 (Serrano+ 2019)

検証方法１：ある入力のアテンション重みを強制的にゼロにする 6 1 2 3 4 入力（単語列）ラベル予測の変化：変化有り変化無し
JS divergenceの差： JS(, ∗ ′) JS(, ′ ) − ∗ ′ ′ ラベルを予測する層（線形変換＆ソフトマックス）アテンション付きエンコーダ（RNN or CNN or 単語ベクトルのみ）最大の重みを0にランダムに選んだ入力の重みを0に（その後正規化）（その後正規化）入力に対するアテンション元々の予測重要と思われる入力を除去した時の予測ランダムに入力を除去した時の予測コントロールと対比する相違

検証方法１：JSダイバージェンスの差の変化 (モデル: HAN-rnn) 7 Serrano+ (2019) 2018 JS Divergenceの差は概ね正の値アテンションの重みが確率分布の予測によ
い影響を与えていることを支持する結果 ← 最大の重み，もしくはランダムに選んだ重みをゼロにしたとき  横軸: 両者の重みの差  縦軸: JS Divergenceの差 JS , ∗ ′ − JS , ′ 最大の重みを除去した時の確率分布距離ランダムに重みを除去した時の確率分布距離アテンションの重みが確率分布予測に大きな影響を与えるのであれば，これは正の値をとるはずアテンションが予測に与える影響の大きさについては疑問が残る例えば，アテンション重みの差が0.4くらいあるときでも，JS Divergenceはゼロに近い

検証方法１：ラベル予測の変化の割合 (モデル: HAN-rnn) 8 ↑ 最大，もしくはランダムに選んだ重みをゼロにしたとき  左上: 両方の設定で予測ラベルが変化 
右上: 最大の重みをゼロにした時だけラベルが変化  左下: ランダムに重みをゼロにした時のみラベルが変化  右下: 両方の設定で予測ラベルが変化しなかった Serrano+ (2019) アテンションが入力の重要度を捉えるのであれば，右上の数字が大きくなるはずアテンションは予測に貢献する入力を見出す傾向はあるらしい左下よりも右下の数字が大きいので最大の重みのアテンションをゼロにしても，予測されるラベルがあまり変化しない 85-90%の事例では予測結果が変化しないある文の情報を隠しても，他の文の情報から文書のカテゴリが予測できるから？アテンションの解釈性を示唆する結果ではあるが，多くの事例ではゼロにする重みをどのように選んでも予測が変化しない

検証方法２：予測ラベルが変わるまでアテンション重みをゼロに 9 1 3 ℎ1 .2 1 2 -1 ℎ2
.5 2 -2 2 ℎ3 .3 3 線形変換＆ソフトマックス予測結果が変わるまで繰り返す  ある入力のアテンション重みをゼロにする  アテンション重みを正規化  表現ベクトルを再計算して，ラベル予測を行うどの順で重みをゼロにしていくか  ランダム  アテンション重みの大きい順  勾配の大きい順  ⋅ の大きい順元々のモデルで予測されたラベルの確率推定値 .4 .6 ①最大の重みを持つアテンションの重みをゼロにして再計算 ②２番目に高い重みを持つアテンションの重みをゼロにして再計算 1 アテンション重みが大きい順にゼロにしていく例アテンションの重み降順にゼロにしていくと， 2個除去したときに予測結果が変化した ← 予測結果が変化した

検証方法２：アテンション重みではなかなか予測結果が変化しない 10 Serrano+ (2019)  アテンションの降順にゼロにしていく戦略は勾配ベースの手法と比べて予測の変化が起きにくい  勾配や勾配とアテンションの積による戦略がベストだと主張する訳ではないが，アテンションの重みを解釈しようとするアイディアに警鐘を鳴らす実験結果と言える

検証方法２：予測の変化までに多くの重みをゼロにする必要あり 11 Serrano+ (2019)  どの戦略を採用しても，予測の変化が起こるまでにゼロにした重みの数がかなり多い  文に対してアテンションを張るHANでも，多くの重みをゼロにしないと予測の変化が起こらない  CNNとRNNを比較すると，RNNの方が長距離依存を扱えるため予測の変化が起こりにくい

本研究の限界 12 文書分類タスクしか対象にしていない  言語モデルや機械翻訳でもやってみたいが，解空間が膨大になるので分析が難しい元々の予測ラベル（argmax）の変化に着目しすぎている  アテンションの重みを消すことで，元々の予測ラベル以外の確率も変化するはず対象とするアテンション機構が限定されている
 最近よく使われるマルチヘッドアテンションや自己アテンションは対象外  ラベルを予測する直前の層の分析に限定している

まとめ 13  アテンションはモデルを解釈する「道具」としてよく使われるが，アテンションが入力の重要度を反映するとは限らないし，モデルの予測の挙動を解析する手段として適切ではないことが分かった  勾配に基づく方法など，アテンションよりもモデルの予測に大きな影響を与える戦略があることが分かった 
モデルの予測を変更するには，アテンションの重みを大量にゼロにしていく必要がある事例が，よく見受けられた

Is Attention Interpretable?

Is Attention Interpretable?

Naoaki Okazaki PRO

More Decks by Naoaki Okazaki

Other Decks in Research

Featured

Transcript

アテンションは解釈可能か？ Is Attention Interpretable? 岡崎直観（東京工業大学） http://www.nlp.c.titech.ac.jp/ Sofia Serrano and

アテンション (attention) (Bahdanau+ 2015) 1 計算例  各入力ℎ をベクトル

Hierarchical Attention Network (HAN) (検証に利用する既存モデル) 3 Yang+ (2016) を改変 Zichao

Flat Attention Network (FLAN) (検証に利用する本研究独自のモデル) 4 Serrano+ (2019) を改変単語に対するアテンション

検証方法１：ある入力のアテンション重みを強制的にゼロにする 6 1 2 3 4 入力（単語列）ラベル予測の変化：変化有り変化無し

検証方法１：JSダイバージェンスの差の変化 (モデル: HAN-rnn) 7 Serrano+ (2019) 2018 JS Divergenceの差は概ね正の値アテンションの重みが確率分布の予測によ

検証方法１：ラベル予測の変化の割合 (モデル: HAN-rnn) 8 ↑ 最大，もしくはランダムに選んだ重みをゼロにしたとき  左上: 両方の設定で予測ラベルが変化 

検証方法２：予測ラベルが変わるまでアテンション重みをゼロに 9 1 3 ℎ1 .2 1 2 -1 ℎ2