Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Is Attention Interpretable?

6325a9b34da54d5cbddb814c3987a2fe?s=47 Naoaki Okazaki
September 25, 2019

Is Attention Interpretable?

6325a9b34da54d5cbddb814c3987a2fe?s=128

Naoaki Okazaki

September 25, 2019
Tweet

More Decks by Naoaki Okazaki

Other Decks in Research

Transcript

  1. アテンションは解釈可能か? Is Attention Interpretable? 岡崎 直観(東京工業大学) http://www.nlp.c.titech.ac.jp/ Sofia Serrano and

    Noah A. Smith. Proc. of ACL 2019, pages 2931–2951
  2. アテンション (attention) (Bahdanau+ 2015) 1 計算例  各入力ℎ をベクト ル

    に変換  と からスコア を計算し,ソフト マックス関数で確 率分布に変換  を「重み」とし て入力ℎ の重み付 き和を計算 = tanh ℎ + = exp ⊺ ∑ exp ⊺ = � ℎ 1 3 2 -1 -2 2 ℎ1 ℎ2 ℎ3 Linear & tanh .1 -.4 .3 .2 .4 -.2 1 2 3 Dot product with & softmax .2 .5 .3 1 3 2 -1 -2 2 ℎ1 ℎ2 ℎ3 × × × .6 .7 1 2 3 機械翻訳など種々のタスクで性能向上を示す 重み をからモデルの挙動を解釈する研究がある Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. In Proc. of ICLR.
  3. 本研究の概要 2 検証したい仮説  モデルが重要と考える入力をアテンションから同定できるか? 検証方法  学習済モデルに対して,ある指標(例:高いアテンション重みやラ ンダムなど)で選んだ入力のアテンションの重みをゼロにしていく 

    モデルが予測したラベル及び確率分布はどのように変わるか?  ラベルの予測が変わるまでに要した「重みゼロ」の回数は? 結論  アテンションは入力の重要度をノイジーに予測するが,モデル予測 の原因を特定することができるくらいの絶対確実な指標ではない
  4. Hierarchical Attention Network (HAN) (検証に利用する既存モデル) 3 Yang+ (2016) を改変 Zichao

    Yang, Diyi Yang, Chris Dyer, Xiaodong He, Alex Smola, and Eduard Hovy. 2016. Hierarchical attention networks for document classification. In Proc. of NAACL-HLT. 単語に対するアテンション Query: (どのような単語が重要か) Key と Value: ℎ (文の単語の表現) 単語列を双方向GRUでエンコード 文系列を双方向GRUでエンコード 文に対するアテンション Query: (どのような文が重要か) Key と Value: ℎ (文の表現) 線形変換+ソフトマックスで予測 ← 検証対象
  5. Flat Attention Network (FLAN) (検証に利用する本研究独自のモデル) 4 Serrano+ (2019) を改変 単語に対するアテンション

    Query: Key と Value: ℎ (単語の表現) = tanh ℎ + , = exp ⊺ ∑ exp ⊺ 重み付き和 以下のCNNに加えて,双方向RNNと単語 ベクトルのみの設定でも実験する ← 検証対象
  6. 検証に用いるデータセットと実験設定 5 実験設定  エンコーダにCNNを用いるときは,窓幅3トークンと5トークンの畳み込み結果を結合  OptimizerはAdam(勾配クリッピングを10に設定)  開発セット上の正解率が5エポックにわたり改善しなくなったら学習を終了 

    データセットやモデルごとに,ドロップアウト率(各層で異なる)と学習率を設定 データセットの統計情報 (Serrano+ 2019) 各手法の正解率 (Serrano+ 2019)
  7. 検証方法1:ある入力のアテンション重みを強制的にゼロにする 6 1 2 3 4 入力(単語列) ラベル予測の変化: 変化有り 変化無し

    JS divergenceの差: JS(, ∗ ′) JS(, ′ ) − ∗ ′ ′ ラベルを予測する層(線形変換&ソフトマックス) アテンション付きエンコーダ(RNN or CNN or 単語ベクトルのみ) 最大の重みを0に ランダムに選んだ 入力の重みを0に (その後正規化) (その後正規化) 入力に対する アテンション 元々の予測 重要と思われる入力 を除去した時の予測 ランダムに入力を 除去した時の予測 コントロール と対比する 相違
  8. 検証方法1:JSダイバージェンスの差の変化 (モデル: HAN-rnn) 7 Serrano+ (2019) 2018 JS Divergenceの差は概ね正の値 アテンションの重みが確率分布の予測によ

    い影響を与えていることを支持する結果 ← 最大の重み,もしくはランダムに 選んだ重みをゼロにしたとき  横軸: 両者の重みの差  縦軸: JS Divergenceの差 JS , ∗ ′ − JS , ′ 最大の重みを 除去した時の 確率分布距離 ランダムに重み を除去した時の 確率分布距離 アテンションの重みが確率分布予 測に大きな影響を与えるのであれ ば,これは正の値をとるはず アテンションが予測に与える影響 の大きさについては疑問が残る 例えば,アテンション重みの差が0.4くらい あるときでも,JS Divergenceはゼロに近い
  9. 検証方法1:ラベル予測の変化の割合 (モデル: HAN-rnn) 8 ↑ 最大,もしくはランダムに選んだ重みをゼロにしたとき  左上: 両方の設定で予測ラベルが変化 

    右上: 最大の重みをゼロにした時だけラベルが変化  左下: ランダムに重みをゼロにした時のみラベルが変化  右下: 両方の設定で予測ラベルが変化しなかった Serrano+ (2019) アテンションが入力の重要度を 捉えるのであれば,右上の数字 が大きくなるはず アテンションは予測に貢献する入 力を見出す傾向はあるらしい 左下よりも右下の数字が大きいので 最大の重みのアテンションをゼロ にしても,予測されるラベルがあ まり変化しない 85-90%の事例では予測結果が変化しない ある文の情報を隠しても,他の文の情報か ら文書のカテゴリが予測できるから? アテンションの解釈性を 示唆する結果ではあるが, 多くの事例ではゼロにす る重みをどのように選ん でも予測が変化しない
  10. 検証方法2:予測ラベルが変わるまでアテンション重みをゼロに 9 1 3 ℎ1 .2 1 2 -1 ℎ2

    .5 2 -2 2 ℎ3 .3 3 線形変換&ソフトマックス 予測結果が変わるまで繰り返す  ある入力のアテンション重みを ゼロにする  アテンション重みを正規化  表現ベクトルを再計算して,ラ ベル予測を行う どの順で重みをゼロにしていくか  ランダム  アテンション重み の大きい順  勾配 の大きい順  ⋅ の大きい順 元々のモデルで予測された ラベルの確率推定値 .4 .6 ①最大の重みを持 つアテンションの 重みをゼロにして 再計算 ②2番目に高い重 みを持つアテン ションの重みをゼ ロにして再計算 1 アテンション重み が大きい順にゼロに していく例 アテンションの重み降 順にゼロにしていくと, 2個除去したときに予 測結果が変化した ← 予測結果が変化した
  11. 検証方法2:アテンション重みではなかなか予測結果が変化しない 10 Serrano+ (2019)  アテンションの降順にゼロにしていく戦略は勾配ベースの手法と比べて予測の変化が起きにくい  勾配や勾配とアテンションの積による戦略がベストだと主張する訳ではないが,アテンションの 重みを解釈しようとするアイディアに警鐘を鳴らす実験結果と言える

  12. 検証方法2:予測の変化までに多くの重みをゼロにする必要あり 11 Serrano+ (2019)  どの戦略を採用しても,予測の変化が起こるまでにゼロにした重みの数がかなり多い  文に対してアテンションを張るHANでも,多くの重みをゼロにしないと予測の変化が起こらない  CNNとRNNを比較すると,RNNの方が長距離依存を扱えるため予測の変化が起こりにくい

  13. 本研究の限界 12 文書分類タスクしか対象にしていない  言語モデルや機械翻訳でもやってみたいが,解空間が 膨大になるので分析が難しい 元々の予測ラベル(argmax)の変化に着目しすぎている  アテンションの重みを消すことで,元々の予測ラベル以外の確率も変化するはず 対象とするアテンション機構が限定されている

     最近よく使われるマルチヘッドアテンションや自己アテンションは対象外  ラベルを予測する直前の層の分析に限定している
  14. まとめ 13  アテンションはモデルを解釈する「道具」としてよく使われるが,アテン ションが入力の重要度を反映するとは限らないし,モデルの予測の挙動を解 析する手段として適切ではないことが分かった  勾配に基づく方法など,アテンションよりもモデルの予測に大きな影響を与 える戦略があることが分かった 

    モデルの予測を変更するには,アテンションの重みを大量にゼロにしていく 必要がある事例が,よく見受けられた