Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?

【論文紹介】The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?

研究室の日本語輪読会で発表したスライドです。
内容に問題や不備がある場合は、お手数ですが hellorusk1998 [at] gmail.com までご連絡お願いいたします。

Kaito Sugimoto

January 07, 2021
Tweet

More Decks by Kaito Sugimoto

Other Decks in Research

Transcript

  1. The elephant in the interpretability room: Why use attention as
    explanation when we have saliency methods?
    Bastings and Filippova, EMNLP 2020
    杉本 海人
    Aizawa Lab. B4
    2021/01/07
    1 / 21

    View Slide

  2. BlackboxNLP Workshop
    11/20 17:00~ (UTC+9): 第 3 回目の開催
    2 / 21

    View Slide

  3. ワークショップの概要
    • ニューラルネットという Blackbox が行う計算や学習した表現を、
    人間がどのように評価するか?
    • 広く取ると「解釈/説明可能な AI」がトピックだが、NLP のワー
    クショップなので「ニューラルネットが獲得する知識を言語学的
    に分析できるか?」というのも議論の対象
    3 / 21

    View Slide

  4. 今回
    • Saliency Methods というのを知らなかったので読んだ
    • The elephant in the room = 見て見ぬふり
    4 / 21

    View Slide

  5. Attention Mechanism
    Attention Mechanism が普及しているのは周知の通り
    • タスクとして:機械翻訳、言語生成、NLI など、ある単語列から
    別の単語列を生成するタスク全般に
    • モデルとして:Attention 付き seq2seq から Transformer
    (self-attention)、その後の大規模言語モデルへ
    Attention Mechanism が、タスクに対するネットワークの性能を上げて
    いることには異論の余地がない
    5 / 21

    View Slide

  6. 原理
    出力の t − 1 番目の隠れ層 st−1
    から t 番目の隠れ層 st
    を計算する際に、
    入力の隠れ層 h1, ..., hT
    全てを考慮する 1)
    1
    i 番目の出力 si
    に j 番目の入力 hj
    がどの程
    度寄与するのか定める eij
    = a(si−1, hj
    ) を計
    算する(関数 a は tanh など)
    2
    j に関して eij
    の softmax を取ることで
    attention weight 𝛼ij
    を計算する
    3
    重み付けされた context vector ci
    =

    j
    𝛼ijhj
    を計算し、これと si−1
    から si
    を求める
    1さまざまなバリエーションがある
    https://lilianweng.github.io/lil-log/2018/06/24/attention-attention.html 6 / 21

    View Slide

  7. Attention Mechanism
    𝛼ij
    のヒートマップを見ることが多い(図は要約の例: Rush et al. 2015)
    7 / 21

    View Slide

  8. Attention はモデルが正当であることの説明になっているのか?
    最近、Attention Mechanism の説明性・解釈可能性に関する論文が多い
    • "Attention is not Explanation" (Jain and Wallace, 2019) では、
    attention weight が既存の他の特徴量抽出手法と相関がないこと
    や、全く異なる attention weight でも同じ予測になることを指摘
    • これに追従するような論文2 や、カウンター論文(例えば
    attention weight の有効性をより綿密にテストすることを提唱3、
    attention weight の改良を提唱4、など)がいくつも出ている
    2Is attention interpretable? (Serrano and Smith, 2019)
    3Attention is not not explanation. (Wiegreffe and Pinter, 2019)
    4Towards transparent and explainable attention models. (Mohankumar et al., 2020)
    8 / 21

    View Slide

  9. 筆者らの問題指摘
    • 既存の attention の解釈可能性に関する研究では、Explanation に
    よって何を目指しているのか不明瞭
    → goal と user を明確にすべき
    • 明確に書かれているわけではないが、現状の研究は
    goal: どの入力の word が最終的な予測に最も寄与するかを明ら
    かにすること
    user: モデルの開発者(≠ 一般の利用者)
    である
    9 / 21

    View Slide

  10. Faithfulness vs. Plausibility
    • 先程の指摘点は、解釈可能性の評価における Faithfulness と
    Plausibility の議論 5 にも密接に関連する
    • Plausibility(もっともらしさ)とは、その解釈が人間にとって妥
    当であるかどうか
    • Faithfulness(忠実性)とは、その解釈がモデルの "Reasoning
    Process (推論過程?)" を反映しているかどうか(人間による質的
    評価が関わらない)
    • これら 2 つを明確に区別すべきだとしている
    5Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness?
    (Jacovi and Goldberg, 2020)
    10 / 21

    View Slide

  11. 具体例
    • plausible であるが faithful ではないモデルの(極端な)例:
    • 正解の入力であれば、説明がランダムな単語列になるのに対し、
    不正解の入力であれば、説明がランダムな記号列になるモデル
    • HCI コミュニティで行われるようなユーザーテストを行うと、正
    解の方が説明がそれっぽく見えるのでユーザーが納得する可能
    性があり plausible であることになるが、いずれの入力でもラン
    ダムなトークンを使って説明をしているので推論過程を表して
    いるとは言えず faithful ではない
    11 / 21

    View Slide

  12. Faithfulness についてもう少し...
    (Jacovi and Goldberg, 2020) は既存研究が行っている Faithfulness に関
    する 3 つの Assumption(仮定)をまとめている6
    1
    2 つのモデルが同じ予測をすることは、2 つのモデルが同じ推論
    過程を用いることと等価
    2
    あるモデルが似たような入力に対して似たような予測をするこ
    とは、あるモデルが似たような推論過程を用いることと等価
    3
    入力の場所によって推論過程にどの程度影響を与えるかは異な
    り、その寄与は互いに独立である
    attention のヒートマップを説明として使っている論文は、3 番目の仮
    定に立脚している
    6もっとも、筆者らはあるモデルが faithful か否かという二元論には否定的
    12 / 21

    View Slide

  13. 元の論文に戻ると...
    • 現状の attention による説明のゴールである「モデルの開発者が、
    どの入力の word が最終的な予測に最も寄与するかを明らかにす
    ること」は、Plausibility というよりも Faithfulness が対象である
    • このような具体的な目的意識の下では、Attention weight よりも
    Saliency Methods(後述)を説明に使うべきだという主張
    13 / 21

    View Slide

  14. Saliency Methods
    • saliency とは元々は脳神経科学、のちに Computer Vision に導入
    された概念
    • 人間の脳は、目に映る映像から目立つ (salient) 部分を瞬時に特定
    できる
    • 特徴統合理論(Treisman et al., 1980): 輝度や色などの特徴量か
    ら feature map を作り、それを統合することで saliency map を作
    成し、その map の輝度値が最も高い箇所に注意が向けられる7
    • 転じて、機械学習の文脈では、モデルが出力する際に入力のどこ
    が目立つかを調べるという意味で Saliency Methods と呼ぶ
    (Attribution Methods などと呼ぶこともある)
    7http://www.kecl.ntt.co.jp/people/kimura.akisato/pdf/sip2010presentation.pdf
    14 / 21

    View Slide

  15. NLP における Saliency Methods
    • NLP では、勾配(一回微分)を使った Gradient-based methods が
    初期に提案された8
    • 入力の単語列 x1:n
    = (x1, ..., xn
    )、モデルを表す関数 fc
    (x1:n
    ) に対し,
    ∇xi
    fc
    (x1:n
    )
    を各単語 xi
    に関して計算する 9(スコアなら L2 ノルム)
    • 代わりに 勾配 × 入力である ∇xi
    fc
    (x1:n
    ) · xi
    を計算するもの 10 や、
    さらなる改良 11 など
    8Visualizing and Understanding Neural Models in NLP (Li et al, 2016)
    9実質的には誤差逆伝播の値を取ること?
    10Extraction of salient sentences from labelled documents (Denil et al, 2015)
    11Axiomatic Attribution for Deep Networks (Sundararajan et al., 2017)
    15 / 21

    View Slide

  16. 具体例
    Stanford Sentiment Treebank による感情分類タスク(前提として、全
    てのモデルは正しく "very negative" に分類できている)
    16 / 21

    View Slide

  17. 具体例(上手くいかない例)
    "I hate the movie though the plot is interesting."
    正しく very negative に判定できるモデルに
    もかかわらず、gradient は though 以下にば
    かり大きな値が出る
    なお,though 以下のみでこのモデルを動か
    すと positive に判定される(なので、faithful
    な説明にはなっていないとも言える)
    17 / 21

    View Slide

  18. Gradient-based Methods 以外の Saliency Methods
    • Propagation-based methods
    • Back Propagation する際に特殊な計算を行うことで、出力が入力
    の各部分とどの程度関連があるのかをスコア付けする 12
    • Occlusion-based methods
    • 入力の各部分を排除 (Occlusion) した時に出力がどの程度変化す
    るのかでスコア付けする 13 。最も単純には fc
    (x1:n
    ) − fc
    (x1:n|xi
    =0
    )
    • 実装は簡単だが n + 1 回計算が必要
    12Evaluating Recurrent Neural Network Explanations (Arras et al., 2019) など
    13ERASER: A Benchmark to Evaluate Rationalized NLP Models (DeYoung et al., 2020) など
    18 / 21

    View Slide

  19. なぜ筆者らは Saliency Methods を推すのか?
    • Saliency Methods は、入力のどの部分が予測に寄与するかを調べ
    るという明確なゴールを持っている。また、ネットワークの計算
    パス全体を反映してスコア計算するものが多い。
    • Attention weights は、ネットワークのある一部分において、入力
    側にある representation のどこに注意するかを反映しているだ
    け。しかもその representation は他の入力の結果が既に混ざって
    いる可能性もある(seq2seq の後の方の hidden state など)

    • したがって、
    「モデルの開発者が、どの入力の word が最終的な予
    測に最も寄与するかを明らかにすること」が目的なら Saliency
    Methods を使うべき
    19 / 21

    View Slide

  20. 補足
    • そもそもモデルの説明ではなく Attention の役割自体を調べると
    いう目的なら使うべき 14
    • この論文で扱ったのとは異なる user や goal が対象の説明なら使
    うべき
    • 学習された attention weight を使って文章にマーカーを引いた文では、そ
    うでないマーカーよりも、人間がより速く文書分類をできるようになっ
    た 15 というような plausible な説明も考えられる
    • Saliency の方にも様々な課題が指摘されている(筆者らは 問題
    点が少ないから推しているというわけではない)
    14ベクトル長に基づく自己注意機構の解析
    https://www.anlp.jp/proceedings/annual_meeting/2020/pdf_dir/B4-5.pdf など
    15Do Human Rationales Improve Machine Explanations? (Strout et al., 2019)
    20 / 21

    View Slide

  21. 感想など
    • NLP における Saliency Methods の良いまとめになっている
    • 説明の goal と user を明確にすべきという主張はなるほどと感
    じた
    • Faithfulness vs. Plausibility の議論は、解釈可能性に関わる研究を
    していなくても、モデルの結果の具体例を 示す / 見る 時に意識
    したい...
    • まだ読めていないが、Saliency Methods が上手くいっていないこ
    とを指摘する論文 16 が面白そうだった
    -> 1 つの手法に固執するのは良くなさそう
    16Evaluating Attribution Methods using White-Box LSTMs (Hao, 2020)
    21 / 21

    View Slide