Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AAAI2022 読み会

AAAI2022 読み会

Seiichi Kuroki

April 06, 2022
Tweet

More Decks by Seiichi Kuroki

Other Decks in Technology

Transcript

  1. Do Feature Attribution Methods Correctly Attribute Features? 2022-04-06 AAAI論文読み会 株式会社リクルート

    プロダクト統括本部 データ推進室 SaaS領域データソリューション2G 黒木 誠一
  2. 2

  3. 自己紹介 3 • 名前 ◦ 黒木誠一 • 略歴 ◦ 大学院で統計的学習理論を研究

    ▪ AAAI採択経験あり ◦ 第一生命で年金アクチュアリー業務2年 ◦ 現在リクルートでデータサイエンティスト
  4. 本論文のContribution 5 • Feature attributionに基づくモデル解釈手法に対する評価法の提案 • 提案評価法に基づき既存解釈手法における問題点について言及 ◦ 画像に対するSaliency Maps

    ◦ テキストデータに対するAttentionに基づく解釈手法 ◦ テキストデータに対するRationale model ▪ Rationale modelに関しては本発表では割愛
  5. モデル解釈手法の概観 6 機械学習モデルにおいて、モデルの信頼性向上などを目的としたモデル解釈 手法が近年盛んに提案されている。 モデル (ex. DNN, GBDT) モデル解釈手法 (ex.

    LIME, SHAP) データ ウオガラス 入力画像 ラベル 特徴寄与度の算出 赤い特徴量を元にモデル はウオガラスと予測した よ! モデルの画像出典: https://www.ibm.com/cloud/learn/neural-networks
  6. Feature attribution methods 7 Feature attributionは各データ毎に、与えられた出力に対する特徴量寄与度を 計算するモデル解釈手法。主な手法は以下の通り。 Additive feature attribution

    Gradient-based attribution - 学習モデルを特徴量寄与度の総和として近似(右式参照) - LIME, SHAPなどが該当のモデル解釈手法 - 予測値や評価指標値に対する特徴量の勾配ベクトルから解釈 - Gradient, GradCAM, SmoothGrad などが該当のモデル解釈手法 その他 - (例)モデルのパラメータから直接解釈 - 線形モデル, Attention score, Rationale model
  7. 本論文の背景 8 モデル解釈手法は本当にモデルを解釈できているのか?が知りたい。 本論文ではモデル解釈手法としてFeature attribution methodをスコープとする。 モデル (ex. DNN, GBDT)

    モデル解釈手法 (ex. LIME, SHAP) データ ウオガラス 入力画像 ラベル 特徴寄与度の算出 赤い特徴量を元にモデル はウオガラスと予測した よ! ほんとに?? モデルの画像出典: https://www.ibm.com/cloud/learn/neural-networks
  8. 11 一般に、実データに対してモデルに対する「実際の解釈」は把握できない モデル (ex. DNN, GBDT) モデル解釈手法 (ex. LIME, SHAP)

    データ 出力となる解釈 実際の解釈 この比較で性能評価すればいいじゃん!! そもそも実際の解釈が 分からないから困ってる… モデル解釈手法の性能評価における問題
  9. 画像に対するモデル解釈手法の評価に関する実験設定 16 • モデル: ResNet-34 • データセット: - 画像データに対してランダムに半分を正例とラベリング -

    Flickrでスクレイピングしたもの - 正例のみに対して事前設定した領域に5種類の補正をかける - ぼかし、色相シフト、透かし入れ、ノイズ、輝度変化 • モデル解釈手法: 5種類のSaliency Map Gradient, SmoothGrad, GradCAM, LIME, SHAP
  10. 自然言語処理におけるモデル解釈手法 19 本発表ではAttentionを用いた解釈における実験結果を紹介する。 実験設定は以下の通り。(データセットは次のスライドにて説明) • モデル、モデル解釈手法: Attention ◦ 事前に文章に対しLei, Barzilay,

    and Jaakkola (2016) と 同じ方法に基づくembeddingを施す • 元データ: ◦ McAuley, Leskovec, and Jurafsky(2012)が 用いたBeerAdvocate datasetと同じもの 各単語に当てられたAttention weightを ベースに単語の重要度を解釈する。
  11. 自然言語処理におけるsemi-natural dataset作成 20 文章をランダムにラベル付けし、正例の文章中の冠詞(a/an/the)を全て’the’に、 負例の文章中の冠詞は全て’a’に変えるという処理を施す。 I have a pen. I

    have an apple. Apple pen! I have a pen I have a pineapple Pineapple pen! I have the pen. I have the apple. Apple pen! I have the pen I have the pineapple Pineapple pen! I have a pen. I have a apple. Apple pen! I have a pen I have a pineapple Pineapple pen! positive negative →冠詞が有効領域となるデータセットを作成!
  12. 結果①(有効領域内の特徴寄与度 vs有効領域外の特徴寄与度 ) 21 高性能なモデル(accuracy > 97%)におけるattention weightが、有効領域に 集中する想定と異なり有効領域外にも同程度のattention weightを算出した。

    2つの文章に対して、主に黄色のattention scoreが目立つようなグラフになるべきところ が、有効領域内の各冠詞の近傍の値と同程度のattention weightとなってしまっている。 緑:有効領域外の特徴量 オレンジ:有効領域内の特徴量 横軸:各特徴量 縦軸:attention weight
  13. 所感 24 • 補正元データに対するGround truthはない。 ◦ 「補正元データの出力」に対する解釈手法の良さは測れない。 • 高性能なモデルが評価指標において1に近くなるべきかは怪しい ◦

    有効領域内の一部の特徴量で判定できるケースもあるのでは? ◦ 有効領域外の特徴量の値はめちゃくちゃでも問題ないのでは? • モデルの性能が高いことを前提にしている評価手法。 ◦ データの有効領域を評価根拠とするため評価値にモデル性能と解釈 手法性能の良さが混在してしまう。