Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AAAI2022 読み会

AAAI2022 読み会

Avatar for Seiichi Kuroki

Seiichi Kuroki

April 06, 2022
Tweet

More Decks by Seiichi Kuroki

Other Decks in Technology

Transcript

  1. Do Feature Attribution Methods Correctly Attribute Features? 2022-04-06 AAAI論文読み会 株式会社リクルート

    プロダクト統括本部 データ推進室 SaaS領域データソリューション2G 黒木 誠一
  2. 2

  3. 自己紹介 3 • 名前 ◦ 黒木誠一 • 略歴 ◦ 大学院で統計的学習理論を研究

    ▪ AAAI採択経験あり ◦ 第一生命で年金アクチュアリー業務2年 ◦ 現在リクルートでデータサイエンティスト
  4. 本論文のContribution 5 • Feature attributionに基づくモデル解釈手法に対する評価法の提案 • 提案評価法に基づき既存解釈手法における問題点について言及 ◦ 画像に対するSaliency Maps

    ◦ テキストデータに対するAttentionに基づく解釈手法 ◦ テキストデータに対するRationale model ▪ Rationale modelに関しては本発表では割愛
  5. モデル解釈手法の概観 6 機械学習モデルにおいて、モデルの信頼性向上などを目的としたモデル解釈 手法が近年盛んに提案されている。 モデル (ex. DNN, GBDT) モデル解釈手法 (ex.

    LIME, SHAP) データ ウオガラス 入力画像 ラベル 特徴寄与度の算出 赤い特徴量を元にモデル はウオガラスと予測した よ! モデルの画像出典: https://www.ibm.com/cloud/learn/neural-networks
  6. Feature attribution methods 7 Feature attributionは各データ毎に、与えられた出力に対する特徴量寄与度を 計算するモデル解釈手法。主な手法は以下の通り。 Additive feature attribution

    Gradient-based attribution - 学習モデルを特徴量寄与度の総和として近似(右式参照) - LIME, SHAPなどが該当のモデル解釈手法 - 予測値や評価指標値に対する特徴量の勾配ベクトルから解釈 - Gradient, GradCAM, SmoothGrad などが該当のモデル解釈手法 その他 - (例)モデルのパラメータから直接解釈 - 線形モデル, Attention score, Rationale model
  7. 本論文の背景 8 モデル解釈手法は本当にモデルを解釈できているのか?が知りたい。 本論文ではモデル解釈手法としてFeature attribution methodをスコープとする。 モデル (ex. DNN, GBDT)

    モデル解釈手法 (ex. LIME, SHAP) データ ウオガラス 入力画像 ラベル 特徴寄与度の算出 赤い特徴量を元にモデル はウオガラスと予測した よ! ほんとに?? モデルの画像出典: https://www.ibm.com/cloud/learn/neural-networks
  8. 11 一般に、実データに対してモデルに対する「実際の解釈」は把握できない モデル (ex. DNN, GBDT) モデル解釈手法 (ex. LIME, SHAP)

    データ 出力となる解釈 実際の解釈 この比較で性能評価すればいいじゃん!! そもそも実際の解釈が 分からないから困ってる… モデル解釈手法の性能評価における問題
  9. 画像に対するモデル解釈手法の評価に関する実験設定 16 • モデル: ResNet-34 • データセット: - 画像データに対してランダムに半分を正例とラベリング -

    Flickrでスクレイピングしたもの - 正例のみに対して事前設定した領域に5種類の補正をかける - ぼかし、色相シフト、透かし入れ、ノイズ、輝度変化 • モデル解釈手法: 5種類のSaliency Map Gradient, SmoothGrad, GradCAM, LIME, SHAP
  10. 自然言語処理におけるモデル解釈手法 19 本発表ではAttentionを用いた解釈における実験結果を紹介する。 実験設定は以下の通り。(データセットは次のスライドにて説明) • モデル、モデル解釈手法: Attention ◦ 事前に文章に対しLei, Barzilay,

    and Jaakkola (2016) と 同じ方法に基づくembeddingを施す • 元データ: ◦ McAuley, Leskovec, and Jurafsky(2012)が 用いたBeerAdvocate datasetと同じもの 各単語に当てられたAttention weightを ベースに単語の重要度を解釈する。
  11. 自然言語処理におけるsemi-natural dataset作成 20 文章をランダムにラベル付けし、正例の文章中の冠詞(a/an/the)を全て’the’に、 負例の文章中の冠詞は全て’a’に変えるという処理を施す。 I have a pen. I

    have an apple. Apple pen! I have a pen I have a pineapple Pineapple pen! I have the pen. I have the apple. Apple pen! I have the pen I have the pineapple Pineapple pen! I have a pen. I have a apple. Apple pen! I have a pen I have a pineapple Pineapple pen! positive negative →冠詞が有効領域となるデータセットを作成!
  12. 結果①(有効領域内の特徴寄与度 vs有効領域外の特徴寄与度 ) 21 高性能なモデル(accuracy > 97%)におけるattention weightが、有効領域に 集中する想定と異なり有効領域外にも同程度のattention weightを算出した。

    2つの文章に対して、主に黄色のattention scoreが目立つようなグラフになるべきところ が、有効領域内の各冠詞の近傍の値と同程度のattention weightとなってしまっている。 緑:有効領域外の特徴量 オレンジ:有効領域内の特徴量 横軸:各特徴量 縦軸:attention weight
  13. 所感 24 • 補正元データに対するGround truthはない。 ◦ 「補正元データの出力」に対する解釈手法の良さは測れない。 • 高性能なモデルが評価指標において1に近くなるべきかは怪しい ◦

    有効領域内の一部の特徴量で判定できるケースもあるのでは? ◦ 有効領域外の特徴量の値はめちゃくちゃでも問題ないのでは? • モデルの性能が高いことを前提にしている評価手法。 ◦ データの有効領域を評価根拠とするため評価値にモデル性能と解釈 手法性能の良さが混在してしまう。