Slide 1

Slide 1 text

Do Feature Attribution Methods Correctly Attribute Features? 2022-04-06 AAAI論文読み会 株式会社リクルート プロダクト統括本部 データ推進室 SaaS領域データソリューション2G 黒木 誠一

Slide 2

Slide 2 text

2

Slide 3

Slide 3 text

自己紹介 3 ● 名前 ○ 黒木誠一 ● 略歴 ○ 大学院で統計的学習理論を研究 ■ AAAI採択経験あり ○ 第一生命で年金アクチュアリー業務2年 ○ 現在リクルートでデータサイエンティスト

Slide 4

Slide 4 text

論文選定理由 4 ● LIMEで有名なRibeiro様の直近動向 ● 解釈性周りで個人的に昔から気になっていた内容 「モデルに解釈性がある」と「解釈が正しくできる」の違い

Slide 5

Slide 5 text

本論文のContribution 5 ● Feature attributionに基づくモデル解釈手法に対する評価法の提案 ● 提案評価法に基づき既存解釈手法における問題点について言及 ○ 画像に対するSaliency Maps ○ テキストデータに対するAttentionに基づく解釈手法 ○ テキストデータに対するRationale model ■ Rationale modelに関しては本発表では割愛

Slide 6

Slide 6 text

モデル解釈手法の概観 6 機械学習モデルにおいて、モデルの信頼性向上などを目的としたモデル解釈 手法が近年盛んに提案されている。 モデル (ex. DNN, GBDT) モデル解釈手法 (ex. LIME, SHAP) データ ウオガラス 入力画像 ラベル 特徴寄与度の算出 赤い特徴量を元にモデル はウオガラスと予測した よ! モデルの画像出典: https://www.ibm.com/cloud/learn/neural-networks

Slide 7

Slide 7 text

Feature attribution methods 7 Feature attributionは各データ毎に、与えられた出力に対する特徴量寄与度を 計算するモデル解釈手法。主な手法は以下の通り。 Additive feature attribution Gradient-based attribution - 学習モデルを特徴量寄与度の総和として近似(右式参照) - LIME, SHAPなどが該当のモデル解釈手法 - 予測値や評価指標値に対する特徴量の勾配ベクトルから解釈 - Gradient, GradCAM, SmoothGrad などが該当のモデル解釈手法 その他 - (例)モデルのパラメータから直接解釈 - 線形モデル, Attention score, Rationale model

Slide 8

Slide 8 text

本論文の背景 8 モデル解釈手法は本当にモデルを解釈できているのか?が知りたい。 本論文ではモデル解釈手法としてFeature attribution methodをスコープとする。 モデル (ex. DNN, GBDT) モデル解釈手法 (ex. LIME, SHAP) データ ウオガラス 入力画像 ラベル 特徴寄与度の算出 赤い特徴量を元にモデル はウオガラスと予測した よ! ほんとに?? モデルの画像出典: https://www.ibm.com/cloud/learn/neural-networks

Slide 9

Slide 9 text

モデルの性能評価 9 モデル性能評価に関しては、モデルの出力とデータのラベルを比較して行う モデル (ex. DNN, GBDT) データ 予測ラベル 実際のラベル この比較で性能評価

Slide 10

Slide 10 text

モデル解釈手法の性能評価(?) 10 モデル解釈手法においても、出力された解釈と実際の解釈を比較したい モデル (ex. DNN, GBDT) モデル解釈手法 (ex. LIME, SHAP) データ 出力となる解釈 実際の解釈 この比較で性能評価すればいいじゃん!!

Slide 11

Slide 11 text

11 一般に、実データに対してモデルに対する「実際の解釈」は把握できない モデル (ex. DNN, GBDT) モデル解釈手法 (ex. LIME, SHAP) データ 出力となる解釈 実際の解釈 この比較で性能評価すればいいじゃん!! そもそも実際の解釈が 分からないから困ってる… モデル解釈手法の性能評価における問題

Slide 12

Slide 12 text

12 全ての入力データのラベル判定に寄与する特徴量が一部なら、高性能モデルに 対するモデル解釈は上記特徴量への寄与度を高くするのが「正しい」だろう 本論文におけるアイデア オレンジ色の特徴量:各データの分類に寄与するピクセル むらさき色の特徴量:全データの分類に必要十分なピクセル(以降、有効領域とよぶ) →本論文では、画像処理、自然言語処理において有効領域の範囲を特定できるような データセット(semi-natural dataset)を作成して評価を行う。

Slide 13

Slide 13 text

有効領域に基づくモデル解釈手法の性能評価 13 本論文ではモデル解釈手法の性能評価において、出力となる解釈が連続値か 離散値かでそれぞれ評価指標を構成している。 モデル解釈が連続値による場合 モデル解釈が離散値による場合

Slide 14

Slide 14 text

有効特徴量に基づくモデル解釈手法の性能評価 14 本論文ではモデル解釈手法の性能評価において、出力となる解釈が連続値か 離散値かでそれぞれ評価指標を構成している。 モデル解釈が連続値による場合 特徴量集合Fに対する寄与度の総和 / 全特徴量に対する寄与度の総和を計算したもの。 →有効領域を としたとき、 となることが望ましい。

Slide 15

Slide 15 text

有効特徴量に基づくモデル解釈手法の性能評価 15 本論文ではモデル解釈手法の性能評価において、出力となる解釈が連続値か 離散値かでそれぞれ評価指標を構成している。 モデル解釈が離散値による場合 例えばPrecisionは、特徴量集合Fの中で、有効領域内にも属する特徴量の割合 →モデル解釈手法による出力Fが1に近いほど望ましい。

Slide 16

Slide 16 text

画像に対するモデル解釈手法の評価に関する実験設定 16 ● モデル: ResNet-34 ● データセット: - 画像データに対してランダムに半分を正例とラベリング - Flickrでスクレイピングしたもの - 正例のみに対して事前設定した領域に5種類の補正をかける - ぼかし、色相シフト、透かし入れ、ノイズ、輝度変化 ● モデル解釈手法: 5種類のSaliency Map Gradient, SmoothGrad, GradCAM, LIME, SHAP

Slide 17

Slide 17 text

結果①(画像に変換を施した領域の割合 vs Attr%) 17 画像に変換を施した領域の割合によらず、高性能なモデルであれば Attr%が1近くとなる想定と矛盾していると考えられる結果が得られた。 水色:操作後の画像データ オレンジ:操作前の画像データ 縦軸:モデル解釈手法に基づくAttr% 横軸:画像に操作を施した領域の割合 SHAP以外は45度線(全特徴量に一様に同じ寄与度とした場合)とあまり乖離がない という結果になった。

Slide 18

Slide 18 text

結果②(テストデータへの精度 vs Attr%) 18 モデル性能の向上によりAttr%が上昇していく想定と矛盾。 水色:操作後の画像データ オレンジ:操作前の画像データ 縦軸:モデル解釈手法に基づくAttr% 横軸:テストデータに対するaccuracy モデル解釈が、性能向上から想定される 操作範囲への寄与度向上を正しく捉えられていない

Slide 19

Slide 19 text

自然言語処理におけるモデル解釈手法 19 本発表ではAttentionを用いた解釈における実験結果を紹介する。 実験設定は以下の通り。(データセットは次のスライドにて説明) ● モデル、モデル解釈手法: Attention ○ 事前に文章に対しLei, Barzilay, and Jaakkola (2016) と 同じ方法に基づくembeddingを施す ● 元データ: ○ McAuley, Leskovec, and Jurafsky(2012)が 用いたBeerAdvocate datasetと同じもの 各単語に当てられたAttention weightを ベースに単語の重要度を解釈する。

Slide 20

Slide 20 text

自然言語処理におけるsemi-natural dataset作成 20 文章をランダムにラベル付けし、正例の文章中の冠詞(a/an/the)を全て’the’に、 負例の文章中の冠詞は全て’a’に変えるという処理を施す。 I have a pen. I have an apple. Apple pen! I have a pen I have a pineapple Pineapple pen! I have the pen. I have the apple. Apple pen! I have the pen I have the pineapple Pineapple pen! I have a pen. I have a apple. Apple pen! I have a pen I have a pineapple Pineapple pen! positive negative →冠詞が有効領域となるデータセットを作成!

Slide 21

Slide 21 text

結果①(有効領域内の特徴寄与度 vs有効領域外の特徴寄与度 ) 21 高性能なモデル(accuracy > 97%)におけるattention weightが、有効領域に 集中する想定と異なり有効領域外にも同程度のattention weightを算出した。 2つの文章に対して、主に黄色のattention scoreが目立つようなグラフになるべきところ が、有効領域内の各冠詞の近傍の値と同程度のattention weightとなってしまっている。 緑:有効領域外の特徴量 オレンジ:有効領域内の特徴量 横軸:各特徴量 縦軸:attention weight

Slide 22

Slide 22 text

結果② (複数モデルによる有効領域内のAttr% vs有効領域外のAttr%) 22 全てaccuracyが97%を超えるような異なる11モデルにおいて、有効領域内外 それぞれにおけるAttr%の平均、標準偏差および単語の出現割合を比較した。 有効領域内におけるAttr%の推定値と全特徴量に一様に同じ値を付与した場合 のAttr%に大差がない(1シグマ区間内)結果となっている。

Slide 23

Slide 23 text

論文のまとめ 23 ● 機械学習モデル解釈手法に対する性能評価手法の提案 ○ 有効領域という概念を元にした評価指標の提案 ○ 有効領域を把握できるデータセット作成法の提案 ● 実験により既存モデル解釈手法の改善余地を指摘 ○ 画像、自然言語処理に対するFeature attributionによる既存 解釈手法では「良い」解釈手法で想定される結果が得られなかった。

Slide 24

Slide 24 text

所感 24 ● 補正元データに対するGround truthはない。 ○ 「補正元データの出力」に対する解釈手法の良さは測れない。 ● 高性能なモデルが評価指標において1に近くなるべきかは怪しい ○ 有効領域内の一部の特徴量で判定できるケースもあるのでは? ○ 有効領域外の特徴量の値はめちゃくちゃでも問題ないのでは? ● モデルの性能が高いことを前提にしている評価手法。 ○ データの有効領域を評価根拠とするため評価値にモデル性能と解釈 手法性能の良さが混在してしまう。