Slide 1

Slide 1 text

1 Tech in 京都 #2 Interpretable Machine Learning ~ モデル非依存な解釈手法の紹介 ~ 株式会社 HACARUS 増井 隆治 (Masui Ryuji) 発表時間: 18:45~19:25

Slide 2

Slide 2 text

2 ● 名前: 増井 隆治 (Masui Ryuji) ● 2019 年 株式会社 HACARUS 入社 ○ データサイエンティスト ● 趣味 ○ 音楽 ■ ドラム、ギター ○ おいしいお酒 ■ 日本酒、ビール、ワイン ○ ゲーム ■ ぷよぷよ、ファイアーエムブレム、将棋、 etc ● 技術的な話 ○ スパースモデリングの解説記事 @ CodeZine → 書籍化 著者: 染田 貴志、木虎 直樹、宇佐見 一平、増井 隆治、田辺 広樹 ○ 応用物理学会 講演奨励賞 (MI の話) 自己紹介

Slide 3

Slide 3 text

3 Christoph Molnar の Interpretable Machine Learning から紹介 https://christophm.github.io/interpretable-ml-book/ (CCライセンスで提供されており、 webで無料で読めます) 英語で読むのはちょっと、、、という方には! 今日の話

Slide 4

Slide 4 text

4 2021年5月に HACARUSの 有志のデータサイエンティストが 和訳を公開 https://hacarus.github.io/interpretable-ml-book-ja/index.html 日本語版あります!

Slide 5

Slide 5 text

5 Interpretable Machine Learning = 機械学習の解釈性に関係する話 = XAI (eXplainable AI) 目次: 1. 解釈性とはなにか 2. 解釈可能な機械学習モデル 線形モデル、決定木、決定規則、 RuleFit、など 3. モデル非依存な解釈手法 PDP、LIME、SHAP、 など 4. Neural Network のための解釈手法 Grad-CAM など 本書の内容 今日の目標: モデル非依存な解釈手法を知る 実際に使う上での勘所、注意点を知る

Slide 6

Slide 6 text

6 機械学習:データから予測モデルを学習する = 真の関数 (現実世界) をうまく表す関数をデータから構築 (今回は予測モデルはブラックボックスな関数を想定) サロゲートモデル: ブラックボックスなモデルの予測を 近似するように学習された代理モデル インスタンス: 予測する対象 局所的な解釈: インスタンスの付近でのみ予測の振る舞いが解釈できる 大域的な解釈: インスタンスに関係なく予測の振る舞いが解釈できる 準備:

Slide 7

Slide 7 text

7 機械学習の解釈性 = 予測の結果の要因を人間が理解できる度合い 機械学習の解釈性の手法の分類 1. 本質的に解釈可能なモデル (Intrinsic) か 後付けか (Post-hoc) 2. 特定のモデル専用の手法か、汎用的な手法か 3. 局所的な説明か、大局的な説明か 局所的: 特定のインスタンスに対する予測のみ説明 (例: LIME、SHAP) 大局的: モデル全体の挙動を説明 (例: PDP、SHAP) 本日の内容: ブラックボックスなモデルにも適用できる (Post-hoc) 汎用的な解釈手法を紹介 機械学習の解釈性とは何か

Slide 8

Slide 8 text

8 ある特徴量を変化させたときに、予測がどのように変化するか ある特徴量が予測に与える平均的な効果を計算することで解釈する大域的な説明 1. Partial Dependence Plot (PDP) 注目している変数以外を周辺化することで計算可能 (全てのデータ点が特定の特徴量の値を持つと仮定した場合の予測の平均)

Slide 9

Slide 9 text

9 気温、湿度、風速の三つの特徴量から自転車のレンタル数を 予測するランダムフォレストに対する PDP の結果 PDPの例 気温が上がると レンタル数増 湿度が上がると レンタル数減 風速が上がると レンタル数減

Slide 10

Slide 10 text

10 長所: ● 結果が直感的 (専門家でなくても理解が簡単) ● 計算、実装が簡単 ○ Scikit learn に実装済み https://scikit-learn.org/stable/modules/partial_dependence.html 短所: ● データの分布を併記しないと誤解の恐れがある (scikit learn は default で対応) ● 周辺化の計算時に、現実的ではないインスタンスを用いる可能性 ○ 身長 2m、体重 50 kg の予測値が結果に用いられる ● 特徴量に相互作用があると誤解の恐れがある (PDP は特徴量の独立性を仮定) ○ ICE プロットも併記することで、誤解を避けることができる PDPの長所と短所

Slide 11

Slide 11 text

11 ある特徴量を変化させたときに予測がどのように変化するかを個々のインスタンスごとに計算 2. Individual Conditional Expectation (ICE) 一つの線は、一つのインスタンスを表す。 これらの線の平均を求めると、PDP と一致する

Slide 12

Slide 12 text

12 相互作用がない場合、ある場合のPDPとICE 相互作用がない場合、 ICE の変化は PDP の変化と一致する。 相互作用がある場合、 PDP のみをみると誤解を 招く恐れがある。 特徴量に相互作用がないと確証を持てない場合は、 PDP のみではなく、ICE も可視化するべき。

Slide 13

Slide 13 text

13 PDP ● ある特徴量を変化させると、予測がどのように変化するか知りたい場合に有効 ● 特徴量の独立性を仮定しているため、相互作用を持つ場合は、誤解を招く恐れがある ○ データの分布、ICE を併記することで、誤解を防げる可能性が上がる ICE ● 特徴量が相互作用を持つ場合でも、変化の様子を可視化できる ● 同時分布の計算によって、現実的でないインスタンスの結果が含まれる可能性はある。 ● インスタンスの数が多いと図が複雑になり何も読み取れない可能性も PDPとICE のまとめ

Slide 14

Slide 14 text

14 入力データに変動を加えた時、予測にどのような変化が起こるかを ローカルサロゲートモデル (局所的な代理モデル) を用いて解釈する手法 3. Local Interpretable Model-agnostic Explanations (LIME) 損失関数 モデル複雑度 G: モデルの集合 インスタンス x の近傍のみで、ブラックボックスモデル f を忠実に再現するような モデル g を モデルの集合 (例: 線形モデル全体、Lasso や 決定木も可) から損失関数を最小 にするような代理モデルを計算 (局所的な説明) 懸念点: 近傍の設定範囲によって、結果が大きく変化する可能性

Slide 15

Slide 15 text

15 近傍の設定範囲による結果の変化 黒線: ブラックボックスモデルの出力 ×印: インスタンス 近傍の範囲によって、LIMEの結果 が大きくことなっている。 しかし、一般的には、近傍を どのように設定するかの基準はあいまい。 近傍を変化させたときの安定性は必ずチェック するべき

Slide 16

Slide 16 text

16 Inception V3 という ニューラルネットワークの誤分類の結果を解釈 77% の確率で「ベーグル」、4%の確率で「ストロベリー」と判定 画像データに対する LIME の例 緑: 判定結果に正の影響、赤 : 判定結果に負の影響 「ベーグル」に対する説明 「ストロベリー」に対する説明

Slide 17

Slide 17 text

17 長所: ● 元の機械学習モデルを置き換えても、同じ手法で解釈が可能 ○ 例: 元が SVM でも xgboost であっても、決定木 (線形モデル) で説明可能 ● テーブルデータ、テキストデータ、画像データ全てで有効な手法 ● 元のモデルで使用していない特徴量を用いて説明が可能 ○ 例: PCA後の特徴量で学習したモデルでも、 LIME で元の特徴量で説明可能 短所: ● 近傍の設定方法に明確な手法がない ● 忠実度とモデル複雑度のトレードオフの決定方法 ● 説明の不安定さ(似たインスタンスであっても大きく異なる説明が得られる) LIMEの長所と短所

Slide 18

Slide 18 text

18 特徴量の予測への貢献度を計算することで、予測を説明する手法(ゲーム理論がベース) シャープレイ値の性質 1. 局所正確性 (Local Accuracy) → 特徴量の貢献度は、予測と平均との差となること 2. 欠損性 (Missingness) → 欠損している特徴量の貢献度はゼロになること 3. 一貫性 (Consistency) → 特徴量の貢献度が増加すると、シャープレイ値も増加 とりあえず、使ってみる (https://shap.readthedocs.io/en/latest/index.html) 4. SHapley Additive exPlanations (SHAP)

Slide 19

Slide 19 text

19 ボストン住宅価格のデータセットに適用 このインスタンスに対しては、 各特徴量の予測への貢献度を可視化 RM (平均部屋数) PTRATIO (生徒と先生の比率) RAD (主要高速道路へのアクセス性 ) によって、負の影響 TAX (固定資産税率) によって正の影響 → 特徴量ごとの予測への貢献度がわかる (局所的な説明)

Slide 20

Slide 20 text

20 すべてのインスタンスに対する特徴量の貢献度の分布も出せる 分布のばらつきが大きい = 予測に大きく影響を与える 特徴量が予測に対して、正の影響を与えるのか、 負の影響を与えるのか直感的に解釈可能 (大域的な説明) LSTAT (低所得者割合) は価格に負の影響 RM (平均部屋数) は価格に正の影響 → SHAP は局所的な説明も大域的な説明も可

Slide 21

Slide 21 text

21 長所: ● 予測の貢献度が、特徴量に公平に分配されることが保証されている(ゲーム理論より) ● 大域的な説明と局所的な説明を統一的に扱うことが可能 ● 決定木ベースのモデルでは、特に高速に計算可能 短所: ● その特徴量を除外したときの予測値の差という意味ではないことに注意 正確には、現在の特徴量の集合が与えられたときの実際の予測値 (と平均予測値の差) に対する特徴量の貢献度 ● シャープレイ値は常に全ての特徴量を使う説明を作るため、スパースな説明は不得意 ● 特徴量に相関がある場合、非現実的なインスタンスに基づいて説明が作られる可能性 SHAP の長所と短所

Slide 22

Slide 22 text

22 機械学習の解釈性とは、 予測の結果の要因を人間が理解できる度合い 今日の内容 1. PDPとICE 2. LIME 3. SHAP その他にも、permutation importance など、様々な解釈手法が提案されている。 それぞれの手法に長所、短所があり、どのような説明が求められるかによって、適切に使い分ける。 誤解が起きないように、データの特性、解釈手法の技術特性を理解する必要がある。 “解釈手法も銀の弾丸はない” まとめ

Slide 23

Slide 23 text

23 [参考文献] Interpretable Machine Learning 原文 ● https://christophm.github.io/interpretable-ml-book/ Interpretable Machine Learning 和訳ページ ● https://hacarus.github.io/interpretable-ml-book-ja/index.html もし、誤訳等を発見された場合は、 ● https://github.com/hacarus/interpretable-ml-book-ja/tree/japanese ● こちらの、`developer_guide.md` に従ってプルリクを送ってください。 Thank you for Listening!