Interpretable Machine Learning: モデル非依存な解釈手法の紹介

1 Tech in 京都 #2 Interpretable Machine Learning ~ モデル非依存な解釈手法の紹介
~ 株式会社 HACARUS 増井　隆治 (Masui Ryuji) 発表時間: 18:45~19:25

2 • 名前: 増井　隆治 (Masui Ryuji) • 2019 年株式会社
HACARUS 入社 ◦ データサイエンティスト • 趣味 ◦ 音楽 ▪ ドラム、ギター ◦ おいしいお酒 ▪ 日本酒、ビール、ワイン ◦ ゲーム ▪ ぷよぷよ、ファイアーエムブレム、将棋、 etc • 技術的な話 ◦ スパースモデリングの解説記事 @ CodeZine → 書籍化著者: 染田貴志、木虎直樹、宇佐見一平、増井隆治、田辺広樹 ◦ 応用物理学会講演奨励賞 (MI の話) 自己紹介

3 Christoph Molnar の Interpretable Machine Learning から紹介 https://christophm.github.io/interpretable-ml-book/ (CCライセンスで提供されており、
webで無料で読めます) 英語で読むのはちょっと、、、という方には！今日の話

4 2021年5月に HACARUSの有志のデータサイエンティストが和訳を公開 https://hacarus.github.io/interpretable-ml-book-ja/index.html 日本語版あります！

5 Interpretable Machine Learning = 機械学習の解釈性に関係する話 = XAI (eXplainable AI)
目次: 1. 解釈性とはなにか 2. 解釈可能な機械学習モデル線形モデル、決定木、決定規則、 RuleFit、など 3. モデル非依存な解釈手法 PDP、LIME、SHAP、など 4. Neural Network のための解釈手法 Grad-CAM など本書の内容今日の目標: モデル非依存な解釈手法を知る実際に使う上での勘所、注意点を知る

6 機械学習：データから予測モデルを学習する＝真の関数 (現実世界) をうまく表す関数をデータから構築（今回は予測モデルはブラックボックスな関数を想定）サロゲートモデル: ブラックボックスなモデルの予測を近似するように学習された代理モデル
インスタンス: 予測する対象局所的な解釈: インスタンスの付近でのみ予測の振る舞いが解釈できる大域的な解釈: インスタンスに関係なく予測の振る舞いが解釈できる準備:

7 機械学習の解釈性 = 予測の結果の要因を人間が理解できる度合い機械学習の解釈性の手法の分類 1. 本質的に解釈可能なモデル (Intrinsic) か後付けか
(Post-hoc) 2. 特定のモデル専用の手法か、汎用的な手法か 3. 局所的な説明か、大局的な説明か局所的: 特定のインスタンスに対する予測のみ説明 (例: LIME、SHAP) 大局的: モデル全体の挙動を説明 (例: PDP、SHAP) 本日の内容: ブラックボックスなモデルにも適用できる (Post-hoc) 汎用的な解釈手法を紹介機械学習の解釈性とは何か

8 ある特徴量を変化させたときに、予測がどのように変化するかある特徴量が予測に与える平均的な効果を計算することで解釈する大域的な説明 1. Partial Dependence Plot (PDP) 注目している変数以外を周辺化することで計算可能（全てのデータ点が特定の特徴量の値を持つと仮定した場合の予測の平均）

9 気温、湿度、風速の三つの特徴量から自転車のレンタル数を予測するランダムフォレストに対する PDP の結果 PDPの例気温が上がるとレンタル数増湿度が上がるとレンタル数減
風速が上がるとレンタル数減

10 長所: • 結果が直感的 (専門家でなくても理解が簡単) • 計算、実装が簡単 ◦ Scikit learn
に実装済み https://scikit-learn.org/stable/modules/partial_dependence.html 短所: • データの分布を併記しないと誤解の恐れがある (scikit learn は default で対応) • 周辺化の計算時に、現実的ではないインスタンスを用いる可能性 ◦ 身長 2m、体重 50 kg の予測値が結果に用いられる • 特徴量に相互作用があると誤解の恐れがある (PDP は特徴量の独立性を仮定) ◦ ICE プロットも併記することで、誤解を避けることができる PDPの長所と短所

11 ある特徴量を変化させたときに予測がどのように変化するかを個々のインスタンスごとに計算 2. Individual Conditional Expectation (ICE) 一つの線は、一つのインスタンスを表す。これらの線の平均を求めると、PDP と一致する

12 相互作用がない場合、ある場合のPDPとICE 相互作用がない場合、 ICE の変化は PDP の変化と一致する。相互作用がある場合、 PDP のみをみると誤解を
招く恐れがある。特徴量に相互作用がないと確証を持てない場合は、 PDP のみではなく、ICE も可視化するべき。

13 PDP • ある特徴量を変化させると、予測がどのように変化するか知りたい場合に有効 • 特徴量の独立性を仮定しているため、相互作用を持つ場合は、誤解を招く恐れがある ◦ データの分布、ICE を併記することで、誤解を防げる可能性が上がる ICE
• 特徴量が相互作用を持つ場合でも、変化の様子を可視化できる • 同時分布の計算によって、現実的でないインスタンスの結果が含まれる可能性はある。 • インスタンスの数が多いと図が複雑になり何も読み取れない可能性も PDPとICE のまとめ

14 入力データに変動を加えた時、予測にどのような変化が起こるかをローカルサロゲートモデル (局所的な代理モデル) を用いて解釈する手法 3. Local Interpretable Model-agnostic Explanations
(LIME) 損失関数モデル複雑度 G: モデルの集合インスタンス x の近傍のみで、ブラックボックスモデル f を忠実に再現するようなモデル g をモデルの集合 (例: 線形モデル全体、Lasso や決定木も可) から損失関数を最小にするような代理モデルを計算（局所的な説明）懸念点: 近傍の設定範囲によって、結果が大きく変化する可能性

15 近傍の設定範囲による結果の変化黒線: ブラックボックスモデルの出力 ×印: インスタンス近傍の範囲によって、LIMEの結果が大きくことなっている。しかし、一般的には、近傍をどのように設定するかの基準はあいまい。
近傍を変化させたときの安定性は必ずチェックするべき

16 Inception V3 というニューラルネットワークの誤分類の結果を解釈 77% の確率で「ベーグル」、4%の確率で「ストロベリー」と判定画像データに対する LIME の例
緑: 判定結果に正の影響、赤 : 判定結果に負の影響「ベーグル」に対する説明「ストロベリー」に対する説明

17 長所: • 元の機械学習モデルを置き換えても、同じ手法で解釈が可能 ◦ 例: 元が SVM でも xgboost
であっても、決定木 (線形モデル) で説明可能 • テーブルデータ、テキストデータ、画像データ全てで有効な手法 • 元のモデルで使用していない特徴量を用いて説明が可能 ◦ 例: PCA後の特徴量で学習したモデルでも、 LIME で元の特徴量で説明可能短所: • 近傍の設定方法に明確な手法がない • 忠実度とモデル複雑度のトレードオフの決定方法 • 説明の不安定さ（似たインスタンスであっても大きく異なる説明が得られる） LIMEの長所と短所

18 特徴量の予測への貢献度を計算することで、予測を説明する手法（ゲーム理論がベース）シャープレイ値の性質 1. 局所正確性 (Local Accuracy) →　特徴量の貢献度は、予測と平均との差となること 2. 欠損性
(Missingness) →　欠損している特徴量の貢献度はゼロになること 3. 一貫性 (Consistency) →　特徴量の貢献度が増加すると、シャープレイ値も増加とりあえず、使ってみる (https://shap.readthedocs.io/en/latest/index.html) 4. SHapley Additive exPlanations (SHAP)

19 ボストン住宅価格のデータセットに適用このインスタンスに対しては、各特徴量の予測への貢献度を可視化 RM (平均部屋数) PTRATIO (生徒と先生の比率) RAD (主要高速道路へのアクセス性
) によって、負の影響 TAX (固定資産税率) によって正の影響 → 特徴量ごとの予測への貢献度がわかる（局所的な説明）

20 すべてのインスタンスに対する特徴量の貢献度の分布も出せる分布のばらつきが大きい = 予測に大きく影響を与える特徴量が予測に対して、正の影響を与えるのか、負の影響を与えるのか直感的に解釈可能（大域的な説明） LSTAT (低所得者割合)
は価格に負の影響 RM (平均部屋数) は価格に正の影響 → SHAP は局所的な説明も大域的な説明も可

21 長所: • 予測の貢献度が、特徴量に公平に分配されることが保証されている（ゲーム理論より） • 大域的な説明と局所的な説明を統一的に扱うことが可能 • 決定木ベースのモデルでは、特に高速に計算可能短所: •
その特徴量を除外したときの予測値の差という意味ではないことに注意正確には、現在の特徴量の集合が与えられたときの実際の予測値 (と平均予測値の差) に対する特徴量の貢献度 • シャープレイ値は常に全ての特徴量を使う説明を作るため、スパースな説明は不得意 • 特徴量に相関がある場合、非現実的なインスタンスに基づいて説明が作られる可能性 SHAP の長所と短所

22 機械学習の解釈性とは、予測の結果の要因を人間が理解できる度合い今日の内容 1. PDPとICE 2. LIME 3. SHAP
その他にも、permutation importance など、様々な解釈手法が提案されている。それぞれの手法に長所、短所があり、どのような説明が求められるかによって、適切に使い分ける。誤解が起きないように、データの特性、解釈手法の技術特性を理解する必要がある。 “解釈手法も銀の弾丸はない” まとめ

23 [参考文献] Interpretable Machine Learning 原文 • https://christophm.github.io/interpretable-ml-book/ Interpretable Machine
Learning 和訳ページ • https://hacarus.github.io/interpretable-ml-book-ja/index.html もし、誤訳等を発見された場合は、 • https://github.com/hacarus/interpretable-ml-book-ja/tree/japanese • こちらの、`developer_guide.md` に従ってプルリクを送ってください。 Thank you for Listening!

Interpretable Machine Learning: モデル非依存な解釈手法の紹介

Interpretable Machine Learning: モデル非依存な解釈手法の紹介

Hacarus Inc.

More Decks by Hacarus Inc.

Other Decks in Technology

Featured

Transcript

1 Tech in 京都 #2 Interpretable Machine Learning ~ モデル非依存な解釈手法の紹介

2 • 名前: 増井　隆治 (Masui Ryuji) • 2019 年株式会社

3 Christoph Molnar の Interpretable Machine Learning から紹介 https://christophm.github.io/interpretable-ml-book/ (CCライセンスで提供されており、

4 2021年5月に HACARUSの有志のデータサイエンティストが和訳を公開 https://hacarus.github.io/interpretable-ml-book-ja/index.html 日本語版あります！

5 Interpretable Machine Learning = 機械学習の解釈性に関係する話 = XAI (eXplainable AI)

7 機械学習の解釈性 = 予測の結果の要因を人間が理解できる度合い機械学習の解釈性の手法の分類 1. 本質的に解釈可能なモデル (Intrinsic) か後付けか

9 気温、湿度、風速の三つの特徴量から自転車のレンタル数を予測するランダムフォレストに対する PDP の結果 PDPの例気温が上がるとレンタル数増湿度が上がるとレンタル数減

10 長所: • 結果が直感的 (専門家でなくても理解が簡単) • 計算、実装が簡単 ◦ Scikit learn

11 ある特徴量を変化させたときに予測がどのように変化するかを個々のインスタンスごとに計算 2. Individual Conditional Expectation (ICE) 一つの線は、一つのインスタンスを表す。これらの線の平均を求めると、PDP と一致する

12 相互作用がない場合、ある場合のPDPとICE 相互作用がない場合、 ICE の変化は PDP の変化と一致する。相互作用がある場合、 PDP のみをみると誤解を

14 入力データに変動を加えた時、予測にどのような変化が起こるかをローカルサロゲートモデル (局所的な代理モデル) を用いて解釈する手法 3. Local Interpretable Model-agnostic Explanations

15 近傍の設定範囲による結果の変化黒線: ブラックボックスモデルの出力 ×印: インスタンス近傍の範囲によって、LIMEの結果が大きくことなっている。しかし、一般的には、近傍をどのように設定するかの基準はあいまい。

16 Inception V3 というニューラルネットワークの誤分類の結果を解釈 77% の確率で「ベーグル」、4%の確率で「ストロベリー」と判定画像データに対する LIME の例

17 長所: • 元の機械学習モデルを置き換えても、同じ手法で解釈が可能 ◦ 例: 元が SVM でも xgboost

18 特徴量の予測への貢献度を計算することで、予測を説明する手法（ゲーム理論がベース）シャープレイ値の性質 1. 局所正確性 (Local Accuracy) →　特徴量の貢献度は、予測と平均との差となること 2. 欠損性

19 ボストン住宅価格のデータセットに適用このインスタンスに対しては、各特徴量の予測への貢献度を可視化 RM (平均部屋数) PTRATIO (生徒と先生の比率) RAD (主要高速道路へのアクセス性

21 長所: • 予測の貢献度が、特徴量に公平に分配されることが保証されている（ゲーム理論より） • 大域的な説明と局所的な説明を統一的に扱うことが可能 • 決定木ベースのモデルでは、特に高速に計算可能短所: •

22 機械学習の解釈性とは、予測の結果の要因を人間が理解できる度合い今日の内容 1. PDPとICE 2. LIME 3. SHAP

23 [参考文献] Interpretable Machine Learning 原文 • https://christophm.github.io/interpretable-ml-book/ Interpretable Machine