InterpretMLと Explainable Boosting Machineのススメ

InterpretMLと Explainable Boosting Machineのススメ 2021/03/10 JDSC社内DS勉強会 Takuto Sugisaki

Table of contents 1. Intro 2. interpretMLの紹介 3. interpretML demo
4. Explainable Boosting Machine(EBM)の紹介 5. EBMの性能評価 vsLGBM

本日のテーマ: Explainable AI • ソースは主に以下の3つでお送りします

なぜinterpretabilityなのか • RI(Marketing×ML・因果推論のProduct)の営業先（複数）からのFB 「なぜその人が選ばれたのかが分からないと、妥当性があるかチェックできないしPDCAも回しづらい」 • とりあえずSHAPの図を見せて「これアドオンでダッシュボードに出せます！」と言ったら好反応だった • モデルの細かいロジックは気にしないが、判断の根拠はユーザも気にする
• そういえば卸・流通系のPJの時も「判断根拠が分からないと取引先に説明できない！」というリクエストを頂いていました

単に予測を得るだけでは不十分な問題もある The need for interpretability arises from an incompleteness in
problem formalization (Doshi-Velez and Kim 2017), which means that for certain problems or tasks it is not enough to get the prediction (the what). The model must also explain how it came to the prediction (the why), because a correct prediction only partially solves your original problem. https://christophm.github.io/interpretable-ml-book/interpretability-importance.html

Interpretabilityが役に立つ場面 • interpretMLのReadmeの記載を借りるとこのような感じ

皆様、どのようにモデルの可視化を行ってますか？ • SHAP？ • Feature Importance？

Interpretability methodsに関する色々な分類(1) Intrinsic or Post hoc Result of the interpretation
method Model-specific or model-agnostic Local or global 色々な分類があるがあまり整理されていない印象 https://christophm.github.io/interpretable-ml-book/taxonomy-of-interpretability-methods.html 本質的にモデルに備わっている性質として説明性があるのか（決定木とか）モデルをTrainしたあとに何かしらの手法を適用するものか(Permutation feature importanceとか）どのような形式で結果を受け取るか例）Feature summary stats / Feature summary visualization / Model internals / Data point / Intrinsically interpretable model 特定のモデルにしか使えない手法か、汎用的に使えるか Intrinsic or post hocとほぼ同義特定個体の予測に対しての説明を提供するのか、モデル全体の振る舞いを説明するのか、その間か

Interpretability methodsに関する色々な分類(2) Analyzing Components of Interpretable Models Analyzing Components of
More Complex Models Explaining Individual Predictions Explaining Global Model Behavior Interpretable Machine Learning – A Brief History, State-of-the-Art and Challenges https://arxiv.org/pdf/2010.09337.pdf 解釈可能性の高いシンプルなモデルを使う(線形回帰、決定木、ルールベース) 高次元になったり枝が深くなると結局解釈が難しくなる→LASSOなど複雑なモデルを使いつつ、その内部構造に注目 CNNの隠れ層を可視化したり、random forestのGini importance出したり個々の予測値に対して各特徴量がどのような影響を与えるのかを定量化 SHAP(shapley値)とか、DiCE(counterfactual explanations)とか各特徴量がモデル全体の予測にどれくらい影響を与えているかを定量化する Permutation Importanceとか Surrogate Models 説明したいモデルの振る舞いを、別の解釈可能なモデルで学習する例えばDNNの出力を決定木で学習させて、決定木のロジックを説明に使うなど LIMEもこのパターン(似ているデータで局所線形回帰を作る)

interpretMLの紹介

interpretML is何 • 概要 • Microsoftが出している機械学習モデルを解釈可能とするためのOSS Package(Python/R) • 多分2017年位からあるが未だにOSS版はalpha release
• ドキュメントが薄いというか紙なので、実装を見ながら使うしかない • Azure Machine Learning版もあり、こちらの方がメンテされている (https://docs.microsoft.com/ja-jp/azure/machine-learning/how-to-machine-learning-interpretability ) • 主な機能 • SHAPやLIMEなど様々なmodel-agnosticな手法に対して統一的な Interfaceを提供 • GBDT並の精度と解釈可能性を誇るGA2Mの高速な実装、EBMが使える

Glass-BoxとBlack-Boxの両方をサポート

Global⇔Localなど、色々な観点でモデルを解釈可能 • SubsetについてはOSS版では使えない？ • Azure版の方にそれっぽい記載を見た記憶が

Subsetレベルでの可視化など、Azure版にしかなさそうな機能もちらほら任意のコホートの作成コホート別のFeature importance How to Explain Models with
IntepretML Deep Dive https://www.youtube.com/watch?v=WwBeKMQ0-I8&t=964s&ab_channel=MicrosoftDeveloper

個人別にICE plotを出して比較とかもできる ICE : Individual Conditional Expectationのこと（他の特徴量をすべて固定してある特徴量の値を変えたときの予測） https://christophm.github.io/interpretable-ml-book/ice.html#ice

アーキテクチャ InterpretML: A Unified Framework for Machine Learning Interpretability https://arxiv.org/pdf/1909.09223.pdf

対応手法 • TreeExplainerは実装自体はありそう（AzureMLではもう使えそう） • SHAP/LIMEは所々バグがあり動かないので注意 • Globalのみの手法とLocalのみ
の手法がある

InterpretMLのまとめ • 設計思想はよい • いろいろな解釈手法を統一的なIFで取り扱える • Dashboard的なUIで、EDAからモデル評価、モデル解釈まで色々できる（モデル評価周りの機能はpycaretの方が充実してたので、このためだけには使わないかも。。。）
• OSS版はメンテ具合が微妙 • そもそもsampleのnotebookがそのままだと動かない • Notebookの修正が必要なのが1件、そもそも本体のコードにBugが1件 • 他のOSSのWrapperに関しては、直接生で触ったほうが速いことも • Shapとかは色々な可視化パターンがあるが、interpretML経由では一番シンプルなものしか対応してない • でもEBMは良いので、そのためだけに使う価値はありそう

interpretML demo

こんな感じでDashboardが立ち上がります • 見れるものは主に以下 • Data自体の可視化 • モデル精度の可視化（AUCなど） • Globalの説明 •
Localの説明 • 細かいUIは画面で

Explainable Boosting Machine(EBM)の紹介

精度（複雑性）⇔ 解釈性のTrade off The Science Behind InterpretML: Explainable Boosting Machine
https://www.youtube.com/watch?v=MREiHgHgl0k&ab_channel=MicrosoftDeveloper 精度を犠牲にせずに解釈性を高めた夢のモデル

実態は一般化加法モデル（GAM）に相互作用項を加えたもの一般化線形モデル (GLM) & 一般化加法モデル(GAM) https://www.slideshare.net/DeepLearningLab/glm-gam

GAM: 各特徴量に対して個別に関数を適用することで表現力を増しつつ、説明性は確保一般化線形モデル (GLM) & 一般化加法モデル(GAM) https://www.slideshare.net/DeepLearningLab/glm-gam

GA2M: GAMにどう交互作用項を加えるか - 精度を向上するために交互作用項を追加したい - しかし、考えられる特徴量の組は膨大 - ⇒どうやって効率的に有効なペアを発見するか？

EBMの実装ではFASTという交差項選択のアルゴリズムを利用 • 最初に交差項を含まないモデルを作成 • そのモデルの残差を一番減らせる特徴量のペアをモデルに加える • 新モデルの残差を一番減らせるペアを加える
• 精度が向上しなくなるまで繰り返す • 計算が膨大になるため、実装にはFu (xu ) の計算を軽くするための工夫がいくつか Accurate Intelligible Models with Pairwise Interactions Yin Lou, et al https://www.cs.cornell.edu/~yinlou/papers/lou-kdd13.pdf

個々のfi, fij のFittingには、浅い回帰木をベースとしたGradient Boostingを利用 The Science Behind InterpretML: Explainable
Boosting Machine https://www.youtube.com/watch?v=MREiHgHgl0k&ab_channel=MicrosoftDeveloper • 交差項には決定木ライクな、よりシンプルな手法を利用 • 特徴量の順番が影響しないよう、学習率はかなり抑えめにする (Round-robin like)

各特徴量の木を合成して、一つの関数を作る • 学習が終わったら途中の木はすべて消して良い • 学習は遅いが、予測は比較的高速

Random Forestと同等程度の性能回帰分類

可視化サンプル単独の特徴量交差特徴量

解釈性が役立つ例①データ不備に気づける • PF ratioが400くらいのところで極端にリスクが低い箇所が • ⇒欠損値（健康な人が多い）の値が、集計時にデータセット平均に置換されていた

解釈性が役立つ例②what-if analysisが可能 • BUN_Levelが100近い人のリスクが一番高く、 110くらいでまた低下する • この指標が100を越えたところで治療開始されることが多かった • 80近辺で治療を開始することで、リスクを
赤線程度まで抑えることが可能と示唆

EBMのまとめ • 解釈性がよい • 1つ1つの特徴量に対する影響を足していく形式なので、各特徴量が予測に与える影響が明確 • 精度が高い • GAMの課題だった交差項の選択と取り込みにより、RF並の精度
• （GA2Mにしては）速い • LGBMと比較したら全然負けるが、許容範囲内 ⇒EDAも兼ねて、初手EBMという選択肢も生まれてくるのでは？

EBMの性能評価 vsLGBM 実案件のデータでどれだけ使えるのか試してみました

実験の概要 • 利用したデータセット • 実PJにおける広告キャンペーンへの反応予測（分類） • データ数 • 1,000~1,000,000の7パターン
• 特徴量数 • 43 、48、73の3パターン • 比較用モデル • LGBM • ハイパラはデフォルト • 評価項目 • モデルの判別力 • ROC_AUC • モデルの合致性 • Logloss • Brier Score • 学習速度(sec) • 推論速度(sec)

(Appendix)Discriminative Power vs Calibration Power 信用リスクモデルの評価方法に関する考察と比較 https://www.fsa.go.jp/frtc/seika/discussion/2003/20031031.pdf

小サンプルデータ(<100,000)においては LGBMを上回る精度（識別力も確率予測精度も） 0.740 0.795 0.802 0.810 0.811 0.814 0.814 0.706
0.764 0.776 0.797 0.804 0.813 0.816 0.640 0.660 0.680 0.700 0.720 0.740 0.760 0.780 0.800 0.820 0.840 1000 5000 10000 50000 100000 500000 1084055 Sample num ROC_AUC EBM vs LGBM feature_num=43 EBM LGBM 0.046 0.045 0.044 0.044 0.044 0.043 0.043 0.050 0.047 0.046 0.044 0.044 0.043 0.043 0.038 0.040 0.042 0.044 0.046 0.048 0.050 0.052 1000 5000 10000 50000 100000 500000 1084055 Sample num Brier Score EBM vs LGBM feature_num=43 EBM LGBM EBM>LGBM

学習時間は50万行レベルになってくると無視できない差に 1.4 2.5 4.2 13.4 31.2 190.9 599.6 1.8
3.8 5.3 32.1 72.3 469.9 1468.7 5.0 8.5 13.9 47.9 189.5 858.3 1304.6 0.9 0.5 0.3 0.5 1.0 4.2 11.6 0.3 0.8 0.5 1.1 2.3 7.2 30.5 1.6 7.1 2.2 3.5 7.4 8.0 15.6 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 1600.0 1000 5000 10000 50000 100000 500000 1084055 1000 5000 10000 50000 100000 500000 1084055 1000 5000 10000 50000 100000 500000 1084055 43 48 73 Sample num/ Feature num train time(sec) EBM LGBM Localで回していたので、Zoom会議とかぶっていたfeature=48の108万行がfeature=73より遅くなっている。。。

予測は速いとの噂⇒LGBMには勝てなかったが、確かに許容範囲内 • 100万行の予測に9秒 • CPU timeはそんなに変わらないので、並列化の問題そう

余談: Mlflowのparams可視化が思ったより優秀でした

実験まとめ • 意外と小サンプル（と言っても10万レコードほど）では LGBMより精度高い • 学習時間がネックだが、100万レコード、73特徴量でlocalで 1300秒と考えると、十分実用範囲 • 特にモデル全体の説明（Global）の解釈はShapより分かりやすいので、クライアントへの説明にも有用
• （注意）FAST及びその後のBoostingの仕組み上、欠損値を handleできないので、何かしら前処理してあげる必要有り

もっと知りたくなった人へ今日の発表のもとにしたリンク集です • 論文 • Accurate Intelligible Models with Pairwise
Interactions https://www.cs.cornell.edu/~yinlou/papers/lou-kdd13.pdf • InterpretML: A Unified Framework for Machine Learning Interpretability https://arxiv.org/pdf/1909.09223.pdf • Interpretable Machine Learning – A Brief History, State-of-the-Art and Challenges https://arxiv.org/pdf/2010.09337.pdf • 教科書的な • Interpretable Machine Learning A Guide for Making Black Box Models Explainable https://christophm.github.io/interpretable-ml-book/index.html • 動画 • The Science Behind InterpretML: Explainable Boosting Machine https://www.youtube.com/watch?v=MREiHgHgl0k&ab_channel=MicrosoftDeveloper • How to Explain Models with IntepretML Deep Dive https://www.youtube.com/watch?v=WwBeKMQ0-I8&t=964s&ab_channel=MicrosoftDeveloper • その他 • DiCE: 反実仮想サンプルによる機械学習モデルの解釈/説明手法 https://qiita.com/OpenJNY/items/ef885c357b4e0a1551c0 • 一般化線形モデル (GLM) & 一般化加法モデル(GAM) https://www.slideshare.net/DeepLearningLab/glm-gam

InterpretMLと Explainable Boosting Machineのススメ

InterpretMLと Explainable Boosting Machineのススメ

More Decks by JDSC

Featured

Transcript