『機械学習を解釈する技術』を紹介する / itbookslt

『機械学習を解釈する技術』を紹介する 2021/8/19 おすすめの技術書 LT会 - vol.2 森下光之助（@dropout009）

⾃⼰紹介森下光之助 TVISION INSIGHTS株式会社データサイエンティスト執⾏役員（データ・テクノロジー担当）テレビの視聴⾏動を分析していますデータの利活⽤、マネジメント、組織づくり、因果推論、機械学習の解釈⼿法などに興味があります
Twitter: @dropout009 Speaker Deck: dropout009 Blog: https://dropout009.hatenablog.com/

紹介したい本︓機械学習を解釈する技術 https://is.gd/nkYPPG Deep Learning、GBDT、Random Forestなどの機械学習モデルは⾼い予測精度を誇りますが、モデルの解釈性が低いという⽋点があります。これらの複雑なブラックボックスモデルにおいて，モデルがなぜそのような予測を⾏っているのかを知ることは困難ですが、データ分析者⾃⾝がモデルの振る舞
いを把握し、説明責任を果たすことを実務においては頻繁に求められます。本書では、このような予測精度と解釈性のトレードオフを克服するための⼿法について、実務において特に有⽤と考えるものを厳選して紹介します。（紹介⽂抜粋）

本の内容

モチベーション︓予測精度と解釈性のトレードオフ LM GBDT RF NN 解釈性予測⼒ GLM

ブラックボックスモデル + 解釈⼿法でトレードオフを克服する LM GBDT RF NN 解釈性予測⼒ GLM
ブラックボックスモデル + 機械学習の解釈⼿法

有⽤な解釈性とは︖線形回帰モデルと同等の解釈ができることを⽬指す LM GBDT RF NN 解釈性予測⼒ GLM ブラックボックスモデル +
機械学習の解釈⼿法

ブラックボックスモデルに解釈性を与える⼿法を4つに厳選して紹介 PFI PD ICE SHAP SHAP SHAP マクロな解釈⼿法ミクロな
解釈⼿法

⼯夫した点

⼯夫した点①︓線形回帰モデルをベースに解釈⼿法を紹介した 1.特徴量の重要度が解釈できる ← PFI 2.特徴量と予測値の平均的な関係が解釈できる ← PD 3.特徴量と予測値のインスタンスごとの関係が解釈できる ← ICE
4.インスタンスごとの予測の理由が解釈できる ← SHAP ! 𝑓 𝑋! , … , 𝑋" = ! 𝛽# + ! 𝛽! 𝑋! + ⋯ + ! 𝛽" 𝑋"

⼯夫した点②︓解釈⼿法の限界を数値例や理由と共に記載した Partial Dependenceがうまく機能しない例︓ PDは交互作⽤を捉えることができていない 𝑌 = 𝑋! − 5𝑋" +
10𝑋"𝑋# + 𝜖 𝑋!, 𝑋" ∼ Uniform −1, 1 𝑋# ∼ Bernoulli 0.5 𝜖 ∼ 𝒩(0, 0.01)

⼯夫した点③︓Pythonでゼロからアルゴリズムを実装した例︓Partial Dependence @dataclass class PartialDependence: """Partial Dependence (PD)""" estimator:
Any X: np.ndarray var_names: list[str] def _counterfactual_prediction( self, idx_to_replace: int, value_to_replace: float ) -> np.ndarray: """ある特徴量の値を置き換えたときの予測値を求める""" X_replaced = self.X.copy() X_replaced[:, idx_to_replace] = value_to_replace y_pred = self.estimator.predict(X_replaced) return y_pred ……… ! PD; 𝑥; = 1 𝑁 ( <=> ? ) 𝑓(𝑥; , 𝒙<,∖; )

書いていないこと

この本に書いていないこと • PFI、PD、ICE、SHAP以外の機械学習の解釈⼿法 • 画像認識や⾃然⾔語処理 • 統計学や機械学習の理論⾯ • 予測精度を向上させるためのテクニック •
因果推論 https://is.gd/PfG74F https://is.gd/ZNCAkt https://is.gd/HXCUsX https://is.gd/xrgSt3

TVISION INSIGHTSでは⼀緒に働く仲間を募集しています︕︕︕

『機械学習を解釈する技術』を紹介する / itbookslt

『機械学習を解釈する技術』を紹介する / itbookslt

森下光之助

More Decks by 森下光之助

Other Decks in Technology

Featured

Transcript

『機械学習を解釈する技術』を紹介する 2021/8/19 おすすめの技術書 LT会 - vol.2 森下光之助（@dropout009）

本の内容

モチベーション︓予測精度と解釈性のトレードオフ LM GBDT RF NN 解釈性予測⼒ GLM

ブラックボックスモデル + 解釈⼿法でトレードオフを克服する LM GBDT RF NN 解釈性予測⼒ GLM

有⽤な解釈性とは︖線形回帰モデルと同等の解釈ができることを⽬指す LM GBDT RF NN 解釈性予測⼒ GLM ブラックボックスモデル +

ブラックボックスモデルに解釈性を与える⼿法を4つに厳選して紹介 PFI PD ICE SHAP SHAP SHAP マクロな解釈⼿法ミクロな

⼯夫した点

⼯夫した点①︓線形回帰モデルをベースに解釈⼿法を紹介した 1.特徴量の重要度が解釈できる ← PFI 2.特徴量と予測値の平均的な関係が解釈できる ← PD 3.特徴量と予測値のインスタンスごとの関係が解釈できる ← ICE

⼯夫した点②︓解釈⼿法の限界を数値例や理由と共に記載した Partial Dependenceがうまく機能しない例︓ PDは交互作⽤を捉えることができていない 𝑌 = 𝑋! − 5𝑋" +

⼯夫した点③︓Pythonでゼロからアルゴリズムを実装した例︓Partial Dependence @dataclass class PartialDependence: """Partial Dependence (PD)""" estimator:

書いていないこと

この本に書いていないこと • PFI、PD、ICE、SHAP以外の機械学習の解釈⼿法 • 画像認識や⾃然⾔語処理 • 統計学や機械学習の理論⾯ • 予測精度を向上させるためのテクニック •

TVISION INSIGHTSでは⼀緒に働く仲間を募集しています︕︕︕