2021年8月19日に実施された「おすすめの技術書 LT会 - vol.2」の資料です。 https://rakus.connpass.com/event/218578/
2021年8月に技術評論社さんから出版された『機械学習を解釈する技術』( https://amzn.to/3ssSsIM )を紹介しています。
『機械学習を解釈する技術』を紹介する2021/8/19おすすめの技術書 LT会 - vol.2森下光之助(@dropout009)
View Slide
⾃⼰紹介森下光之助TVISION INSIGHTS株式会社データサイエンティスト執⾏役員(データ・テクノロジー担当)テレビの視聴⾏動を分析していますデータの利活⽤、マネジメント、組織づくり、因果推論、機械学習の解釈⼿法などに興味がありますTwitter: @dropout009Speaker Deck: dropout009Blog: https://dropout009.hatenablog.com/
紹介したい本︓機械学習を解釈する技術https://is.gd/nkYPPGDeep Learning、GBDT、Random Forestなどの機械学習モデルは⾼い予測精度を誇りますが、モデルの解釈性が低いという⽋点があります。これらの複雑なブラックボックスモデルにおいて,モデルがなぜそのような予測を⾏っているのかを知ることは困難ですが、データ分析者⾃⾝がモデルの振る舞いを把握し、説明責任を果たすことを実務においては頻繁に求められます。本書では、このような予測精度と解釈性のトレードオフを克服するための⼿法について、実務において特に有⽤と考えるものを厳選して紹介します。(紹介⽂抜粋)
本の内容
モチベーション︓予測精度と解釈性のトレードオフLMGBDTRFNN解釈性予測⼒GLM
ブラックボックスモデル + 解釈⼿法でトレードオフを克服するLMGBDTRFNN解釈性予測⼒GLMブラックボックスモデル+機械学習の解釈⼿法
有⽤な解釈性とは︖線形回帰モデルと同等の解釈ができることを⽬指すLMGBDTRFNN解釈性予測⼒GLMブラックボックスモデル+機械学習の解釈⼿法
ブラックボックスモデルに解釈性を与える⼿法を4つに厳選して紹介PFIPDICE SHAPSHAPSHAPマクロな解釈⼿法ミクロな解釈⼿法
⼯夫した点
⼯夫した点①︓線形回帰モデルをベースに解釈⼿法を紹介した1.特徴量の重要度が解釈できる ← PFI2.特徴量と予測値の平均的な関係が解釈できる ← PD3.特徴量と予測値のインスタンスごとの関係が解釈できる ← ICE4.インスタンスごとの予測の理由が解釈できる ← SHAP!𝑓 𝑋!, … , 𝑋"= !𝛽#+ !𝛽!𝑋!+ ⋯ + !𝛽"𝑋"
⼯夫した点②︓解釈⼿法の限界を数値例や理由と共に記載したPartial Dependenceがうまく機能しない例︓PDは交互作⽤を捉えることができていない𝑌 = 𝑋! − 5𝑋" + 10𝑋"𝑋# + 𝜖𝑋!, 𝑋" ∼ Uniform −1, 1𝑋# ∼ Bernoulli 0.5𝜖 ∼ 𝒩(0, 0.01)
⼯夫した点③︓Pythonでゼロからアルゴリズムを実装した例︓Partial Dependence@dataclassclass PartialDependence:"""Partial Dependence (PD)"""estimator: AnyX: np.ndarrayvar_names: list[str]def _counterfactual_prediction(self,idx_to_replace: int,value_to_replace: float) -> np.ndarray:"""ある特徴量の値を置き換えたときの予測値を求める"""X_replaced = self.X.copy()X_replaced[:, idx_to_replace] = value_to_replacey_pred = self.estimator.predict(X_replaced)return y_pred………!PD;𝑥;=1𝑁(<=>?)𝑓(𝑥;, 𝒙)
書いていないこと
この本に書いていないこと• PFI、PD、ICE、SHAP以外の機械学習の解釈⼿法• 画像認識や⾃然⾔語処理• 統計学や機械学習の理論⾯• 予測精度を向上させるためのテクニック• 因果推論https://is.gd/PfG74F https://is.gd/ZNCAkt https://is.gd/HXCUsXhttps://is.gd/xrgSt3
TVISION INSIGHTSでは⼀緒に働く仲間を募集しています︕︕︕