ブラックボックスモデルとPartial Dependence Plotで因果関係を探索する / MLbeginners2

ブラックボックスモデルと Partial Dependence Plotで因果関係を探索する 2019/12/4 ML for Beginners! #2
森下光之助（@dropout009）

やること • Causal interpretations of black-box models (Zhao and Hastie,
2019) という論⽂を紹介します • この論⽂では、 Partial Dependence Plot(PDP)を因果関係を探索する⼿段として使うことを提案しています • このLTでは、論⽂で使われたデータセットを⽤いて、PDPを⽤いた分析の利点、その解釈などをお伝えできればと思っています

2 導⼊

使⽤データ: Boston Housing Dataset • MEDV: Median value of owner-occupied
homes in $1000's • CRIM: per capita crime rate by town • ZN: proportion of residential land zoned for lots over 25,000 sq.ft. • INDUS: proportion of non-retail business acres per town. • CHAS: Charles River dummy variable (1 if tract bounds river; 0 otherwise) • NOX: nitric oxides concentration (parts per 10 million) • RM: average number of rooms per dwelling • AGE: proportion of owner-occupied units built prior to 1940 • DIS: weighted distances to five Boston employment centres • RAD: index of accessibility to radial highways • TAX: full-value property-tax rate per $10,000 • PTRATIO: pupil-teacher ratio by town • B: 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town • LSTAT: % lower status of the population ※出典︓https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

使⽤データ: Boston Housing Dataset • MEDV: Median value of owner-occupied
homes in $1000's • CRIM: per capita crime rate by town • ZN: proportion of residential land zoned for lots over 25,000 sq.ft. • INDUS: proportion of non-retail business acres per town. • CHAS: Charles River dummy variable (1 if tract bounds river; 0 otherwise) • NOX: nitric oxides concentration (parts per 10 million) • RM: average number of rooms per dwelling • AGE: proportion of owner-occupied units built prior to 1940 • DIS: weighted distances to five Boston employment centres • RAD: index of accessibility to radial highways • TAX: full-value property-tax rate per $10,000 • PTRATIO: pupil-teacher ratio by town • B: 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town • LSTAT: % lower status of the population ※出典︓https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html 分析で深堀り分析で深堀りターゲット使わない

不動産価格(medv)と各変数の関係を散布図で可視化不動産価格と各変数の散布図

不動産価格(medv)と各変数の関係を散布図で可視化不動産価格と各変数の散布図不動産価格と各変数の⼀対⼀の散布図では他の変数の影響が混ざってしまう

特徴量に相関があると、単変数同⼠の散布図では関係を可視化できない X1とYの散布図シミュレーション︓ 𝑌 = 𝑋! + 𝑋" + 𝑈,
𝑋! 𝑋" ∼ 𝑁 0 0 , 1 0.9 0.9 1 , 𝑈 ∼ 𝑁(0, 0.1") GAMによる推定 𝒀𝒊 = 𝒈 𝑿𝟏𝒊 + 𝑼𝒊 理論的な関係 𝑿𝟏 と𝑿𝟐 は強く相関

特徴量同⼠に相関があると、散布図ではうまく関係を可視化できない X1とYの散布図真の関係 GAMによる推定シミュレーション︓ 𝑌 = 𝑋! + 𝑋"
+ 𝑈, 𝑋! 𝑋" ∼ 𝑁 0 0 , 1 0.9 0.9 1 , 𝑈 ∼ 𝑁(0, 0.1") 他の変数の影響を考慮した上で、各変数と出⼒の関係を捉えたい → ⼀旦全変数と出⼒の関係を学習させ、その後モデルを解釈する

モデルの特定化が正しいなら⼊出⼒の関係をうまく捉えることができる線形モデル 𝑌# = 𝛼 + 𝛽!𝑋!# + 𝛽"𝑋"# +
𝑈# をOLSで推定︓ シミュレーション︓ 𝑌 = 𝑋! + 𝑋" + 𝑈, 𝑋! 𝑋" ∼ 𝑁 0 0 , 1 0.9 0.9 1 , 𝑈 ∼ 𝑁(0, 0.1")

𝑈# をOLSで推定︓ シミュレーション︓ 𝑌 = 𝑋! + 𝑋" + 𝑈, 𝑋! 𝑋" ∼ 𝑁 0 0 , 1 0.9 0.9 1 , 𝑈 ∼ 𝑁(0, 0.1") うまく関係を推定できている

𝑈# をOLSで推定︓ シミュレーション︓ 𝑌 = 𝑋! + 𝑋" + 𝑈, 𝑋! 𝑋" ∼ 𝑁 0 0 , 1 0.9 0.9 1 , 𝑈 ∼ 𝑁(0, 0.1") ⼊出⼒の関係を正しく特定化できるなら問題ないが、今回のように線形モデルがうまく当てはまるかどうかはわからない → フレキシブルなモデルを当てはめて、後からモデルを解釈したい

12 Partial Dependence Plot

Partial Dependence Plot (PDP) • ⼀般にブラックボックスモデルにおいて⼊⼒と出⼒の関係は⾮常に複雑 • 複雑な関係を要約する⼿法にPartial Dependence Plot(PDP)がある
• PDPは興味のある変数以外の影響を周辺化して消してしまうことで、⼊⼒と出⼒の関係を単純化する • 学習済みモデルを𝑔(⋅)、ターゲットになる変数を𝑋$ 、それ以外の変数を𝑋% とすると、Partial dependence functionは以下で定義され、 𝑔$ 𝑥$ = 𝐸&! 𝑔 𝑥$ , 𝑋% = 5 𝑔 𝑥$ , 𝑥% 𝑑𝑃(𝑥% ) これを以下で推定する ̅ 𝑔$ 𝑥$ = 1 𝑁 9 #'! ( 𝑔(𝑥$, 𝑋%#)

PDP計算の具体例 dis lstat rm nox 1.94 21.5 6.19 0.679 1.94
5.21 6.43 0.458 1.94 17.3 6.05 0.538 1.94 3.73 6.68 0.631 予測結果を平均 dis lstat rm nox 6.06 21.5 6.19 0.679 6.06 5.21 6.43 0.458 6.06 17.3 6.05 0.538 6.06 3.73 6.68 0.631 dis lstat rm nox 4.45 21.5 6.19 0.679 4.45 5.21 6.43 0.458 4.45 17.3 6.05 0.538 4.45 3.73 6.68 0.631 dis lstat rm nox 1.36 21.5 6.19 0.679 1.36 5.21 6.43 0.458 1.36 17.3 6.05 0.538 1.36 3.73 6.68 0.631 予測結果を平均予測結果を平均予測結果を平均 dis lstat rm nox 1.94 21.5 6.19 0.679 6.06 5.21 6.43 0.458 4.45 17.3 6.05 0.538 1.36 3.73 6.68 0.631 ̅ 𝑔!"# (1.96) ̅ 𝑔!"# (6.06) ̅ 𝑔!"# (4.45) ̅ 𝑔!"# (1.36) ̅ 𝑔$ 𝑥$ = 1 𝑁 9 #'! ( 𝑔(𝑥$, 𝑋%#) 元データ Partial dependence functionの推定式

不動産価格と各変数の関係をPDPで可視化各変数のPartial Dependence Plot

散布図+LOESSとPDPの⽐較 LOESSによる可視化 PDPによる可視化 • LOESSによる可視化では、都⼼から離れるほど不動産価格が⾼くなる傾向 • ⼀⽅で、PDPでは、都⼼から離れるほど不動産価格は安くなる傾向

何が起きているのか︖ 犯罪率が増えると不動産価格は下がる都⼼から離れると犯罪率は減る都⼼から離れると不動産価格が上がる

仮説︓距離→不動産価格は直接効果と犯罪率を通した間接効果がある Loessによる可視化 PDPによる可視化都⼼からの距離不動産価格犯罪率

まとめと注意点 Partial Dependence Plotは因果関係の探索に⽤いることができるただし、 • 学習済みモデル𝑔(⋅)は、真の関数𝑓(⋅)をうまく近似していなければならない • 変数の因果関係を把握するためには、データの因果構造に関するドメイン知識が求められる
• PDPを因果効果として解釈するためにはバックドア基準が満たされている必要 PDPはあくまでも因果関係の探索・仮説の構築に⽤いるのがいいと思います PDPで⽴てた因果関係の仮説は、丁寧にデザインされた実験やより厳密な⼿法を⽤いて確かめ、エビデンスを構築していく必要があります

参考⽂献 • Zhao, Qingyuan, and Trevor Hastie. "Causal interpretations of
black-box models." Journal of Business & Economic Statistics just-accepted (2019): 1-19. • Hooker, Giles, and Lucas Mentch. "Please Stop Permuting Features: An Explanation and Alternatives." arXiv preprint arXiv:1905.03151 (2019). • Molnar, Christoph. "Interpretable machine learning. A Guide for Making Black Box Models Explainable", 2019. https://christophm.github.io/interpretable-ml-book/. • Przemyslaw Biecek and Tomasz Burzykowski “Predictive Models: Explore, Explain, and Debug. Human-Centered Interpretable Machine Learning”, 2019. https://pbiecek.github.io/PM_VEE/. • Hastie, Trevor, et al. "The elements of statistical learning: data mining, inference and prediction." The Mathematical Intelligencer 27.2 (2005): 83-85. • Satoshi, Kato “How to use in R model-agnostic data explanation with DALEX & iml”. https://www.slideshare.net/kato_kohaku/how-to-use-in-r-modelagnostic-data-explanation- with-dalex-iml.

ブラックボックスモデルとPartial Dependence Plotで因果関係を探索する /...

ブラックボックスモデルとPartial Dependence Plotで因果関係を探索する / MLbeginners2

森下光之助

More Decks by 森下光之助

Other Decks in Science

Featured

Transcript

ブラックボックスモデルと Partial Dependence Plotで因果関係を探索する 2019/12/4 ML for Beginners! #2

やること • Causal interpretations of black-box models (Zhao and Hastie,

2 導⼊

使⽤データ: Boston Housing Dataset • MEDV: Median value of owner-occupied

使⽤データ: Boston Housing Dataset • MEDV: Median value of owner-occupied

不動産価格(medv)と各変数の関係を散布図で可視化不動産価格と各変数の散布図

不動産価格(medv)と各変数の関係を散布図で可視化不動産価格と各変数の散布図不動産価格と各変数の⼀対⼀の散布図では他の変数の影響が混ざってしまう

特徴量に相関があると、単変数同⼠の散布図では関係を可視化できない X1とYの散布図シミュレーション︓ 𝑌 = 𝑋! + 𝑋" + 𝑈,

特徴量同⼠に相関があると、散布図ではうまく関係を可視化できない X1とYの散布図真の関係 GAMによる推定シミュレーション︓ 𝑌 = 𝑋! + 𝑋"

モデルの特定化が正しいなら⼊出⼒の関係をうまく捉えることができる線形モデル 𝑌# = 𝛼 + 𝛽!𝑋!# + 𝛽"𝑋"# +

モデルの特定化が正しいなら⼊出⼒の関係をうまく捉えることができる線形モデル 𝑌# = 𝛼 + 𝛽!𝑋!# + 𝛽"𝑋"# +

モデルの特定化が正しいなら⼊出⼒の関係をうまく捉えることができる線形モデル 𝑌# = 𝛼 + 𝛽!𝑋!# + 𝛽"𝑋"# +

12 Partial Dependence Plot

Partial Dependence Plot (PDP) • ⼀般にブラックボックスモデルにおいて⼊⼒と出⼒の関係は⾮常に複雑 • 複雑な関係を要約する⼿法にPartial Dependence Plot(PDP)がある

PDP計算の具体例 dis lstat rm nox 1.94 21.5 6.19 0.679 1.94

不動産価格と各変数の関係をPDPで可視化各変数のPartial Dependence Plot

散布図+LOESSとPDPの⽐較 LOESSによる可視化 PDPによる可視化 • LOESSによる可視化では、都⼼から離れるほど不動産価格が⾼くなる傾向 • ⼀⽅で、PDPでは、都⼼から離れるほど不動産価格は安くなる傾向

何が起きているのか︖ 犯罪率が増えると不動産価格は下がる都⼼から離れると犯罪率は減る都⼼から離れると不動産価格が上がる

仮説︓距離→不動産価格は直接効果と犯罪率を通した間接効果がある Loessによる可視化 PDPによる可視化都⼼からの距離不動産価格犯罪率

参考⽂献 • Zhao, Qingyuan, and Trevor Hastie. "Causal interpretations of