データ分析手法をシミュレーションを通して理解する / stapy74

データ分析手法をシミュレーションを通して理解する 2021/10/13 みんなのPython勉強会 #74 森下光之助（@dropout009）

自己紹介森下光之助 TVISION INSIGHTS株式会社データサイエンティスト執行役員（データ・テクノロジー担当）テレビの視聴行動を分析していますデータの利活用、マネジメント、組織づくり、因果推論、機械学習の解釈手法などに興味があります
Twitter: @dropout009 Speaker Deck: dropout009 Blog: https://dropout009.hatenablog.com/

話したいこと

データサイエンスって難しいですよね

教科書とか論文を読むと、数式、図、アルゴリズム、言葉… 色んな方法で分析手法を説明してくれるけど

僕はよくわかりません

結局、自分で使ってみないとよくわからない

なので、分析手法のふるまいをシミュレーションで確認するの、結構いいですよっていう話をします

なんでシミュレーション？どんな設定だとうまくいって、どんな設定だとうまくいかないのかふるまいを知りたければシミュレーションデータ！実データ • 実際のデータ（iris, titanic, …） •
メリット • 現実にある • デメリット • 理論的な関係がわからないことが多い • 設定を細かく調整できないシミュレーションデータ • データを自分で作る • メリット • 理論的な関係がわかっている • 設定を細かく調整できる • デメリット • 現実的ではない/あまり意味のない設定になる可能性がある

やってみよう

分析手法例：Partial Dependence（PD） PD! 𝑥" = 𝔼 & 𝑓 𝑥" ,
𝑿∖" = * & 𝑓 𝑥" , 𝒙∖" 𝑝 𝒙∖" 𝑑𝒙∖" 学習済みモデル ! 𝑓(𝑿)について、特徴量とモデルの予測値の関係を知りたい線形モデルなら良いが、ブラックボックスモデルは特徴量と予測値の関係が複雑なので、そのままだと解釈が難しい → いま興味のある特徴量𝑋! 以外は周辺化で消してしまうことで、関係を単純化して解釈する

データからPDを計算するアルゴリズム ' PD! 𝑥! = 1 𝑁 . "#$ %
! 𝑓(𝑥! , 𝒙",∖! )

シミュレーション1：特徴量の相関するとどうなる？ 𝑌 = 𝑋( + 𝑋$ ) + 𝜖 𝑋(
, 𝑋$ ∼ Uniform 0, 1 𝜖 ∼ 𝒩(0, 0.01)) def generate_simulation_data( N: int = 10000, rho: float = 0.0, ) -> tuple[np.ndarray, np.ndarray]: """シミュレーションデータを生成する関数""" mu = np.array([0, 0]) Sigma = np.array([[1, rho], [rho, 1]]) X = np.random.multivariate_normal(mu, Sigma, N) for j in range(2): X[:, j] = sp.stats.norm().cdf(X[:, j]) e = np.random.normal(0, 0.01, N) y = X[:, 0] + X[:, 1] ** 2 + e return X, y X, y = generate_simulation_data() 相関していて一様分布に従うシミュレーションデータを作る小技多変量正規分布でデータを生成して、それを正規分布のCDFで変換

予測モデルの構築とPDの計算 # Random Forestで予測モデルを作成 rf = RandomForestRegressor( n_jobs=-1, random_state=42 ).fit(X,
y) # PDを計算 partial_dependence( estimator=rf, X=X, features=[j], kind="average” ) scikit-learnのinspectionモジュールに partial_dependence()関数があるちなみに、 permutation_importance()という変数重要度を計算する関数もある kind=“individual”を指定すると、ICEが計算できる（後述）ちなみに、“both”を指定すると両方計算される

シミュレーション1-1：相関係数 = 0 PDは理論的な関係をうまく復元できているモデルは Random Forest

シミュレーション1-2：相関係数 = 0.95 PDは理論的な関係とズレが生じているモデルは Random Forest

PDの理論的なふるまい ! 𝑓 𝑋( , 𝑋$ = 𝑋( + 𝑋$
)のように、モデルが理論的な関係を完全に学習できていたとすると、 PDは以下のようになるはず。。。が、実際はうまくいっていないなんで？ PD! 𝑥! = 𝔼 & 𝑓 𝑥! , 𝑋" = 𝔼 𝑥! + 𝑋" # = " $ + 𝑥! PD" 𝑥" = 𝔼[ & 𝑓 𝑋! , 𝑥" ] = 𝔼 𝑋! + 𝑥" # = " # + 𝑥" #

なんでPDがうまくいかないのか？ → 外挿がうまくいっていない

対応：Accumulated Local Effects（ALE）外挿が問題なので、データのあるところだけで予測しよう参考：Accumulated Local Effects（ALE）で機械学習モデルを解釈する https://dropout009.hatenablog.com/entry/2021/08/08/121858

シミュレーション2：交互作用があるとどうなる？ 𝑌 = 𝑋( − 5𝑋$ + 10𝑋$ 𝑋) +
𝜖 𝑋( , 𝑋$ ∼ Uniform −1, 1 𝑋) ∼ Bernoulli 0.5 𝜖 ∼ 𝒩(0, 0.01) def generate_simulation_data( N: int = 10000 ) -> tuple[np.ndarray, np.ndarray]: """シミュレーションデータを生成する関数""" x0 = np.random.uniform(-1, 1, N) x1 = np.random.uniform(-1, 1, N) x2 = np.random.binomial(1, 0.5, N) e = np.random.normal(0, 0.1, N) X = np.column_stack((x0, x1, x2)) y = x0 - 5 * x1 + 10 * x1 * x2 + e return X, y X, y = generate_simulation_data()

PDは交互作用をうまく捉えられていないモデルは Random Forest

PDが交互作用を捉えられない原因つまり、学習がうまくいっていても、交互作用が存在する場合、 PDはうまく特徴量とモデルの予測値の関係を捉えられない PD" 𝑥" = 𝔼 & 𝑓 𝑋!
, 𝑥" , 𝑋# = 𝔼 𝑋! − 5𝑥" + 10𝑥" 𝑋# = 0 ! 𝑓 𝑋( , 𝑋$ , 𝑋) = 𝑋( − 5𝑋$ + 10𝑋$ 𝑋) のように、モデルが理論的な関係を完全に学習できていたとしても、 Partial Dependenceは以下のようになるはず

対応：Individual Conditional Expectation（ICE）平均を取ると相殺しちゃうので、インスタンスごとに特徴量とモデルの予測値の関係を見てみよう参考：tidymodelsとDALEXによるtidyで解釈可能な機械学習 https://dropout009.hatenablog.com/entry/2019/11/17/112655

まとめ

まとめ • データサイエンスってほんと難しいですよね • シミュレーションでいろいろ試行錯誤することで、分析手法のふるまいを確認し、理解を深めることができる • シミュレーションは細かく設定を変更できるので、どんなときに手法がうまくいって、どんなときにうまくいかないのかを調べるのに適している •
新しいことを勉強して、いろいろ試すのは素直に楽しい

参考文献 • Friedman, Jerome H. "Greedy function approximation: a gradient
boosting machine." Annals of statistics (2001): 1189-1232. • Goldstein, Alex, et al. "Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation." Journal of Computational and Graphical Statistics 24.1 (2015): 44-65. • Hooker, Giles, and Lucas Mentch. "Please Stop Permuting Features: An Explanation and Alternatives." arXiv preprint arXiv:1905.03151 (2019). • Apley, Daniel W., and Jingyu Zhu. "Visualizing the effects of predictor variables in black box supervised learning models." Journal of the Royal Statistical Society: Series B (Statistical Methodology) 82.4 (2020): 1059-1086. • Molnar, Christoph. "Interpretable machine learning. A Guide for Making Black Box Models Explainable." (2019). https://christophm.github.io/interpretable-ml-book/. • 森下光之助. 「機械学習を解釈する技術〜予測力と説明力を両立する実践テクニック」. 技術評論社. (2021). （宣伝） https://is.gd/nkYPPG

Pythonが使えるエンジニア・データサイエンティスト大募集

データ分析手法をシミュレーションを通して理解する / stapy74

データ分析手法をシミュレーションを通して理解する / stapy74

森下光之助

More Decks by 森下光之助

Other Decks in Programming

Featured

Transcript

データ分析手法をシミュレーションを通して理解する 2021/10/13 みんなのPython勉強会 #74 森下光之助（@dropout009）

話したいこと

データサイエンスって難しいですよね

教科書とか論文を読むと、数式、図、アルゴリズム、言葉… 色んな方法で分析手法を説明してくれるけど

僕はよくわかりません

結局、自分で使ってみないとよくわからない

なので、分析手法のふるまいをシミュレーションで確認するの、結構いいですよっていう話をします

なんでシミュレーション？どんな設定だとうまくいって、どんな設定だとうまくいかないのかふるまいを知りたければシミュレーションデータ！実データ • 実際のデータ（iris, titanic, …） •

やってみよう

分析手法例：Partial Dependence（PD） PD! 𝑥" = 𝔼 & 𝑓 𝑥" ,

データからPDを計算するアルゴリズム ' PD! 𝑥! = 1 𝑁 . "#$ %

シミュレーション1：特徴量の相関するとどうなる？ 𝑌 = 𝑋( + 𝑋$ ) + 𝜖 𝑋(

予測モデルの構築とPDの計算 # Random Forestで予測モデルを作成 rf = RandomForestRegressor( n_jobs=-1, random_state=42 ).fit(X,

シミュレーション1-1：相関係数 = 0 PDは理論的な関係をうまく復元できているモデルは Random Forest

シミュレーション1-2：相関係数 = 0.95 PDは理論的な関係とズレが生じているモデルは Random Forest

PDの理論的なふるまい ! 𝑓 𝑋( , 𝑋$ = 𝑋( + 𝑋$

なんでPDがうまくいかないのか？ → 外挿がうまくいっていない

対応：Accumulated Local Effects（ALE）外挿が問題なので、データのあるところだけで予測しよう参考：Accumulated Local Effects（ALE）で機械学習モデルを解釈する https://dropout009.hatenablog.com/entry/2021/08/08/121858

シミュレーション2：交互作用があるとどうなる？ 𝑌 = 𝑋( − 5𝑋$ + 10𝑋$ 𝑋) +

PDは交互作用をうまく捉えられていないモデルは Random Forest

PDが交互作用を捉えられない原因つまり、学習がうまくいっていても、交互作用が存在する場合、 PDはうまく特徴量とモデルの予測値の関係を捉えられない PD" 𝑥" = 𝔼 & 𝑓 𝑋!

まとめ

参考文献 • Friedman, Jerome H. "Greedy function approximation: a gradient

Pythonが使えるエンジニア・データサイエンティスト大募集