アンサンブル学習① ランダムフォレストの仕組み

IUUQTXXXZPVUVCFDPNDIBOOFM6$'Z7#W;#F&C/'TY'SH RandomForest RandomForest アンサンブル１アンサンブル１

ccp_alpha コスト・複雑さによって木を枝刈りする ccp_alpha = 0 ccp_alpha = 0.4 前回までのおさらい過学習を抑えるためのパラメータに
どのようなものがあるか説明しました

アンサンブル学習とは複数の予測モデルを組合せて、ロバスト性やより高い性能を目指す複数モデルの平均値・多数決を出す方針ブースティング(Boosting) •バギング •ランダムフォレスト •ExtraTrees •Stacking •AdaBoost •GradientBoosting
•XGBoost 複数の予測モデルの平均や多数決などを取り、最終的な予測を行う予測モデルの誤差に注目して少しずつモデルを改善して行く勾配ブースティング(Gradient Boosting)

バギング(Bagging, Bootstrap AGGregatING) 訓練データの一部のみを使って作成(bootstrapping)したモデルを組合せる(aggregating) A Bagging classifier is an ensemble
meta-estimator that fits base classifiers each on random subsets of the original dataset and then aggregate their individual predictions (either by voting or by averaging) to form a final prediction. ग़యɿsklearn.ensemble.BaggingClassifier 訓練データ全体 • • • • • • • • … • • • • • • • • • • • • 複数の小さな集まりを作る (ブートストラップ) 平均を取る多数決を取る最終的な出力重複してもいい

ランダムフォレスト(RandomForest) データの一部を抽出＋ランダムに特徴選択＋決定木作成し、その結果をまとめる訓練データ全体 • • • • • • •
• … • • • • • • • • • • • • 複数の小さな集まりを作る (ブートストラップ) 平均を取る多数決を取る最終的な出力番目の特徴を使って木を作成 1,2,4 番目の特徴を使って木を作成 5,4,10 番目の特徴を使って木を作成 7,5,9 } ｐ個の特徴のうちｍ個の特徴をランダムに選ぶ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ

ランダムフォレスト(RandomForest) データの一部を抽出＋ランダムに特徴選択＋決定木作成し、その結果をまとめる訓練データ全体 • • • • • • •
• … • • • • • • • • • • • • 複数の小さな集まりを作る (ブートストラップ) 平均を取る多数決を取る最終的な出力番目の特徴を使って木を作成 1,2,4 番目の特徴を使って木を作成 5,4,10 番目の特徴を使って木を作成 7,5,9 } ࢀߟจݙɿhttps://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassi fi er.html n_estimators max_depth bootstrap max_samples

なぜランダムに特徴を選択する必要があるのか最良の特徴を選択すると、全て似たような木になってしまうからバリアンスが大きくバイアスが小さいモデルを使いたい＝決定木木の出力の相関が高いと平均化する意味が薄くなる＝木の作成に使用する特徴をランダムに選択独立でなく、正の相関
を持つB個の確率変数の平均の分散は (※引用) ρ ρσ2 + 1 − ρ B σ2 Ҿ༻ɿTrevor Hastie ɾRobert Tibshirani ɾJerome Friedman ஶ ”౷ܭతֶशͷجૅ: σʔλϚΠχϯάɾਪ࿦ɾ༧ଌ”. ڞཱग़൛, 2014. (15.1) ࣜ

実際にやってみる 2０次元の特徴を持つデータの二項分類問題 ←２つの特徴だけで分類するのは難しそう

アンサンブルした効果を見る最終的に作成された木が最もROC-AUCが高いことが確認できる ROC-AUC ほとんど予測できない木も存在するすべて合わせると最もスコアが高い！青色=ランダムフォレスト内の個別の木の性能オレンジ色＝ランダムフォレストの性能 0.5

RandomForestで作成した木を可視化異なる構造の木が複数作成されている ※RandomForestでモデル作成後、モデルに含まれる木の一部のルールを可視化しています特徴がランダムで選ばれていることが確認できる

特徴の重要度を見る① 重要度＝予測をする上でどの特徴が重要かの度合い feature importance = その特徴のデータを使うことでどれくらいジニ不純度を下げることができたかの度合い高ければ高いほど重要な特徴！ジニ不純度については以下の動画を参考

特徴の重要度を見る② 重要度＝予測をする上でどの特徴が重要かの度合い https://scikit-learn.org/stable/modules/generated/sklearn.inspection.permutation_importance.html#sklearn.inspection.permutation_importance 特定の特徴をランダムに並び替えてどれくらい性能が落ちるかをチェックする性能が落ちる＝重要な特徴

https://k-datamining.github.io/dm-book/data-analysis/materials/ensemble/RandomForest.html

まとめアンサンブル手法のRandomForestについて説明しました •アンサンブルとは『複数の予測モデルを組合せて、ロバスト性やより高い性能を目指す』手法の総称 •アンサンブルする方針として、複数のモデルの平均や多数決を出す方法と、予測の失敗に注目してモデルを改善する方法がある •ブートストラップとはデータの一部を抽出すること •RandomForest＝ブートストラップ＋ランダムに特徴を選んで木を作成 •個別の木は精度があまり高くないが、全体として精度が高いモデルが作成される

参考文献 •Post pruning decision trees with cost complexity pruning •sklearn.tree.DecisionTreeRegressor
•1.11. Ensemble methods •Random Forests Leo Breiman and Adele Cutler •Trevor Hastie ・Robert Tibshirani ・Jerome Friedman 著・杉山将・井手剛・神嶌敏弘・栗田多喜夫・前田英作監訳・井尻善久・井手剛・岩田具治・金森敬文・兼村厚範・烏山昌幸・河原吉伸・木村昭悟・小西嘉典・酒井智弥・鈴木大慈・竹内一郎・玉木徹・出口大輔・冨岡亮太・波部斉・前田新一・持橋大地・山田誠訳 ”統計的学習の基礎: データマイニング・推論・予測”. 共立出版, 2014.

アンサンブル学習① ランダムフォレストの仕組み

アンサンブル学習① ランダムフォレストの仕組み

K_DM

More Decks by K_DM

Other Decks in Programming

Featured

Transcript

IUUQTXXXZPVUVCFDPNDIBOOFM6$'Z7#W;#F&C/'TY'SH RandomForest RandomForest アンサンブル１アンサンブル１

ccp_alpha コスト・複雑さによって木を枝刈りする ccp_alpha = 0 ccp_alpha = 0.4 前回までのおさらい過学習を抑えるためのパラメータに

バギング(Bagging, Bootstrap AGGregatING) 訓練データの一部のみを使って作成(bootstrapping)したモデルを組合せる(aggregating) A Bagging classifier is an ensemble

ランダムフォレスト(RandomForest) データの一部を抽出＋ランダムに特徴選択＋決定木作成し、その結果をまとめる訓練データ全体 • • • • • • •

ランダムフォレスト(RandomForest) データの一部を抽出＋ランダムに特徴選択＋決定木作成し、その結果をまとめる訓練データ全体 • • • • • • •

実際にやってみる 2０次元の特徴を持つデータの二項分類問題 ←２つの特徴だけで分類するのは難しそう

RandomForestで作成した木を可視化異なる構造の木が複数作成されている ※RandomForestでモデル作成後、モデルに含まれる木の一部のルールを可視化しています特徴がランダムで選ばれていることが確認できる

https://k-datamining.github.io/dm-book/data-analysis/materials/ensemble/RandomForest.html

参考文献 •Post pruning decision trees with cost complexity pruning •sklearn.tree.DecisionTreeRegressor