勾配ブースティングの仕組み

アンサンブル４アンサンブル４勾配ブースティング勾配ブースティング

アンサンブル学習とは複数の予測モデルを組合せて、ロバスト性やより高い性能を目指す複数モデルの予測値をまとめる方針ブースティング(Boosting) •バギング •ランダムフォレスト •ExtraTrees •Stacking •AdaBoost •GradientBoosting
•XGBoost 複数の予測モデルの平均や多数決を取り、最終的な予測を行う予測モデルの誤差に注目して少しずつモデルを改善して行く勾配ブースティング(Gradient Boosting) 前回までのおさらい

Adaboost データを重み付けし、予測が難しいデータを重み付けして行くことで、精度を高める … • • • • • • •
• • モデル各モデルの出力を受け取り集約最終的な出力 G1 • • • • • • • • • … G2 誤差が大きいデータの重みを重くするモデル … 誤差が大きいデータの重みを重くする訓練データ前回までのおさらい前の学習器の誤差の外れ具合を予測できるようにモデルを作るアプローチも考えられる

勾配ブースティング正解との誤差の勾配を用いて予測を修正していく訓練データ全体・・・最終的な出力 • • • •
• • • • • f • • • • • • • • • f • • • • • • • • • f f 100 20 10 40 データごとの誤差が分かる勾配を予測する決定木勾配を予測する決定木勾配を予測する決定木 2 1 3 3 データごとに予測赤字＝誤差あるデータ点の値• = 一つ目の予測＋予測した勾配1 + … + 予測した勾配ｎ α α 橙字＝誤差

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる ※わかりやすくするためにlearning_rateを大きくして更新幅を大きくしています

アルゴリズム① 1. いくつかモデルを作成し、その中から損失が最小のモデルを選択する　　 2. 以下のステップを回繰り返す( ) 2-1. 各データについて、以下の値を計算する
　　　　 fo (x) = argminγ ΣN i=1 L(yi , γ) M m = 1,2,…, M rim = − [ ∂L(yi , f(xi )) ∂f(xi ) ]f=fm−1 1 2 (yn − fm (x)))2 → yn − fm (x) 損失を偏微分参考文献：Trevor Hastie ・Robert Tibshirani ・Jerome Friedman 著・杉山将・井手剛・神嶌敏弘・栗田多喜夫・前田英作監訳・井尻善久・井手剛・岩田具治・金森敬文・兼村厚範・烏山昌幸・河原吉伸・木村昭悟・小西嘉典・酒井智弥・鈴木大慈・竹内一郎・玉木徹・出口大輔・冨岡亮太・波部斉・前田新一・持橋大地・山田誠訳 ”統計的学習の基礎: データマイニング・推論・予測”. 共立出版, 2014.

アルゴリズム② 2-2. を予測できるような回帰木を作成する 2-3. 終端領域について　　となるようなを求める
2-4. としてモデルを更新する rim Rjm (j = 1,…, Jm ) γjm = argminγ Σxi ∈Rjm L(yi , fm−1 (xi ) + γ) γjm fm (x) = fm−1 (x) + ΣJm j=1 γjm I(x ∈ Rjm ) 参考文献：Trevor Hastie ・Robert Tibshirani ・Jerome Friedman 著・杉山将・井手剛・神嶌敏弘・栗田多喜夫・前田英作監訳・井尻善久・井手剛・岩田具治・金森敬文・兼村厚範・烏山昌幸・河原吉伸・木村昭悟・小西嘉典・酒井智弥・鈴木大慈・竹内一郎・玉木徹・出口大輔・冨岡亮太・波部斉・前田新一・持橋大地・山田誠訳 ”統計的学習の基礎: データマイニング・推論・予測”. 共立出版, 2014. 番目までのモデルの出力 m − 1 番目に加える微調整 m 可視化した回帰木

実験！じっけん

実験用のデータ数値データに対して、勾配ブースティングで予測をします ※コードは概要欄に添付します

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる

各パラメタの影響えいきょう

n_estimators 基本的にはデフォルトの設定で十分によい性能になる一定の基準を超えると頭打ちになる

learning_rate 小さすぎても大きすぎてもダメ、n_estimatorsを固定した上でちょうど良い値を見つける収束していない

損失関数の影響外れ値があるとき、二乗誤差は離れたデータでも当てようとする目的に合わせて適切な損失関数を指定する必要がある

まとめ勾配ブースティングの仕組みを説明しました •勾配ブースティング木＝勾配降下法＋ブースティング＋決定木学習 •はじめに決めるべき重要なパラメタは
•n_estimators •loss •パラメタ調整する必要があるのは •max_depth •learning_rate •他、木に関係するパラメタなど

参考文献 •sklearn.tree.DecisionTreeRegressor •1.11. Ensemble methods •https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/ ensemble/_gb_losses.py •Trevor Hastie ・Robert
Tibshirani ・Jerome Friedman 著・杉山将・井手剛・神嶌敏弘・栗田多喜夫・前田英作監訳・井尻善久・井手剛・岩田具治・金森敬文・兼村厚範・烏山昌幸・河原吉伸・木村昭悟・小西嘉典・酒井智弥・鈴木大慈・竹内一郎・玉木徹・出口大輔・冨岡亮太・波部斉・前田新一・持橋大地・山田誠訳 ”統計的学習の基礎: データマイニング・推論・予測”. 共立出版, 2014.

勾配ブースティングの仕組み

勾配ブースティングの仕組み

K_DM

More Decks by K_DM

Other Decks in Education

Featured

Transcript

アンサンブル４アンサンブル４勾配ブースティング勾配ブースティング

Adaboost データを重み付けし、予測が難しいデータを重み付けして行くことで、精度を高める … • • • • • • •

勾配ブースティング正解との誤差の勾配を用いて予測を修正していく訓練データ全体・・・最終的な出力 • • • •

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる ※わかりやすくするためにlearning_rateを大きくして更新幅を大きくしています

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる ※わかりやすくするためにlearning_rateを大きくして更新幅を大きくしています

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる ※わかりやすくするためにlearning_rateを大きくして更新幅を大きくしています

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる ※わかりやすくするためにlearning_rateを大きくして更新幅を大きくしています

アルゴリズム① 1. いくつかモデルを作成し、その中から損失が最小のモデルを選択する　　 2. 以下のステップを回繰り返す( ) 2-1. 各データについて、以下の値を計算する

アルゴリズム② 2-2. を予測できるような回帰木を作成する 2-3. 終端領域について　　となるようなを求める

実験！じっけん

実験用のデータ数値データに対して、勾配ブースティングで予測をします ※コードは概要欄に添付します

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる

勾配ブースティングに含まれる各木の出力を可視化少しずつ正解に向けて誤差が修正されている様子がわかる

各パラメタの影響えいきょう

n_estimators 基本的にはデフォルトの設定で十分によい性能になる一定の基準を超えると頭打ちになる

learning_rate 小さすぎても大きすぎてもダメ、n_estimatorsを固定した上でちょうど良い値を見つける収束していない

損失関数の影響外れ値があるとき、二乗誤差は離れたデータでも当てようとする目的に合わせて適切な損失関数を指定する必要がある

まとめ勾配ブースティングの仕組みを説明しました •勾配ブースティング木＝勾配降下法＋ブースティング＋決定木学習 •はじめに決めるべき重要なパラメタは

参考文献 •sklearn.tree.DecisionTreeRegressor •1.11. Ensemble methods •https://github.com/scikit-learn/scikit-learn/blob/main/sklearn/ ensemble/_gb_losses.py •Trevor Hastie ・Robert