Stochastic Gradient Boostingについて

〜～論論⽂文輪輪読会〜～ Stochastic Gradient Boosting Jerome H. Friedman(1999) ⾼高柳柳慎⼀一

Whatʼ’s this? •  加法モデルの１つ – Gradient Boostingの拡張版 – モデルを学習させる際に”データをサンプリングして使う（全部使わない）”というだけ •  Gradient
Boostingの特徴 – モデル = 決定⽊木の⾜足しあげ – pseudoな誤差(損失関数の勾配)に対してモデルを当てはめる 2

まとめ •  Stochastic Gradient Boosting = Gradient Boosting+標本サンプリング • 
Gradient Boostingの特徴 – 最適化問題を⼆二段階に分けて解く • 第⼀一弾：勾配⽅方向になるような学習器を最適化計算 – データが有限なので厳密計算を諦めて近似 • 第⼆二弾：１を既存の学習器に追加する際の係数を最適化 3

Gradient Boostingのモデル •  モデルFはhという弱学習器の⾜足し上げ •  損失関数Ψを最⼩小化するように学習データ xから、βとhを決める 4

最適化計算 •  最適化はm=0から順に(stage-‐‑‒wise)決めていく⽅方針を取る（これがいいという裏裏付けはないっぽい） •  F0を決めて、F1, F2, … FMと順に最適化
計算で決めていくということ 5

最適化計算のアイディア •  最適化計算を2ステップに分ける – aとβをばらばらにきめる •  第⼀一段階：勾配を学習器で近似(最適化) •  第⼆二段階：くっつけるときの係数を最適化 6

個々の学習器は回帰⽊木とする •  学習器 is 回帰⽊木 – 今までのaを{Rlm}と書いている – L個の終端ノードがある 7 1� 2…�
L� R1m R2m RLm 1:XΛͿͬ͜Ή 2:X͕Ϛον͢Δ RlmΛ୳͢ x͕RlmʹೖΔ yͷฏۉ஋

第⼀一段＆第⼆二段の最適化 •  第⼀一段は普通にやれる •  第⼆二段は個々の終端ごとに最適化してOK – なぜならここの終端は独⽴立立/互いに素？なので – ∴並列列化できる！ •  これを今までの学習器に⾜足しこんで新しい学習器とする
8

Gradient Boostingのアルゴリズム •  アルゴリズムのまとめ 9

Stochastic Gradient Boostingのアルゴリズム •  アルゴリズムのまとめ – データを全部使わない • （20%-‐‑‒50%程度度の使⽤用がふつうらしい) 10

なぜStochasticにするとよいのか？ •  論論⽂文を読む限り・・・ – サンプリングで学習に使うデータが異異なる – 学習器間の相関が減る – ⼀一⽅方 • 全体の分散≒sum(個々の分散) + sum(相関) と書ける
– 相関が減るおかげで全体の分散が減る – Bias-‐‑‒Variance的に考えて汎化性能があがる 11

Stochastic Gradient Boostingについて

Stochastic Gradient Boostingについて

Shinichi Takayanagi

More Decks by Shinichi Takayanagi

Other Decks in Research

Featured

Transcript

〜～論論⽂文輪輪読会〜～ Stochastic Gradient Boosting Jerome H. Friedman(1999) ⾼高柳柳慎⼀一

Whatʼ’s this? •  加法モデルの１つ – Gradient Boostingの拡張版 – モデルを学習させる際に”データをサンプリングして使う（全部使わない）”というだけ •  Gradient

まとめ •  Stochastic Gradient Boosting = Gradient Boosting+標本サンプリング •

Gradient Boostingのモデル •  モデルFはhという弱学習器の⾜足し上げ •  損失関数Ψを最⼩小化するように学習データ xから、βとhを決める 4

最適化計算 •  最適化はm=0から順に(stage-‐‑‒wise)決めていく⽅方針を取る（これがいいという裏裏付けはないっぽい） •  F0を決めて、F1, F2, … FMと順に最適化

最適化計算のアイディア •  最適化計算を2ステップに分ける – aとβをばらばらにきめる •  第⼀一段階：勾配を学習器で近似(最適化) •  第⼆二段階：くっつけるときの係数を最適化 6

個々の学習器は回帰⽊木とする •  学習器 is 回帰⽊木 – 今までのaを{Rlm}と書いている – L個の終端ノードがある 7 1� 2…�

Gradient Boostingのアルゴリズム •  アルゴリズムのまとめ 9

Stochastic Gradient Boostingのアルゴリズム •  アルゴリズムのまとめ – データを全部使わない • （20%-‐‑‒50%程度度の使⽤用がふつうらしい) 10

なぜStochasticにするとよいのか？ •  論論⽂文を読む限り・・・ – サンプリングで学習に使うデータが異異なる – 学習器間の相関が減る – ⼀一⽅方 • 全体の分散≒sum(個々の分散) + sum(相関) と書ける