Slide 26
Slide 26 text
Gradient Boosting Tree
(AdaBoost からの改良点の要点のみ記した)
1. 損失関数 𝐿 ∙ が微分可能である時
𝐿 𝑡𝑖
, 𝑓𝑚
𝑋𝑖
= 𝐿 𝑡𝑖
, 𝑓𝑚−1
𝑋𝑖
+ 𝜕 𝐿 𝑡𝑖 , 𝑓𝑚−1 𝑋𝑖
𝜕 𝑓𝑚−1 𝑋𝑖
𝑓𝑚
𝑋𝑖
− 𝑓𝑚−1
𝑋𝑖
と近似できることを利用して,
損失関数の 𝑚 − 1 時点における 𝑖 = 1, … , 𝑁 の各データ点の負の勾配値
−𝑔𝑖𝑚
= − 𝜕 𝐿 𝑡𝑖 , 𝑓𝑚−1 𝑋𝑖
𝜕 𝑓𝑚−1 𝑋𝑖
に 𝑚 番目の決定木の予測値が近づくように
時点 𝑚 における決定木の構造(分割点、分割終端ノードの各予測値)を決める
2. 例えば,損失関数 𝐿 ∙ が 最小二乗損失 である時,
−𝑔𝑖𝑚
= − 𝜕 𝐿 𝑡𝑖 , 𝑓𝑚−1 𝑋𝑖
𝜕 𝑓𝑚−1 𝑋𝑖
= −
𝜕 1
2
𝑡𝑖 − 𝑓𝑚−1 𝑋𝑖
2
𝜕 𝑓𝑚−1 𝑋𝑖
= 𝑡𝑖
− 𝑓𝑚−1
𝑋𝑖
と,𝑚 − 1 時点での残差というシンプルな形になっている.
つまり,𝑚 番目の決定木の予測値はこの残差に近づければよい.
𝑓
𝑚
∙ の定義は前頁参照