Slide 11
Slide 11 text
XGBoostを数式で理解しようとする5/7
© 2019 Chura DATA inc. PROPRIETARY & CONFIDENTIAL.
(ステップ1)決定木
が返すべき値∗について(この式が意味するもの(小話))
∗= −
σ∈
2ℎ+
= −2(
−ො
(−1))
ℎ
は
と出力される集合
に含まれるデータの個数
: の大きさに対するペナルティ
(罰則項Ω(
)= + 1
2
の式に出てくる)
∗:決定木
が返すべき値∗のj番目要素(ノード
の返すべき出力結果)
(1
, 2
, 3
,
4
, 5
)
(1
,
2
, 3
)
(4
, 5
)
(2) =4としたときの 1
∗, 2
∗の値は、
1
∗= −
σ∈1
2ℎ1+
= − −2 1 + −2 1 + −2(1)
2×3+4
= 0.6
2
∗= −
σ∈2
2ℎ2+
= − −2 0 + −2 0 + −2(0)
2×2+4
= 0
となり、1
∗の値が直感的によさそうな値
よりも小さくなっていることがわかる。
→過学習を防いでいる。
罰則項のパラメータの値
によって出力結果 1
∗, 2
∗
の値が異なる。
左図において、(1
, 2
, 3
, 4
, 5
) = 1,1,1,0,0 として、(1
, 2
, 3
) = 1,1,1 , 4
, 5
= (0,0)に分かれた
とする。このとき、1
=1、 2
= 0 と出力されることが直感的によさそうだが・・・
2
∗
1
∗
(1) =0としたときの、 1
∗, 2
∗ の値は、
1
∗= −
σ∈1
2ℎ1+
= − −2 1 + −2 1 + −2(1)
2×3+0
= 1
2
∗= −
σ∈2
2ℎ2+
= − −2 0 + −2 0 + −2(0)
2×2+0
= 0
となり、直感的によさそうな出力と、
1
∗, 2
∗の値が一致している。
( 実は、=0のときは算術平均と同
じ式になっている)