Upgrade to Pro — share decks privately, control downloads, hide ads and more …

atmaCup#2上位解法をGBDTの気持ちになって考えた

tellmoogry
December 06, 2019

 atmaCup#2上位解法をGBDTの気持ちになって考えた

1. atmaCup#2上位解法
2. XGBoost概要
3. XGBoostの気持ちから見た上位解法

コンペ自体の概要は下記URLをご覧ください
https://atma.hatenablog.com/

tellmoogry

December 06, 2019
Tweet

More Decks by tellmoogry

Other Decks in Technology

Transcript

  1. 2.XGBoost概要
 XGBoostの中身
 
 
 画像引用 Chen, Tianqi and Carlos Guestrin.

    “XGBoost: A Scalable Tree Boosting System.” ArXiv abs/1603.02754 (2016): n. pag. (元論文)
  2. 2.XGBoost概要
 t本目の木に関するlossを表す式(最小化したい関数)
 
 
 l : 目的関数 (e.g. RMSE, MSE,

    …)
 Ω(ft ): 正則化(以降は話を単純にするためムシ)
 yi :予測値の真値
 :(t-1)本目までの木での予測値
 n: データ数
 
 参考 https://qiita.com/kenmatsu4/items/226f926d87de86c28089 (まつけんさんの分かりやすい解説記事 )
  3. 3.XGBoostの気持ちから見た上位解法
 user1 user2 Y N N Y user3 user1の平均
 +2


    user2の平均
 +1.8
 1本目の木でuser_idのカラムだけ使うと
 葉にはuserごとの平均値が出力される

  4. 3.XGBoostの気持ちから見た上位解法
 
 まとめ
 【GBDTから見た上位手法の解釈】
   1本目にuser_idだけを使った木を明示的に差し込む
   (この木だけlearning_rate = 1で特別扱いしたもの)
 
 


    leakが怖いので使いどころは難しい...
 
 targetそのままで学習させたときに、categoricalに指定したカラム のFeature importanceが明らかに大きいときは試してみたい

  5. おわり XGBoostの実装会やったおかげで多くの学びがありました 懇親会でアドバイスをくれたJACKさん、実装会開催してくれたくる ぴーさんありがとうございました! (スライドで変な部分あればご指摘いただけると幸いです) 参考
 Chen, Tianqi and Carlos

    Guestrin. “XGBoost: A Scalable Tree Boosting System.” ArXiv abs/1603.02754 (2016): n. pag. (元論文)
 https://qiita.com/kenmatsu4/items/226f926d87de86c28089 (まつけんさんの分かりやすい解説記事 ) 門脇 大輔, 阪田 隆司, 保坂 桂佑, 平松 雄司「kaggleで勝つデータ分析の技術」技術評論社