CA x atmaCup 2nd, 5th Place Solution

Slide 1

Slide 1 text

CA × atmaCup 2nd 振り返り会 5th Place Solution ~チームマージ後の戦略を中⼼に~ チーム: pao++ (u++ & pao) 2020年12⽉10⽇ 1

Slide 2

Slide 2 text

チーム紹介 public 4位 -> private 5位 u++: https://twitter.com/upura0 pao: https://twitter.com/pppaaaooo 2

Slide 3

Slide 3 text

最終的なベストお互いの予測値の重み付き平均 u++: StratifiedKFoldで学習したLightGBM （public lb: 0.3015, 7位相当） pao: Timesplitで学習したLightGBM （public lb: 0.2859, 13位相当） u++が使っている未来系特徴は最終⽇に近づくほど⽋損が増える/paoさんのモデルの⽅が最終⽇に近づくほど性能が⾼いので、最終⽇に近づくほどpaoさんの重みを上げている（public: 0.3072 -> 0.3089, 4位相当） 3

Slide 4

Slide 4 text

順位の変遷 4

Slide 5

Slide 5 text

チームマージ前（u++）類似コンペのKaggle「TalkingData AdTracking Fraud Detection Challenge」の1位解法を参考にしつつ、1100程度を作成 StratifiedKFoldで学習したLightGBMが、CV: 0.3736、LB: 0.2427 と過学習気味（macbook pro RAM 16GB で取り組んでいた） 5

Slide 6

Slide 6 text

チームマージ前（pao） Timesplitで学習したLightGBM（最後1週間をValidに）で、 CV: 0.2460、LB: 0.2319 特徴量を作成しCVを確認しながら追加し、100程度「特徴量を追加してもCVが下がってばかりで苦戦している」 -> 順位的には上にいたが過学習に苦しんでいたu++と、特徴量のアイディアを欲していたpaoさんの利害が⼀致した 6

Slide 7

Slide 7 text

チームマージ後の戦略 . Slack に private channel を作成 . お互いの取り組みを簡単に共有 . 予想通り⽅向性がある程度異なっていたので、アンサンブルに期待しつつ、多様性を保ちながら互いのモデルを育てていくことに . バリデーション、特徴量、ハイパーパラメータなどの気付きは積極的に議論 7

Slide 8

Slide 8 text

サブミット回数⽔曜夜のチームマージ時点で残り32サブ（23サブ消化）最初にサブミット回数について確認ひとまず1⼈10サブくらいは⾃由に残りはアンサンブル？⾦曜朝に2⼈ともLB: 0.264に到達アンサンブル上げ幅の確認のため平均を提出し、LB: 0.280（相関は0.836）改めて個々のモデルを伸ばす⽅針に（残り20サブ）終了までどれくらい時間が使えるか、いつ最後のアンサンブルをするかも確認 8

Slide 9

Slide 9 text

モデルの改善（u++） paoさんのアドバイスに沿って、trainとtestで解離しがちな特徴量を除いていくことでLBが向上たとえば「⽇付の day 部分を抽出した特徴はtestの期間が8 ⽇間しかないので危険かも」など 1⼈で取り組んでいると気付きづらい点を指摘してもらった具体的には特徴量を10個ほど削除することで、⼀気にLB: 0.2643 -> 0.2996 （チームマージで決意を固め、GCP RAM 128GB に課⾦） 9

Slide 10

Slide 10 text

モデルの改善（pao） u++側で効いていた特徴量のアイディアを活⽤ユーザ単位で次の imp_at との差分など、未来特徴量詳細はDiscussion参照（参加者のみ） https://www.guruguru.science/competitions/12/discussions/81f b3840-8902-4def-905f-a9a246f9aa39/ 10

Slide 11

Slide 11 text

未来特徴量の⼯夫 trainとtestでは期間が異なるので、同じように作るとtrainと testで解離が発⽣ trainの最初の⽅では、次の imp_at が14⽇後というデータが存在するが、testは8⽇間しかない testの最終⽇は、最⼤でも24時間後のデータ⼀定の期間以上のデータを null に置換すると解離が防げる⼀⽅で、情報量が落ちる testの⽇付分の8モデルを作成（LB: 0.2705 -> 0.2869）初⽇モデル: 8⽇後以降は null 、2⽇⽬モデル: 7⽇後以降は null 、、、最終⽇モデル: 24時間以降は null 11

Slide 12

Slide 12 text

⽇付別モデルの⽐較 12

Slide 13

Slide 13 text

Date Weight Ensemble paoさんモデルの⽅がtest後半に強くなると想定した重み付き平均（LB: 0.3072 -> 0.3089） pao_weight = { '2020-06-27': 0.1, '2020-06-28': 0.18, '2020-06-29': 0.26, '2020-06-30': 0.33999999999999997, '2020-07-01': 0.42000000000000004, '2020-07-02': 0.5, '2020-07-03': 0.58, '2020-07-04': 0.66 } ※ 重みは適当だが、late subしても超えられず 13

Slide 14

Slide 14 text

まとめ CA × atmaCup 2nd の 5位解法の紹介 paoさんとのチームマージ後の戦略を中⼼に 14