atmaCup #16 in collaboration with RECRUIT 2nd place solution

atmaCup #16 in collaboration with RECRUIT 2nd Place Solution senkin13

課題1：データドリフト Train Test • trainとtestの出現した宿数の分布が異なる(時系列の変化) • trainの一番出現した3338がtestの中に出現回数ランクが 135

対策：データドリフト • trainの候補生成用のデータは train_log+test_log • testの候補生成用のデータは train_log+15倍test_log(15倍>8倍>5倍 >3倍>2倍>1倍)、test_logを増やすとtestの中に出現した宿の重みを増やす(LB: 0.0025+)
• 特徴量がtrainとtestそれぞれminmaxscalerで正規化(LB: 0.0007+)

課題2：Unseenデータ • trainしか出現しない宿が2339個 • testしか出現しない宿が190個

対策：Unseenデータ • 後処理で予測値の中に train しか出現した宿を削除 (LB: 0.0002+) • Matrix factorizationの一種で
あるBayesian Personalized Ranking (BPR) • 文章から単語の分散表現を獲得するWord2Vecをレコメンドシステムに適用した技術の Item2Vec • ユーザノードとアイテムノードからなる2部Graph NeuralNetwork の一種であるProNE

課題3：session数1の宿が多い Train Test • Session数1の宿が全体44%以上、ほぼ全体精度を支配する • 共起の宿がすくない

対策：session数1の宿が多い • すでにsessionに出現したyad(rule-baseline PLB: 0.3031) • yad-yad 共起表現(PLB: 0.4418) •
yad-yad-yad共起表現(PLB: 0.4441) • sml_cd-yad 共起表現(PLB: 0.4442) • bpr(Bayesian Personalized Ranking)(PLB: 0.4442+)

課題4：session数1の宿->Label遷移がユニーク • foldごと別のfoldのlabelを候補としていれたら、精度が落ちる

対策：session数1の宿->Label遷移がユニーク • trainの候補生成用のデータは train_log+test_log • testの候補生成用のデータは train_log+15倍test_log+train_label(out of folder)(LB: 0.0002+)

Model & Ensemble • lightgbm ranker 三つ（候補max50,75,100の三つ, best single model
PLB0.4455くらい • catboost ranker 三つ（候補max50,75,100の三つ） • rule-base + 3lightgbm + 3catboost • rank weighted average(PLB: 0.4458)

atmaCup #16 in collaboration with RECRUIT 2nd p...

atmaCup #16 in collaboration with RECRUIT 2nd place solution

senkin13

More Decks by senkin13

Featured

Transcript