MoA Public 14th 振り返り

初めてのコンペ～MoA Prediction～ 2020/12 KOUKI

自己紹介 Kaggle: Kouki • 地方のSIerのSE • C#、Java、SQL等の言語を使ったシステム開発が主 • 今年6月から機械学習に挑戦開始 Kaggleスタートブック、Titanic、House
Price、他諸々書籍読んだり twitter @kou_256 2

結果でフィニッシュ！まさかの24位からのShake-up。 Discussion Expertになりました。 Notebookも1つ金をいただきました。最終サブのNotebookを説明付きで公開。 3

MoAコンペ参加の理由スキルアップテーブルデータ初心者向け (とkaggler-jaで見た) 4

MoAコンペ私の理解  テーブルデータ。  説明変数が875個。多い。  目的変数が207個。多い。  使途不明の
train_targets_nonscored.csv。  説明変数がマスクされている。ドメイン知識があっても有効利用が難しい？  Notebookコンペ。2時間以内にRunさせる。（Notebook分離OKなのは後半に知る）  MoA(作用機序)について  ディスカッションやインターネットで調べてはみたが、よくわからなかった・・・  どうやら新薬の開発に役立てたいという雰囲気まではつかめたくらい。 5

前半の取り組みとりあえず LGBM Over Sampling NNに乗り換えアンサンブル！ label smoothing
とかこれしか知らない… 他のDatasetで効いたので -> 今回は効かず Kerasの本を読んで NNを勉強 Public Notebookを参考にしながらモデル追加。 Discussionに投稿されていた有効そうな手段を組み込み 0.06072 0.06398 0.01892 0.01884 0.01861 6

後半の取り組み non scored を特徴量にする Stackingの Blending 新しいモデルを追加(頭２NN) Blending 重み調整
意図的なリーク NNで学習。 test用の特徴量生成 Stackingの結果もブレンドに含める trainと、non_scoredから作った特徴量をわけて入れてみる CVを見ながら重みを手動調整。その後勘による調整で LB向上… ディスカッションから、リークさせる方向で調整 0.01851 0.01841 0.01830 0.01821 0.01815 7

後半の取り組み Stackingの Blending 新しいモデルを追加(頭２NN) Blending 重み調整意図的なリーク NNで学習。
test用の特徴量生成 Stackingの結果もブレンドに含める trainと、non_scoredから作った特徴量をわけて入れてみる CVを見ながら重みを手動調整。その後勘による調整で LB向上… ディスカッションから、リークさせる方向で調整 0.01851 0.01841 0.01830 0.01821 0.01815 non scored を特徴量にする 8

non scored の特徴量化 train non scored Simple Neural Net test
トレーニング説明変数目的変数モデル train 予測モデル予測新しい特徴量 (train用) 新しい特徴量 (test用) 予測対象予測対象これらを後続の説明変数にする。 train用にはnon scoredそのものを使うことも可能だが、スコアに寄与しなかった。 9

後半の取り組み non scored を特徴量にする新しいモデルを追加(頭２NN) Blending 重み調整意図的なリーク
NNで学習。 test用の特徴量生成 Stackingの結果もブレンドに含める trainと、non_scoredから作った特徴量をわけて入れてみる CVを見ながら重みを手動調整。その後勘による調整で LB向上… ディスカッションから、リークさせる方向で調整 0.01851 0.01841 0.01830 0.01821 0.01815 Stackingの Blending 10

stackingのBlending モデル１モデル２モデル３・・・ Stacking (NN) Blending
Stackingの結果も Blendingに混ぜることでスコアが大幅改善。元のモデルの予測値をもう一度使うことになるので、“これってありなの・・・”と、自信はなかった。 11

後半の取り組み non scored を特徴量にする Stackingの Blending 新しいモデルを追加(頭２NN) Blending 重み調整
意図的なリーク NNで学習。 test用の特徴量生成 Stackingの結果もブレンドに含める trainと、non_scoredから作った特徴量をわけて入れてみる CVを見ながら重みを手動調整。その後勘による調整で LB向上… ディスカッションから、リークさせる方向で調整 0.01851 0.01841 0.01830 0.01821 0.01815 12

意図的なリーク PCA VT train test 普通は・・・今回は・・・ Fit PCA VT
train test Fit 通常はfit時にtest setを含めるべきではない。未知であるべき情報が使われて、 transformされてしまうため。今回はprivate test setが submission中に参照可能、という事実があったため、 privateにoverfitするという目的で利用することは可能だったと考えた。 13

Final Submission 奇跡的に最も良い private scoreを選択していた。結果的にはLBを信じていた。後半のShakeについてのディスカッションには震えた。 CVが似たような値しか出なくなっていたので、ここは初心者らしく色気を出さずTrust
the LB。 0.01616のサブは、いわゆるChris’s Fold ver。ひょっとしたらこっちのがbetterもあるかもな・・・ということで選択。最後の1サブはエラーというオチ・・・ 14

全体を通して  終了ギリギリまで2時間で全部(train, inference)やらないといけないと思っていた。  ディスカッションで聞いてもあまりピンと来る回答もなく、またルール等にも書いてない。  結局最後まで1Notebookで全部やるスタイルを崩さずに走り切った。  このためモデルの高速化なんかも途中でやっている。Seed,
Fold数にも気を遣っている。  とにかくShakeが心配だった。  中盤のStackingのブレンドで高スコアが出たため、割とずっと上位にいた。  初心者がいきなりこんな上なはずはないと、根拠なく過学習していると思っていた。  とはいえ初心者が深読みしてもどうにもならないので、LB向上に努め続けた。 15

全体を通して  ディスカッションは“全部”読んだ。  文字通り全部読んでた。おかげでスコア向上、学習速度向上などできた。  気になることは書き込んだ。勉強になった。やはり絡んでみないとわからない。  わからないことはトピックも立てて聞いてみた。 
初心者すぎるのでスルーされるかとも思いつつ。優しいGMが教えてくれたりした。  結果なんだかMoAに愛着がわいた。（笑 16

疑問  中盤以降はハイパーパラメーターチューニングに多くの時間をつぎ込んだ。  実際、どういうActivationを使うか、Dropoutはどれくらいにするか、レイヤーの順序を組み替えたらどうなるか・・・とかいろいろやると、個別のCVは結構改善したので。  これでよかったのか？ほかの人はどういうところに時間を費やしたのか。  そもそもStackingの結果を、Stackingに使った結果と合わせてBlendingするという
のはアリなのか？  これに関しては解法公開時に疑問として投げかけてはみたものの、特にだれからもコメントなし。  Variance Thresholdの適用のしかた  特徴量エンジニアリング前にfitし、その他の特徴量エンジニアリング(PCA, Rank Gauss、 StandardScaler etc…)が終わった後に、列の除去を実施していた。特にStandardScaler 後にfitしても、もはや列削除ができない。またPCAといった特徴量には、削除予定の列の情報も含めて生成したかった。 17

18 以上、ありがとうございました。

MoA Public 14th 振り返り

MoA Public 14th 振り返り

Kouki

Other Decks in Technology

Featured

Transcript

初めてのコンペ～MoA Prediction～ 2020/12 KOUKI

自己紹介 Kaggle: Kouki • 地方のSIerのSE • C#、Java、SQL等の言語を使ったシステム開発が主 • 今年6月から機械学習に挑戦開始 Kaggleスタートブック、Titanic、House

結果でフィニッシュ！まさかの24位からのShake-up。 Discussion Expertになりました。 Notebookも1つ金をいただきました。最終サブのNotebookを説明付きで公開。 3

MoAコンペ参加の理由スキルアップテーブルデータ初心者向け (とkaggler-jaで見た) 4

MoAコンペ私の理解  テーブルデータ。  説明変数が875個。多い。  目的変数が207個。多い。  使途不明の

前半の取り組みとりあえず LGBM Over Sampling NNに乗り換えアンサンブル！ label smoothing

後半の取り組み non scored を特徴量にする Stackingの Blending 新しいモデルを追加(頭２NN) Blending 重み調整

後半の取り組み Stackingの Blending 新しいモデルを追加(頭２NN) Blending 重み調整意図的なリーク NNで学習。

non scored の特徴量化 train non scored Simple Neural Net test

後半の取り組み non scored を特徴量にする新しいモデルを追加(頭２NN) Blending 重み調整意図的なリーク

stackingのBlending モデル１モデル２モデル３・・・ Stacking (NN) Blending

後半の取り組み non scored を特徴量にする Stackingの Blending 新しいモデルを追加(頭２NN) Blending 重み調整

意図的なリーク PCA VT train test 普通は・・・今回は・・・ Fit PCA VT

18 以上、ありがとうございました。