Slide 2
Slide 2 text
2018/08/08
2
1位ソリューション:
https://www.kaggle.com/competitions/dfl-bundesliga-data-shootout/discussion/359932
◆ 入力:グレースケール 1024x1024の15 frame
➢ 理由: runtime制約。フレーム数は実験的に出した。
➢ 入力直後に、bs*frames x channels x H x WにReshapeする。
➢ 3Dconv前に、bs x frames x channels x H x Wに戻す。
◆ Net構造
➢ 概要:2.5D と 3D の組み合わせによって構築された 1 段階のアーキテクチャ
➢ Backbone:efficientnetv2_b0 or efficientnetv2_b1
⚫ 理由:これより大きいモデルだとオーバーフィットした。
➢ 最終レイヤーのみ3D convで実行
⚫ 理由:高速化のため。
◆ Loss:3target BCE
➢ hard labels in a small window around the actual event(ソフトで検証したけど、ハードの方が良かった)
◆ データ:
➢ 配られたモノでほぼ検討。SoccerNetを使うとちょっと良くなった。疑似ラベルをやってみたけどうまく行かなかった。
◆ Augmentation
➢ Brightness, Contrast, cutout, rotate, transpose ,vFlitp, Hflip, Resize, mixup
◆ 実装
➢ スレッド化をして高速化頑張った。
◆ アルゴリズム
➢ 1 つのモデルで2 番目のフレームのみを予測し、最終的なソリューションは 2 つのモデルをフレームごとに交互にブレンド
➢ その後後処理を適用してFPの数を減らします
入力
(15,1,1024,102)
Efficientnet
b0 or b1
3d conv
Training model architecture
play
challenge
throwin