反省_アルゴコンペ_202208_kaggle_DFL

Slide 1

Slide 1 text

2018/08/08 1 Kaggle DFL コンペ：ビデオ映像に基づくプレーの確認 ◆ 概要 : ドイツのサッカーリーグによるコンペで， 9つのサッカーの試合を録画したデータをもとに， “３種類のプレイヤーの行動を行った時刻”と”種類”の両方検出することを目標 Just Throwing!!!

Slide 2

Slide 2 text

2018/08/08 2 1位ソリューション： https://www.kaggle.com/competitions/dfl-bundesliga-data-shootout/discussion/359932 ◆ 入力：グレースケール 1024x1024の15 frame ➢ 理由： runtime制約。フレーム数は実験的に出した。 ➢ 入力直後に、bs*frames x channels x H x WにReshapeする。 ➢ 3Dconv前に、bs x frames x channels x H x Wに戻す。 ◆ Net構造 ➢ 概要：2.5D と 3D の組み合わせによって構築された 1 段階のアーキテクチャ ➢ Backbone：efficientnetv2_b0 or efficientnetv2_b1 ⚫ 理由：これより大きいモデルだとオーバーフィットした。 ➢ 最終レイヤーのみ3D convで実行 ⚫ 理由：高速化のため。 ◆ Loss：3target BCE ➢ hard labels in a small window around the actual event（ソフトで検証したけど、ハードの方が良かった） ◆ データ： ➢ 配られたモノでほぼ検討。SoccerNetを使うとちょっと良くなった。疑似ラベルをやってみたけどうまく行かなかった。 ◆ Augmentation ➢ Brightness, Contrast, cutout, rotate, transpose ,vFlitp, Hflip, Resize, mixup ◆ 実装 ➢ スレッド化をして高速化頑張った。 ◆ アルゴリズム ➢ 1 つのモデルで2 番目のフレームのみを予測し、最終的なソリューションは 2 つのモデルをフレームごとに交互にブレンド ➢ その後後処理を適用してFPの数を減らします入力 (15,1,1024,102) Efficientnet b0 or b1 3d conv Training model architecture play challenge throwin

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text