runtime制約。フレーム数は実験的に出した。 ➢ 入力直後に、bs*frames x channels x H x WにReshapeする。 ➢ 3Dconv前に、bs x frames x channels x H x Wに戻す。 ◆ Net構造 ➢ 概要:2.5D と 3D の組み合わせによって構築された 1 段階のアーキテクチャ ➢ Backbone:efficientnetv2_b0 or efficientnetv2_b1 ⚫ 理由:これより大きいモデルだとオーバーフィットした。 ➢ 最終レイヤーのみ3D convで実行 ⚫ 理由:高速化のため。 ◆ Loss:3target BCE ➢ hard labels in a small window around the actual event(ソフトで検証したけど、ハードの方が良かった) ◆ データ: ➢ 配られたモノでほぼ検討。SoccerNetを使うとちょっと良くなった。疑似ラベルをやってみたけどうまく行かなかった。 ◆ Augmentation ➢ Brightness, Contrast, cutout, rotate, transpose ,vFlitp, Hflip, Resize, mixup ◆ 実装 ➢ スレッド化をして高速化頑張った。 ◆ アルゴリズム ➢ 1 つのモデルで2 番目のフレームのみを予測し、最終的なソリューションは 2 つのモデルをフレームごとに交互にブレンド ➢ その後後処理を適用してFPの数を減らします 入力 (15,1,1024,102) Efficientnet b0 or b1 3d conv Training model architecture play challenge throwin