ソリューション (Overview) CV:0.791/Public:0.782/Private:0.775
5
ffmpeg YOLOv5
Efficientnet-b0
Efficientnet-b0
MLP 2nd stage
channel 0 channel 2
channel 1
YOLOでプレイヤー領域をクロップ。
CNNの入力はプレイヤー画像のほかに、衝突を検出するプレイヤーの
ヘルメットbboxと、全プレイヤーのヘルメットbboxのチャネルを追加。
ffmepgを使って
動画を各フレームの画像に変換
Endzone画像、Sideline画像をそれぞれEfficientnet
に入力し、中間ベクトルを取得。中間ベクトルはセンサー
データと結合したあとMLPに入力し衝突を予測。
Endzone、SidelineのEfficientnetの重みは共有。
動画データ
センサーデータ
trackingデータ
NN
入力したフレームの予測だけでなく、
前後のフレームも予測するように学習。
前後のフレームの予測値は2nd stageで活用。
予測値
Feature
Engineering
Feature
Engineering
Resources: RTX3090*1、 RTX3080*1
(VRAMは8GB程度しか使わなかった)
NN
次のような特徴量を作成
・プレイヤー間の距離、プレイヤー同士が同じチームか、
スピードの差分、プレイヤーが向いている方向がどのくらい
近いか、プレイヤーの最大スピード、これらのshift徴量
(多くの特徴量を作ったが、効いたのは少なかった)