【論文解説】TTNet: Real-time temporal and spatial video analysis of table tennis

【論文解説】TTNet: Real-time temporal and spatial video analysis of table tennis

C33ee6184e05387228fd6283db8d6785?s=128

Sports AI

May 09, 2020
Tweet

Transcript

  1. Atom Scott TTNet: Real-time temporal and spatial video analysis of

    table tennis Voeikov, R., Falaleev, N., Baikulov, R. (2020). TTNet: Real-time temporal and spatial video analysis of table tennis arXiv https://arxiv.org/abs/2004.09927 【Sports AI 論文解説】 by スコットアトム
  2. Atom Scott どんなもの? 卓球の試合映像から • イベント検出 • ボールの位置検出 • セマンティック

    セグメンテーション をまとめて出力するニューラルネットワークを学習することで リアルタイム&精度を達成できたという研究。
  3. Atom Scott どんなもの? https://www.youtube.com/watch?v=5P3k5ZCDcq8

  4. Atom Scott 背景 / ボールの位置検出 DeepBall[1] • CNNを用いたボールの位置検出 • フルHD解像度で170fps

    • サッカーなので卓球と比べるとボールの動く速度は遅い 1. https://arxiv.org/abs/1902.07304
  5. Atom Scott 背景 / マルチタスクモデル UberNet[2] • 様々なCV系のタスク(計7種類)をまとめて学習することで高い精度を達成 2D/3D Pose

    Estimation and Action Recognition…[3] • 映像から行動とポーズを同時に学習することで両方の タスクにおいてSOTAに近い精度を達成 2. https://arxiv.org/abs/1609.02132 3. https://arxiv.org/abs/1802.09232
  6. Atom Scott 提案手法 / TTNet 入力:9 frames @ 120 fps

    出力: in-game events, semantic masks, ball position
  7. Atom Scott 実装/アーキテクチャ ボール検出 1&2 イベント検出 セグメンテーション ConvBlock

  8. Atom Scott マルチタスク学習のロスの集計にはAdaptive Balacing[4] を適応 →それぞれのロスに学習可能なパラメータをつける ボール検出: Cross-entropy loss イベント検出:

    Class-weighted cross-entropy loss セグメンテーション: 1 - Sorensen-Dice coefficient & binary cross entropy 実装/誤差計算 Balanced Loss + … は正規化項 4. https://arxiv.org/pdf/1705.07115.pdf
  9. Atom Scott データセット イベント検出(Key Task) → (P Net , P

    Bounce ) ボールの位置検出 → (x, y) セマンティック セグメンテーション → (P Human , P Scoreboard , P Table ) イベント数 4271 (3 class = net/bounce/empty) イベント時 -4~+12 frameのにボール位置&セグメンテーション情報 →サンプリングして学習データを増やして 計38752/9502/73298 (training/validation/testing)サンプル Link: https://lab.osai.ai/datasets/openttgames/
  10. Atom Scott 評価 イベント検出 Percentage of Correct Events (PCE) P

    > 0.5 (しきい値) = 正解のイベントと一致した割合  ボールの位置検出 : Root Mean Square Error (RMSE) ずれの平均 セマンティック セグメンテーション: Intersection over Union (IoU) どれくらい重なっているか
  11. Atom Scott まとめ 利点 • 速い 6ms • データセットが公開されているので再現可能 •

    マルチタスクモデルで効率よくイベント・ボール位置・人物を検出 欠点 • 入力が9 frames(0.1秒)→サーブ・戦略 etcの検出は不能 • イベントが2種類のみ • データの試合数が少ない? 服装・審判の位置・テーブルの色を変えたら精度が変わりそう
  12. Atom Scott What is it / Why did I read

    this? Key words Main idea / Key insights Verification / Evaluation Discussion Things to check next Voeikov, R., Falaleev, N., Baikulov, R. (2020). TTNet: Real-time temporal and spatial video analysis of table tennis arXiv https://arxiv.org/abs/2004.09927 TTNet: Real-time temporal and spatial video analysis of table tennis Temporal-Spatial analysis on table tennis. The authors use multitask learning to predict in game events. CVPR 2020 paper. TTNet, table tennis, CV, CNN, ResNet A network comprised of two-stage ball detection, semantic segmentation and event spotting is used to ultimately predict events through the use of multitask learning Ball detection -> RMSE, ball presence i.e accuracy Event spotting -> (Smoothed )Percentage of correct Events Semantic segmentation -> Intersection over Union I wonder how accuracy/speed of ball detection changes as we increase the amount of stages (will three or four stages be better than the proposed two?). What about DenseNet or ResNeXt instead of ResNet? Ubernet, DeepBall, Integrated recognition localization and detection using convolutional networks, Convolutional neural networks based ball detection in tennis games looked interesting.