Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Basketball Behavior Challenge 1st Place Solution
Shotaro Ishihara
November 27, 2020
Technology
0
740
Basketball Behavior Challenge 1st Place Solution
「Sports Analyst Meetup #9」での発表資料
https://spoana.connpass.com/event/190699/
Shotaro Ishihara
November 27, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
Analysis and Estimation of News Article Reading Time with Multimodal Machine Learning
upura
0
80
データ分析の進め方とニュースメディアでのデータ活用事例 / data-analysis-in-kaggle-and-news-media
upura
0
470
国際会議参加報告 AACL-IJCNLP 2022 / AACL-IJCNLP 2022 Report
upura
0
260
spoana 2022年の活動報告と 来年以降の企画募集 / spoana-2022
upura
0
490
Semantic Shift Stability: Efficient Way to Detect Performance Degradation of Word Embeddings and Pre-trained Language Models
upura
0
820
実践:日本語文章生成 Transformers ライブラリで学ぶ実装の守破離 / Introduction of Japanese Text Generation with Transformers
upura
5
7.5k
Nikkei at SemEval-2022 Task 8: Exploring BERT-based Bi-Encoder Approach for Pairwise Multilingual News Article Similarity
upura
0
420
[Poster] Nikkei at SemEval-2022 Task 8: Exploring BERT-based Bi-Encoder Approach for Pairwise Multilingual News Article Similarity
upura
0
380
新聞記事のクリック率予測に向けたペアワイズ学習用データセットの構築手法の検討 / JSAI2022 Generating Pairwise Dataset for CTR Prediction
upura
0
85
Other Decks in Technology
See All in Technology
グローバルチームことはじめ / Bootstrapping a global team
tasshi
1
530
Amazon Forecast を使って売上予測をしてみた
tomuro
0
290
Hasuraの本番運用に向けて
nori3tsu
0
260
propsのバケツリレー対策でGlobal_Stateを使うその前に
taro28
8
1.7k
MoT/コネヒト/Kanmu が語るプロダクト開発xデータ分析 - 分析から機械学習システムの開発まで一人で複数ロールを担う大変さ
masatakashiwagi
2
540
本社オフィスを移転し、 オフィスファシリティ・コーポレートIT を刷新した話
rotomx
3
1.1k
FlexScan HD2452Wの 後継を探して
tring
0
180
PCL (Point Cloud Library)の基本となぜ点群処理か_2023年_第2版.pdf
cvmlexpertguide
0
110
WebLogic Server for OCI 概要
oracle4engineer
PRO
3
830
JAWS-UG AI/ML #15 - SageMaker Experimentsで始める機械学習モデルの実験管理
masatakashiwagi
0
540
UNIX は知らない。でも AWS は知ってる。 そんな僕が『 UNIX という考え方』を 読んでみた件
kentosuzuki
1
280
RDS/Aurora バージョンアップのポイント
hmatsu47
PRO
8
1.6k
Featured
See All Featured
Happy Clients
brianwarren
90
5.8k
Building Better People: How to give real-time feedback that sticks.
wjessup
346
17k
A Tale of Four Properties
chriscoyier
149
21k
Pencils Down: Stop Designing & Start Developing
hursman
114
10k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
32
6.7k
How GitHub (no longer) Works
holman
298
140k
Designing the Hi-DPI Web
ddemaree
273
32k
Git: the NoSQL Database
bkeepers
PRO
418
60k
Gamification - CAS2011
davidbonilla
75
4.1k
Stop Working from a Prison Cell
hatefulcrawdad
263
18k
How to Ace a Technical Interview
jacobian
270
21k
VelocityConf: Rendering Performance Case Studies
addyosmani
317
22k
Transcript
Basketball Behavior Challenge 1位解法 Shotaro Ishihara, u++ (@upura0) Sports Analyst
Meetup #9 2020年12⽉13⽇ 1
本発表について 2019年12⽉〜2020年9⽉に開催されていた「Basketball Behavior Challenge: BBC2020」[1]の1位解法の紹介 時系列の座標データから「スクリーンプレイ」があったか否 かを判定するコンペ [1] https://competitions.codalab.org/competitions/23905 2
⾃⼰紹介 Shotaro Ishihara, u++ (@upura0) spoanaの運営メンバー 本業はメディア企業のデータサイエンティスト 本コンペは、spoana #7のLT発表で知った(アーカイブ[2]) 共著に『PythonではじめるKaggleスタートブック』(講談
社)[3] [2] https://www.youtube.com/channel/UCX1kD7i5JvvRIZdo9xjlakw [3] https://www.kspub.co.jp/book/detail/5190067.html 3
データの概要 frame scr_x scr_y usr_x usr_y uDF_x uDF_y bal_x bal_y
0 2.89 4.74 5.49 1.5 2.78 5.22 6.98 12.7 1 2.88 4.7 5.52 1.51 2.8 5.2 7.08 12.52 2 2.87 4.67 5.54 1.53 2.82 5.19 7.13 12.35 3 2.86 4.65 5.56 1.54 2.84 5.17 7.08 12.37 ... 学習⽤データセット(正例400、負例1128) テスト⽤データセット382 フレーム数は⼀定ではない 予測は0か1なので、予測値の閾値決定が必要 4
スコアの推移 5
機械学習の教師あり学習 [4] ⽯原ら, 『PythonではじめるKaggleスタートブック』, 講談社 6
最初のアプローチ 知識に基づき、予測に効きそうな7つの特徴量を抽出 . プレイヤー3⼈とボールの距離の最⼩値 C = 4 2 6 .
フレーム数 機械学習アルゴリズムには、過去実績から期待値が⼤きい 「LightGBM」を利⽤ 7
性能の向上のために 1位[5]と2位[6]の解法を⽐較 . 「tsfresh」による特徴抽出 . ニューラルネットワークの利⽤ . アンサンブル(複数の予測値の混ぜ合わせ) [5] https://github.com/upura/basketball-behavior-challenge
[6] https://github.com/takaiyuk/codalab-bbc2020 8
「tsfresh」による特徴抽出 特徴量の数: 11340 (4 agents * 2 dimensions + 6
distances between agents ) * 810 重要視された特徴量 9
ニューラルネットワーク 時系列の情報の最⼩値だけ使うと、情報を⼤きく失う 畳み込みニューラルネットワークを利⽤して、特徴を抽出 [7] https://www.mdpi.com/1424-8220/20/13/3697/htm 10
アンサンブル 複数の予測値の混ぜ合わせ 11
まとめ スポーツを題材にしたコンペは楽しい 知識を活かしてスコアが伸びていく 今はKaggleで「NFL 1st and Future - Impact Detection」[8]
が開催中 [8] https://www.kaggle.com/c/nfl-impact-detection 12