Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Basketball Behavior Challenge 1st Place Solution
Search
Shotaro Ishihara
November 27, 2020
Technology
0
810
Basketball Behavior Challenge 1st Place Solution
「Sports Analyst Meetup #9」での発表資料
https://spoana.connpass.com/event/190699/
Shotaro Ishihara
November 27, 2020
Tweet
Share
More Decks by Shotaro Ishihara
See All by Shotaro Ishihara
「極意本」サンプルコードをクラウド上で動かそう
upura
1
1.7k
論文紹介: Generating News-Centric Crossword Puzzles As A Constraint Satisfaction and Optimization Problem
upura
0
160
関東 Kaggler 会スポンサー資料
upura
0
1.4k
論文紹介 Quantifying attention via dwell time and engagement in a social media browsing environment / web-socialmedia-study-8th
upura
0
180
Quantifying Diachronic Language Change via Word Embeddings: Analysis of Social Events using 11 Years News Articles in Japanese and English
upura
1
350
Training Data Extraction From Pre-trained Language Models: A Survey
upura
0
180
論文紹介 Discovering and Categorising Language Biases in Reddit / web-socialmedia-study-5th
upura
0
280
AMA (Ask me anything) 『Kaggleに挑む深層学習プログラミングの極意』 / Ask me anything
upura
0
250
著者による書籍紹介『Kaggleに挑む深層学習プログラミングの極意』
upura
2
2k
Other Decks in Technology
See All in Technology
20240418_Google ColabにLLMが搭載されたようなのでPython x データ分析の勉強方法を考えてみる
doradora09
0
120
最近たまに見かけるTiDBってなんだ? - Findy
pingcap0315
2
760
SPI原点回帰論:事業課題とFour Keysの結節点を見出す実践的ソフトウェアプロセス改善 / DevOpsDays Tokyo 2024
visional_engineering_and_design
4
1.9k
4年前、あるじゃん老害エンジニアLT合戦に登壇、米国西海岸コンピュータ歴史博物館体験記の続編
toshi_atsumi
0
220
よく聞くけど使ったことないソフトウェアNo.1 KafkaとSnowflake
foursue
4
340
本当のAWS基礎
toru_kubota
0
490
現代CSSフレームワークの内部実装とその仕組み
poteboy
8
3.6k
コンパウンドスタートアップのためのスケーラブルでセキュアなInfrastructure as Codeパイプラインを考える / Scalable and Secure Infrastructure as Code Pipeline for a Compound Startup
yuyatakeyama
4
4.7k
TechFeed Experts Night#27 〜 フロントエンドフレームワーク最前線 (Svelte)
baseballyama
1
190
MySQL の SQL クエリチューニングの要所を掴む勉強会
andpad
2
6k
開発生産性向上サービスを作るFindyが自分たちで開発生産性を爆上げした組織づくりの歩み / Findy's path to boosting its own development productivity 2024-04-17
ma3tk
3
610
Next'24 事例セッションの紹介とクラウド資格を活用したキャリア形成について語りMuscle
yasumuusan
1
430
Featured
See All Featured
KATA
mclloyd
15
12k
Practical Orchestrator
shlominoach
182
9.7k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
120
39k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
Design by the Numbers
sachag
274
18k
Unsuck your backbone
ammeep
663
57k
The Cult of Friendly URLs
andyhume
74
5.7k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
14
1.5k
A Tale of Four Properties
chriscoyier
151
22k
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
Creatively Recalculating Your Daily Design Routine
revolveconf
210
11k
Transcript
Basketball Behavior Challenge 1位解法 Shotaro Ishihara, u++ (@upura0) Sports Analyst
Meetup #9 2020年12⽉13⽇ 1
本発表について 2019年12⽉〜2020年9⽉に開催されていた「Basketball Behavior Challenge: BBC2020」[1]の1位解法の紹介 時系列の座標データから「スクリーンプレイ」があったか否 かを判定するコンペ [1] https://competitions.codalab.org/competitions/23905 2
⾃⼰紹介 Shotaro Ishihara, u++ (@upura0) spoanaの運営メンバー 本業はメディア企業のデータサイエンティスト 本コンペは、spoana #7のLT発表で知った(アーカイブ[2]) 共著に『PythonではじめるKaggleスタートブック』(講談
社)[3] [2] https://www.youtube.com/channel/UCX1kD7i5JvvRIZdo9xjlakw [3] https://www.kspub.co.jp/book/detail/5190067.html 3
データの概要 frame scr_x scr_y usr_x usr_y uDF_x uDF_y bal_x bal_y
0 2.89 4.74 5.49 1.5 2.78 5.22 6.98 12.7 1 2.88 4.7 5.52 1.51 2.8 5.2 7.08 12.52 2 2.87 4.67 5.54 1.53 2.82 5.19 7.13 12.35 3 2.86 4.65 5.56 1.54 2.84 5.17 7.08 12.37 ... 学習⽤データセット(正例400、負例1128) テスト⽤データセット382 フレーム数は⼀定ではない 予測は0か1なので、予測値の閾値決定が必要 4
スコアの推移 5
機械学習の教師あり学習 [4] ⽯原ら, 『PythonではじめるKaggleスタートブック』, 講談社 6
最初のアプローチ 知識に基づき、予測に効きそうな7つの特徴量を抽出 . プレイヤー3⼈とボールの距離の最⼩値 C = 4 2 6 .
フレーム数 機械学習アルゴリズムには、過去実績から期待値が⼤きい 「LightGBM」を利⽤ 7
性能の向上のために 1位[5]と2位[6]の解法を⽐較 . 「tsfresh」による特徴抽出 . ニューラルネットワークの利⽤ . アンサンブル(複数の予測値の混ぜ合わせ) [5] https://github.com/upura/basketball-behavior-challenge
[6] https://github.com/takaiyuk/codalab-bbc2020 8
「tsfresh」による特徴抽出 特徴量の数: 11340 (4 agents * 2 dimensions + 6
distances between agents ) * 810 重要視された特徴量 9
ニューラルネットワーク 時系列の情報の最⼩値だけ使うと、情報を⼤きく失う 畳み込みニューラルネットワークを利⽤して、特徴を抽出 [7] https://www.mdpi.com/1424-8220/20/13/3697/htm 10
アンサンブル 複数の予測値の混ぜ合わせ 11
まとめ スポーツを題材にしたコンペは楽しい 知識を活かしてスコアが伸びていく 今はKaggleで「NFL 1st and Future - Impact Detection」[8]
が開催中 [8] https://www.kaggle.com/c/nfl-impact-detection 12