Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Sports Analyst Meetup #5 LT - 目指せPGAツアー賞金王
Search
OpenJNY
November 02, 2019
Science
1
1.1k
Sports Analyst Meetup #5 LT - 目指せPGAツアー賞金王
PGA Tour データを GLM/GAM で簡単に分析してみました。
OpenJNY
November 02, 2019
Tweet
Share
More Decks by OpenJNY
See All by OpenJNY
Linux Networking Tools: 101
openjny
63
17k
BERT の解剖学: interpret-text による自然言語処理 (NLP) モデル解釈
openjny
11
3k
NSG フローログを支える技術 - NVF Advanced Flow Logging
openjny
1
780
グラフ分析ナイト - グラフデータ分析 入門編
openjny
2
940
Representation Learning for Scale-free Networks: スケールフリーネットワークに対する表現学習
openjny
0
55
A Degeneracy Framework for Graph Similarity: グラフ類似度のための縮退フレームワーク
openjny
0
230
Handbook of Knowledge Representation - Chapter 2: Satisfiability Solvers
openjny
0
120
Other Decks in Science
See All in Science
ICRA2024 速報
rpc
3
5.1k
ECUACIÓN DE ESTADO DEL VIRIAL
borischicoma
0
160
Causal discovery based on non-Gaussianity and nonlinearity
sshimizu2006
0
170
学術講演会中央大学学員会八王子支部
tagtag
0
220
解説!データ基盤の進化を後押しする手順とタイミング
shomaekawa
1
330
Coqで選択公理を形式化してみた
soukouki
0
180
拡散モデルの原理紹介
brainpadpr
3
4.6k
All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq
ktatsuya
0
220
As We May Interact: Challenges and Opportunities for Next-Generation Human-Information Interaction
signer
PRO
0
130
多次元展開法を用いた 多値バイクラスタリング モデルの提案
kosugitti
0
190
ウェーブレットおきもち講座
aikiriao
1
780
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
380
Featured
See All Featured
Designing Dashboards & Data Visualisations in Web Apps
destraynor
228
52k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
9
680
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
43
6.6k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
27
1.9k
Happy Clients
brianwarren
97
6.7k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
Code Review Best Practice
trishagee
64
17k
Embracing the Ebb and Flow
colly
84
4.4k
The Art of Programming - Codeland 2020
erikaheidi
51
13k
Transcript
目指せ PGA ツアー賞金王
$ about-me . ├── 山口順也 (Junya Yamaguchi) │ ├── @OpenJNY
│ ├── 某パブリッククラウドで Support Eng. やってます (新卒 1 年目) │ └── Networking の勉強中 (LB, WAF, etc) └── 東京工業大学・大学院で人工知能基礎と機械学習を勉強してました ├── 理論よりの本 (e.g. PRML, MLaPP) が好き ├── 卒論は「SAT ソルバ × GPGPU」 ├── 修論は「SAT ソルバ × グラフ埋め込み」 └── Kaggle はやってません グラフ埋め込みは、めちゃくちゃおもしろい&今ホットなト ピックなので、興味あるかたいれば是非説明したい内容
None
None
LT テーマ: PGA ツアーの stats を GLM/GAM で分析してみる - https://www.kaggle.com/bradklassen/pga-tour-20102018-data
- LT の目的: - Python の GAM ライブラリ pyGAM を知る - PGA ツアーで賞金王になるための知見をゴル活に活かす - ノートブックは以下の URL で公開しています - https://www.kaggle.com/juyamagu/pga-tour-analysis-by-gam
背景: モデルの入力次元と解釈性 - 3 以上の次元を持つ入力を扱う関数は、人 間が視覚的に解釈できない - なので解釈可能にするには、入力を 1 次
元ないしは 2 次元に抑える必要がある - 複数の入力を一気に扱う機械学習モデ ル (e.g. DNN) などは解釈できない… N/A 2 次元以下の入力の関数を 組み合わせたモデルなら視覚的に解釈可能
GLM と GAM • 一般化線形モデル (Generalized Linear Model; GLM) •
一般化加法モデル (Generalized Linear Model; GLM) GLM の詳細は緑本や MLaPP 9章、GAM の詳細はカステラ本 9章を参照くださいm(_ _)m Hastie, T. J.; Tibshirani, R. J. (1990) Nelder, J.; Wedderburn, R. (1972)
pyGAM https://pygam.readthedocs.io/en/latest/
$ pip install pygam
None
データ概観: スキーマ カラム名 説明 PlayerName 名前 Season 年度 Money 年間獲得賞金
($) DrivingDistance 平均ドライバー飛距離 (yard) DrivingAccuracy フェアウェイ キープ率 DistanceEfficiency 飛距離/スピードの平均 NonDrivingDistance 平地での平均飛距離 (yard) カラム名 説明 BallSpeed ボールの平均スピード ScramblingSand バンカーからのスクランブル率 ScramblingFringe フリンジからのスクランブル率 ScramblingRough ラフからのスクランブル率 ThreePutRate スリーパットを叩いたホール率 BirdieConversion バーディ以上のホール率
データ概観: 相関係数 賞金と正の相関が強いもの - ドライバーの距離 - 飛距離の効率性 (スピン量) - ボールスピード
- ラフからのリカバリの上手さ - バーディよりよい成績でホールを終える 率 賞金と負の相関が認められるもの - ドライバー以外のショット飛距離 - 3 パットするホールの割合
PyGAM: GLM による Money 予測
None
PyGAM: GAM による Money の予測 l (Linear) を s (Spline)
に置換するだけ
None
GAM の表現力の豊かさ GLM GAM 一般化加法モデル 一般化線形モデル ✓ BirdieConversion (バーディより良い成績のホー ル率)
が大きいほど、賞金が稼げる傾向にある ✓ BirdieConversion (バーディより良い成績のホー ル率) が大きいほど、賞金が稼げる傾向にある ✓ ただし33 パーセント付近に「大きな壁」の存在 ✓ < 33% だと、賞金の伸びは限定的 ✓ 壁を超えると一気に賞金獲得の期待が高まる
None
含意
None