Sports Analyst Meetup #5 LT - 目指せPGAツアー賞金王

目指せ PGA ツアー賞金王

$ about-me . ├── 山口順也 (Junya Yamaguchi) │ ├── @OpenJNY
│ ├── 某パブリッククラウドで Support Eng. やってます (新卒 1 年目) │ └── Networking の勉強中 (LB, WAF, etc) └── 東京工業大学・大学院で人工知能基礎と機械学習を勉強してました ├── 理論よりの本 (e.g. PRML, MLaPP) が好き ├── 卒論は「SAT ソルバ × GPGPU」 ├── 修論は「SAT ソルバ × グラフ埋め込み」 └── Kaggle はやってませんグラフ埋め込みは、めちゃくちゃおもしろい&今ホットなトピックなので、興味あるかたいれば是非説明したい内容

LT テーマ: PGA ツアーの stats を GLM/GAM で分析してみる - https://www.kaggle.com/bradklassen/pga-tour-20102018-data
- LT の目的: - Python の GAM ライブラリ pyGAM を知る - PGA ツアーで賞金王になるための知見をゴル活に活かす - ノートブックは以下の URL で公開しています - https://www.kaggle.com/juyamagu/pga-tour-analysis-by-gam

背景: モデルの入力次元と解釈性 - 3 以上の次元を持つ入力を扱う関数は、人間が視覚的に解釈できない - なので解釈可能にするには、入力を 1 次
元ないしは 2 次元に抑える必要がある - 複数の入力を一気に扱う機械学習モデル (e.g. DNN) などは解釈できない… N/A 2 次元以下の入力の関数を組み合わせたモデルなら視覚的に解釈可能

GLM と GAM • 一般化線形モデル (Generalized Linear Model; GLM) •
一般化加法モデル (Generalized Linear Model; GLM) GLM の詳細は緑本や MLaPP 9章、GAM の詳細はカステラ本 9章を参照くださいm(_ _)m Hastie, T. J.; Tibshirani, R. J. (1990) Nelder, J.; Wedderburn, R. (1972)

pyGAM https://pygam.readthedocs.io/en/latest/

$ pip install pygam

データ概観: スキーマカラム名説明 PlayerName 名前 Season 年度 Money 年間獲得賞金
($) DrivingDistance 平均ドライバー飛距離 (yard) DrivingAccuracy フェアウェイキープ率 DistanceEfficiency 飛距離/スピードの平均 NonDrivingDistance 平地での平均飛距離 (yard) カラム名説明 BallSpeed ボールの平均スピード ScramblingSand バンカーからのスクランブル率 ScramblingFringe フリンジからのスクランブル率 ScramblingRough ラフからのスクランブル率 ThreePutRate スリーパットを叩いたホール率 BirdieConversion バーディ以上のホール率

データ概観: 相関係数賞金と正の相関が強いもの - ドライバーの距離 - 飛距離の効率性 (スピン量) - ボールスピード
- ラフからのリカバリの上手さ - バーディよりよい成績でホールを終える率賞金と負の相関が認められるもの - ドライバー以外のショット飛距離 - 3 パットするホールの割合

PyGAM: GLM による Money 予測

PyGAM: GAM による Money の予測 l (Linear) を s (Spline)
に置換するだけ

GAM の表現力の豊かさ GLM GAM 一般化加法モデル一般化線形モデル ✓ BirdieConversion (バーディより良い成績のホール率)
が大きいほど、賞金が稼げる傾向にある ✓ BirdieConversion (バーディより良い成績のホール率) が大きいほど、賞金が稼げる傾向にある ✓ ただし33 パーセント付近に「大きな壁」の存在 ✓ < 33% だと、賞金の伸びは限定的 ✓ 壁を超えると一気に賞金獲得の期待が高まる

含意

Sports Analyst Meetup #5 LT - 目指せPGAツアー賞金王

Sports Analyst Meetup #5 LT - 目指せPGAツアー賞金王

OpenJNY

More Decks by OpenJNY

Other Decks in Science

Featured

Transcript

目指せ PGA ツアー賞金王

$ about-me . ├── 山口順也 (Junya Yamaguchi) │ ├── @OpenJNY

LT テーマ: PGA ツアーの stats を GLM/GAM で分析してみる - https://www.kaggle.com/bradklassen/pga-tour-20102018-data

背景: モデルの入力次元と解釈性 - 3 以上の次元を持つ入力を扱う関数は、人間が視覚的に解釈できない - なので解釈可能にするには、入力を 1 次

GLM と GAM • 一般化線形モデル (Generalized Linear Model; GLM) •

pyGAM https://pygam.readthedocs.io/en/latest/

$ pip install pygam

データ概観: スキーマカラム名説明 PlayerName 名前 Season 年度 Money 年間獲得賞金

データ概観: 相関係数賞金と正の相関が強いもの - ドライバーの距離 - 飛距離の効率性 (スピン量) - ボールスピード

PyGAM: GLM による Money 予測

PyGAM: GAM による Money の予測 l (Linear) を s (Spline)

GAM の表現力の豊かさ GLM GAM 一般化加法モデル一般化線形モデル ✓ BirdieConversion (バーディより良い成績のホール率)

含意