Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sports Analyst Meetup #5 LT - 目指せPGAツアー賞金王

OpenJNY
November 02, 2019

Sports Analyst Meetup #5 LT - 目指せPGAツアー賞金王

PGA Tour データを GLM/GAM で簡単に分析してみました。

OpenJNY

November 02, 2019
Tweet

More Decks by OpenJNY

Other Decks in Science

Transcript

  1. 目指せ PGA ツアー賞金王

    View full-size slide

  2. $ about-me
    .
    ├── 山口順也 (Junya Yamaguchi)
    │ ├── @OpenJNY
    │ ├── 某パブリッククラウドで Support Eng. やってます (新卒 1 年目)
    │ └── Networking の勉強中 (LB, WAF, etc)
    └── 東京工業大学・大学院で人工知能基礎と機械学習を勉強してました
    ├── 理論よりの本 (e.g. PRML, MLaPP) が好き
    ├── 卒論は「SAT ソルバ × GPGPU」
    ├── 修論は「SAT ソルバ × グラフ埋め込み」
    └── Kaggle はやってません
    グラフ埋め込みは、めちゃくちゃおもしろい&今ホットなト
    ピックなので、興味あるかたいれば是非説明したい内容

    View full-size slide

  3. LT テーマ: PGA ツアーの stats を GLM/GAM で分析してみる
    - https://www.kaggle.com/bradklassen/pga-tour-20102018-data
    - LT の目的:
    - Python の GAM ライブラリ pyGAM を知る
    - PGA ツアーで賞金王になるための知見をゴル活に活かす
    - ノートブックは以下の URL で公開しています
    - https://www.kaggle.com/juyamagu/pga-tour-analysis-by-gam

    View full-size slide

  4. 背景: モデルの入力次元と解釈性
    - 3 以上の次元を持つ入力を扱う関数は、人
    間が視覚的に解釈できない
    - なので解釈可能にするには、入力を 1 次
    元ないしは 2 次元に抑える必要がある
    - 複数の入力を一気に扱う機械学習モデ
    ル (e.g. DNN) などは解釈できない…
    N/A
    2 次元以下の入力の関数を
    組み合わせたモデルなら視覚的に解釈可能

    View full-size slide

  5. GLM と GAM
    • 一般化線形モデル (Generalized Linear Model; GLM)
    • 一般化加法モデル (Generalized Linear Model; GLM)
    GLM の詳細は緑本や MLaPP 9章、GAM の詳細はカステラ本 9章を参照くださいm(_ _)m
    Hastie, T. J.; Tibshirani, R. J. (1990)
    Nelder, J.; Wedderburn, R. (1972)

    View full-size slide

  6. pyGAM
    https://pygam.readthedocs.io/en/latest/

    View full-size slide

  7. $ pip install pygam

    View full-size slide

  8. データ概観: スキーマ
    カラム名 説明
    PlayerName 名前
    Season 年度
    Money 年間獲得賞金 ($)
    DrivingDistance 平均ドライバー飛距離 (yard)
    DrivingAccuracy フェアウェイ キープ率
    DistanceEfficiency 飛距離/スピードの平均
    NonDrivingDistance 平地での平均飛距離 (yard)
    カラム名 説明
    BallSpeed ボールの平均スピード
    ScramblingSand バンカーからのスクランブル率
    ScramblingFringe フリンジからのスクランブル率
    ScramblingRough ラフからのスクランブル率
    ThreePutRate スリーパットを叩いたホール率
    BirdieConversion バーディ以上のホール率

    View full-size slide

  9. データ概観: 相関係数
    賞金と正の相関が強いもの
    - ドライバーの距離
    - 飛距離の効率性 (スピン量)
    - ボールスピード
    - ラフからのリカバリの上手さ
    - バーディよりよい成績でホールを終える

    賞金と負の相関が認められるもの
    - ドライバー以外のショット飛距離
    - 3 パットするホールの割合

    View full-size slide

  10. PyGAM: GLM による Money 予測

    View full-size slide

  11. PyGAM: GAM による Money の予測
    l (Linear) を s (Spline) に置換するだけ

    View full-size slide

  12. GAM の表現力の豊かさ
    GLM
    GAM
    一般化加法モデル
    一般化線形モデル
    ✓ BirdieConversion (バーディより良い成績のホー
    ル率) が大きいほど、賞金が稼げる傾向にある
    ✓ BirdieConversion (バーディより良い成績のホー
    ル率) が大きいほど、賞金が稼げる傾向にある
    ✓ ただし33 パーセント付近に「大きな壁」の存在
    ✓ < 33% だと、賞金の伸びは限定的
    ✓ 壁を超えると一気に賞金獲得の期待が高まる

    View full-size slide