Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データでスポーツを楽しもう! / Enjoy sports with data! (2021-...

konakalab
November 30, 2021

データでスポーツを楽しもう! / Enjoy sports with data! (2021-11-30)

日進市民会館で2021年11月30日に開催された日進市と名城大学の連携講座で発表したスライドです.

konakalab

November 30, 2021
Tweet

More Decks by konakalab

Other Decks in Science

Transcript

  1. 野球:選手をどのように評価するの か? ⚫選手の「良さ」を評価できる値はど れ? ⚫△打率 ⚫◎出塁率 ⚫〇本塁打数 ⚫△打点 ⚫×得点圏打率 ⚫×盗塁数

    ⚫×勝利数 ⚫△防御率 ⚫… 2021/11/30 日進市 名城大学連携講座 11 勝利にどれだけ 貢献したか? 選手個人を 評価できているか?
  2. ビル・ジェームズとセイバーメトリクス ⚫ビル・ジェームズ ⚫野球の統計データ取得 ⚫データに基づく分析 ⚫1970年代に「セイバーメトリクス」の確 立に寄与 ⚫(SABRMetrics, SABR=Society for American

    Baseball Research) ⚫提唱当初はあまり注目されず. 2021/11/30 日進市 名城大学連携講座 12 Colette Morton and Dan Holden - DSCF0551, CC 表示-継承 2.0, https://commons.wikimedia.org/w/index.php?curid=16358673 による
  3. 「セイバーメトリクス?」 ⚫野球における評価を統計に基づき行 う ⚫「勝利にいかに貢献できたのか?」を 客観的に評価する ⚫「伝統的」な指標は必ずしも勝利数を 増やさない or 選手個人の能力を表さ ない!

    ⚫打点,盗塁,得点圏打率,勝利数,防 御率,… ⚫「野球で勝つためには?」 ⚫ホームランをたくさん打つ!→△ ⚫打者3人がアウトになるまでにいかに 多くの塁を獲得できるか?→◎ 2021/11/30 日進市 名城大学連携講座 13
  4. 「セイバーメトリクス?」 ⚫野球における評価を統計に基づき行 う ⚫「勝利にいかに貢献できたのか?」を 客観的に評価する ⚫「伝統的」な指標は必ずしも勝利数を 増やさない or 選手個人の能力を表さ ない!

    ⚫打点,盗塁,得点圏打率,勝利数,防 御率,… ⚫「野球で勝つためには?」 ⚫ホームランをたくさん打つ!→△ ⚫打者3人がアウトになるまでにいかに 多くの塁を獲得できるか?→◎ ⚫アウトにならない確率=出塁率◎ ⚫打席当たりの獲得塁数=長打率◎ ⚫出塁率+長打率=◎◎ ⚫OPS (On-base Plus Slugging) 2021/11/30 日進市 名城大学連携講座 14
  5. 「マネー・ボール」 ⚫スカウト:勘と経験→勝利に貢献する 統計データに基づく ⚫重要な指標:出塁率,奪三振率,与四 球率, OPS ⚫「お買い得」な選手を集める 2021/11/30 日進市 名城大学連携講座

    18 Leaders Event from London, United Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による
  6. 「マネー・ボール」 2021/11/30 日進市 名城大学連携講座 19 Leaders Event from London, United

    Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による
  7. 「マネー・ボール」 2021/11/30 日進市 名城大学連携講座 20 Leaders Event from London, United

    Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による メジャー屈指の 常勝球団に!
  8. セイバーメトリクスの効果と限界 ⚫野球の勝利に貢献する要素の正しい理解 ⚫過去のスコアブックの活用 ⚫⇒スコアブックの粒度のデータでは 限界がある ⚫自分自身やバット・ボールがどのように動いて いるのかわからない ⚫具体的なトレーニング/技術向上には寄与しな い ⚫計測:特殊な装置

    ⚫「裸の上半身に48個のマーカー「弱点知る」阪 神藤浪」 (日刊スポーツ.2019年12月10日) 2021/11/30 日進市 名城大学連携講座 22 選手やボールの 位置や速度を 球場でも計測 できたらなぁ… https://www.irasutoya.com/2015/02/blog-post_42.html
  9. データに基づく野球の現在 「勝利数」に換算される評価の客観化 ⚫WAR (Wins above replacement) ⚫リーグの標準的控え選手と交代したときに何勝 増やすことができるか ⚫https://www.espn.com/mlb/war/leaders/_/type /seasonal/year/2020

    ⚫勝利に貢献できる最適なプレイの発見→そ れを実現できる身体的素質が限定されつつ ある 反射的・画一的となる懸念 ⚫イチロー選手の引退会見 ⚫https://youtu.be/a4AtxQWhN6I?t=3668 ⚫“2001年にアメリカに来てから、19年の野球は 全く違う野球になりました。頭を使わなくてもで きる野球になりつつあるような。” ⚫「誰」が頭を使わない/使っているのか? 2021/11/30 日進市 名城大学連携講座 26
  10. サッカーとデータ:計測技術との戦い ⚫サッカー:データ測定を妨げる競技特性 ⚫広いピッチ:105 x 68[m] ⚫ バレーボール:18 x 9 [m]

    ⚫ 補:映像・データ分析が早くから発達.業界標準の分析ソフトあり. ⚫ テニス(ダブルス):23.77 x 10.97 [m] ⚫ バスケットボール:28 x 15 [m] ⚫高い位置(=スタンド)に測定機器が必要 ⚫入り乱れる22名の選手 ⚫明確に区切られないプレー ⚫ 攻撃/守備=ボール保持/非保持 ⚫物理計測以前に,野球のスコアブックに相当するデータ すら不十分 2021/11/30 日進市 名城大学連携講座 30 soccer basketball tennis volleyball
  11. 勝敗シミュレータ ⚫しくみ ⚫チームの平均得失点を入力 ⚫ポアソン分布に従い得失点の確率を計算する ⚫勝ち・引き分け・負けの確率を計算 ⚫勝利確率:1-0, 2-0, 2-1, 3-0, 3-1,

    3-2, …のすべ ての確率を計算して足す ⚫得失点は独立と仮定 2021/11/30 日進市 名城大学連携講座 35 シミュレータのリンクです (スマホでも遊べます)
  12. 限られたデータからの予測 レーティング ⚫例:各国代表チームの実力評価 ⚫得失点などの公式記録 ⚫選手の市場価値・所属クラブなど ⚫1分ごとに勝利確率を計算 ⚫FiveThirtyEight, 2018 World Cup

    Predictions ⚫538: アメリカ大統領選挙の選挙人の総数 ⚫選挙結果の統計予測で有名なサイト ⚫スポーツデータも扱っている 2021/11/30 日進市 名城大学連携講座 37
  13. 計測技術の発達/サッカー市場の拡大 トラッキングデータ ⚫OptaPro data collection ⚫Opta(スポーツデータを扱う企業)のデータ取得 の様子(2018年) ⚫Tracking - How

    the Bundesliga Stats are Collected ⚫Bundesligaでのデータ取得システム紹介. ⚫The Future of Football - New Technology in the Bundesliga ⚫画像認識での姿勢取得,など 市場拡大 ⚫「ファイナンシャル・フェアプレー(FFP)」 ⚫4つのキーワードで読み解くFFPの仕組み ⚫「PE ファンド」や 「ヘッジファンド」が参入! サッ カークラブ買収の 新たなトレンド ⚫(私自身財務は素人でよくわかっていません が) 安定した投資先となるための規制が有 効に→投資の活性化・市場拡大 2021/11/30 日進市 名城大学連携講座 38
  14. 計測技術とデータ蓄積の果実: ゴール期待値 「ゴール期待値」 ⚫Bundesliga Match Facts powered by AWS: xGoals

    ⚫シュートの「位置」「状況」ごとの成功確率を 大量のシュートデータから生成 ⚫Premier League: 'Expected goals' tells us whether a player really should have scored 2021/11/30 日進市 名城大学連携講座 39 公開データを活用 ⚫インタラクティブ版 簡易版ゴール期待値 (simplified expected goals, sxG) ⚫A public data set of spatio-temporal match events in soccer competitions
  15. サッカーにおけるデータ分析の最前線 ボロノイ図とフォーメーション評価 ⚫Geometry of football (Voronoi) ⚫ボロノイ図:点(選手)からの距離が等しくなる 境界線を描いた図 2021/11/30 日進市

    名城大学連携講座 40 VAEP(VALUING ACTIONS BY ESTIMATING PROBABILITIES) ⚫すべてのプレイ(パス,ドリブル,…)がどれだ け得点確率を上げたかを統計的に算出
  16. AI-inspired analysis ゲームAIに触発されるデータ分析 ⚫VAEP←囲碁AI ⚫「強化学習」 ⚫得点から逆算して手前の状況の評価値を算出 ⚫ちょっとした未来予測 ⚫コンピュータ内のサッカーシミュレータで多量の 試合を行う→最適戦略を導出 ⚫Google

    Research Football with Manchester City F.C. 物理学者を採用するサッカークラブ ⚫新指標の開発から分析作業の自動化まで。 ドイツ代表復権のカギを握る“AI研究” ⚫リバプールはデータで「プレーの質」を問う。 南野らを評価する新指標「EPV」 ⚫物理学者など,動的システム理論,統計学, コンピュータプログラミングを理解する人材の 登用 ⚫サッカー版「セイバーメトリクス」 2021/11/30 日進市 名城大学連携講座 43
  17. 「公式世界ランキング」って正しいの? ⚫競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ⚫ランキングの正しさ ⚫ランキングが高いほうが勝つ可能性が高い ⚫リオ五輪 球技予測プロジェクト ⚫球技5競技10種目を予測する ⚫ バスケットボール,ハンドボール,ホッケー,バレー

    ボール,水球 ⚫ 予測内容:各試合の勝敗,メダルの有無/色 ⚫予測方法 ⚫ 世界ランキング ⚫ 雑誌・新聞予測 ⚫ 小中英嗣の予測 ⚫ Konaka, “A Unified Statistical Rating Method for Team Ball Games and Its Application to Predictions in the Olympic Games” 2021/11/30 日進市 名城大学連携講座 48
  18. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2021/11/30 日進市 名城大学連携講座 50 試合数 正解 公式ランキング 370 238 小中英嗣 370 ??? メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ???
  19. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2021/11/30 日進市 名城大学連携講座 51 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ??? (* p<0.01 で有意差あり)
  20. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2021/11/30 日進市 名城大学連携講座 52 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 19 10 (* p<0.01 で有意差あり)
  21. リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫統計予測を扱う企業(Gracenote) 2021/11/30 日進市 名城大学連携講座

    53 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10 (* p<0.01 で有意差あり)
  22. リオ五輪予測プロジェクト:まとめ ⚫公式ランキングは実力を適切に評価 できていないのではないか? ⚫現場を取材している記者・専門家も 実力を適切に評価できていないので はないか? ⚫小中英嗣は何をしたのか? ⚫統計予測企業も公式ランキングや専門家 を出し抜いている 2021/11/30

    日進市 名城大学連携講座 54 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10
  23. 「実力」とは何か? 人間の専門家の特徴 ⚫◎競技特性・構造の定性的な理解 ⚫×データの記憶 ⚫×みられる試合数は限られる ⚫×「実力」評価に必要・不要な要素を適切に 分別できない ⚫余分な情報を得られすぎる 「実力」とは何か? ⚫5競技の共通点:得点が多いほうが勝ち

    ⚫「実力」=「得点を取る能力」「失点を抑える 能力」 ⚫仮説:実力評価に最も有効なデータは過去 の結果(得失点)である ⚫「1点取られる間に何点取れるか」=得失点比 ⚫専門家による技術・戦術の評価は必ずしも実力 を定量化しない 2021/11/30 日進市 名城大学連携講座 56
  24. 球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? 日進市 名城大学連携講座 そうです!! ෝ

    𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 ⚫ 𝑟𝑖 , 𝑟 𝑗 :チーム𝑖, 𝑗の実力(レーティング) ⚫𝐷𝑘 : 競技𝑘の変換パラメータ ⚫ෝ 𝑤𝑖.𝑗 : チーム𝑖の𝑗に対する予測勝率 ⚫(Eloレーティングと同様のモデル) 2021/11/30 60
  25. モデルの構築 ⚫ find ⚫ that minimize ⚫subject to 日進市 名城大学連携講座

    ෝ 𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 𝐽 = ෍ 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑚𝑎𝑡𝑐ℎ𝑒𝑠 𝑤𝑖,𝑗 − ෝ 𝑤𝑖,𝑗 2 𝑟𝑖 (𝑖 = 1, ⋯ , 𝑁𝑇 ), 𝐷𝑘 𝑤𝑖,𝑗 : past results ⚫ 過去の試合結果と予測勝率の誤差 (二乗和)が最小となるような各チーム レーティング(実力値)と競技パラメー タを導出する ⚫実際は得点割合を説明するパラメータの 導出が間に入っています.[Konaka(2019), to be published] 2021/11/30 61
  26. イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 ,

    𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2021/11/30 日進市 名城大学連携講座 78
  27. イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 ,

    𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 ⚫レーティング差0=予測勝率0.5 ⚫レーティング差大→予測勝率が1に近づく シグモイド関数 2021/11/30 日進市 名城大学連携講座 79
  28. イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合

    ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2021/11/30 日進市 名城大学連携講座 80
  29. イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合

    ⚫Aが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟖𝟎𝟒 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟓𝟗𝟔 ⚫ ±𝟑. 𝟖𝟒 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2021/11/30 日進市 名城大学連携講座 81
  30. イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が 多い 修正過程 ⚫試合が多い場合

    ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟕𝟖𝟕 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟔𝟏𝟑 ⚫ ±𝟏𝟐. 𝟏𝟔 2021/11/30 日進市 名城大学連携講座 82
  31. どの「平幕優勝」がすごいの? の定量化 2020年1月場所 「最も驚きの」幕内優勝10傑 year month nameEng wins predicted wins

    logloss 1991 7 Kotofuji 14 5.6273 1.5755 2020 1 Tokushoryu 14 5.5564 1.4768 1984 9 Tagaryu 13 6.1411 1.2961 2008 5 Kotooshu 14 6.8338 1.2534 1972 1 Tochiazuma 11 6.2910 1.2266 1975 7 Kongo 13 6.8946 1.2054 2018 1 Tochinoshin 14 6.6507 1.1892 1961 5 Sadanoyam a 12 7.0139 1.1161 1976 9 Kaiketsu 14 6.6405 1.1107 2000 3 Takatoriki 13 5.9884 1.1094 2021/11/30 88 日進市 名城大学連携講座
  32. で,東京オリンピックは? 公式ランキングの改善 ⚫イロレーティング系への改善 ⚫バスケットボール ⚫ホッケー ⚫バレーボール ⚫その他2種目(ハンドボール,水球) ⚫公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 ◦

    有意差無し(p=0.271>0.05) 2021/11/30 日進市 名城大学連携講座 93 試合数 正解 公式ランキング 354 250 小中英嗣 354 258 数理的根拠を伴う,公正なランキングが広まりつつある
  33. まとめ(3) 適切なランキングの設計 ⚫ランキングの良し悪し ⚫ランキングの上下が試合結果の予測となってい るべき ⚫大会形式と合わせて慎重に設計されるべき ⚫過大・過小評価による弊害 ⚫イロレーティング ⚫勝率予測モデルと試合結果に基づく修正を繰り 返す

    ⚫様々なランキングがこちらに変更されつつある 「順序をつける」 ⚫スポーツだけではない ⚫Web検索など ⚫抽象化:「評価を定量化して並べる」 ⚫数学的な構造の活用 2021/11/30 日進市 名城大学連携講座 96