Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スポーツデータとデザイン / Design in sports data analytics (2022-10-19)

konakalab
October 19, 2022

スポーツデータとデザイン / Design in sports data analytics (2022-10-19)

京都大学情報学研究科「情報通信のデザイン」の1コマとして講演した内容です(過去の「データでスポーツを楽しもう!」とほぼ同内容です)

konakalab

October 19, 2022
Tweet

More Decks by konakalab

Other Decks in Science

Transcript

  1. スポーツデータと デザイン 小中英嗣(こなか・えいじ 名城大学理工学部情報工学科 准教授) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 1

  2. スポーツの様々な側面 スポーツを「する」 スポーツを「みる」 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 2

  3. スポーツの「何をみる」? スポーツの「何をみる」? チーム 選手 スタジアム 飲食 技術 戦術・戦略 2021/11/30 京都大学大学院

    情報科学研究科「情報通信のデザイン」 3
  4. スポーツの「何をみる」? スポーツの「何をみる」? チーム 選手 スタジアム 飲食 技術 戦術・戦略 データ 2021/11/30

    京都大学大学院 情報科学研究科「情報通信のデザイン」 4
  5. スポーツとデータ スポーツとデータの関係 スポーツとデータは関連深い?相性が良い? 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 5

  6. スポーツとデータ スポーツとデータの関係 スポーツとデータは関連深い?相性が良い? スポーツとデータは相性が良い そもそもスポーツとは「運動を数値にして評価する活動」 距離,時間,成功回数… 得点=「ボールがある領域を通過した回数」 ルールが明確である 2021/11/30 京都大学大学院

    情報科学研究科「情報通信のデザイン」 6
  7. 今日の概要 スポーツとデータ 野球での成功:マネーボールとデータ革命 サッカーでの挑戦:データ分析のフロンティア 「正しい」ランキングとは? 競技を問わないランキングの作成方法 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 7

  8. 今日の概要 スポーツとデータ 野球での成功:マネーボールとデータ革命 サッカーでの挑戦:データ分析のフロンティア 「正しい」ランキングとは? 競技を問わないランキングの作成方法 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 8

  9. 野球:選手をどのように評価するの か? 選手の「良さ」を評価できる値はど れ? 打率 出塁率 本塁打数 打点 得点圏打率 盗塁数

    勝利数 防御率 … 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 9
  10. 野球:選手をどのように評価するの か? 選手の「良さ」を評価できる値はど れ? △打率 ◎出塁率 〇本塁打数 △打点 ×得点圏打率 ×盗塁数

    ×勝利数 △防御率 … 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 10
  11. 野球:選手をどのように評価するの か? 選手の「良さ」を評価できる値はど れ? △打率 ◎出塁率 〇本塁打数 △打点 ×得点圏打率 ×盗塁数

    ×勝利数 △防御率 … 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 11 勝利にどれだけ 貢献したか? 選手個人を 評価できているか?
  12. ビル・ジェームズとセイバーメトリクス ビル・ジェームズ 野球の統計データ取得 データに基づく分析 1970年代に「セイバーメトリクス」の確 立に寄与 (SABRMetrics, SABR=Society for American

    Baseball Research) 提唱当初はあまり注目されず. 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 12 Colette Morton and Dan Holden - DSCF0551, CC 表示-継承 2.0, https://commons.wikimedia.org/w/index.php?curid=16358673 による
  13. 「セイバーメトリクス?」 野球における評価を統計に基づき行 う 「勝利にいかに貢献できたのか?」を 客観的に評価する 「伝統的」な指標は必ずしも勝利数を 増やさない or 選手個人の能力を表さ ない!

    打点,盗塁,得点圏打率,勝利数,防 御率,… 「野球で勝つためには?」 ホームランをたくさん打つ!→△ 打者3人がアウトになるまでにいかに 多くの塁を獲得できるか?→◎ 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 13
  14. 「セイバーメトリクス?」 野球における評価を統計に基づき行 う 「勝利にいかに貢献できたのか?」を 客観的に評価する 「伝統的」な指標は必ずしも勝利数を 増やさない or 選手個人の能力を表さ ない!

    打点,盗塁,得点圏打率,勝利数,防 御率,… 「野球で勝つためには?」 ホームランをたくさん打つ!→△ 打者3人がアウトになるまでにいかに 多くの塁を獲得できるか?→◎ アウトにならない確率=出塁率◎ 打席当たりの獲得塁数=長打率◎ 出塁率+長打率=◎◎ OPS (On-base Plus Slugging) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 14
  15. 「マネー・ボール」  2011年公開 実話に基づく メジャーリーグの弱小球団の物語 オークランド・アスレチックス GM:ビリー・ビーン 1997年就任 2021/11/30 京都大学大学院

    情報科学研究科「情報通信のデザイン」 15 (amazon.co.jp)
  16. 「マネー・ボール」  2011年公開 実話に基づく メジャーリーグの弱小球団の物語 オークランド・アスレチックス GM:ビリー・ビーン 1997年就任 2021/11/30 京都大学大学院

    情報科学研究科「情報通信のデザイン」 16
  17. 「マネー・ボール」 スカウト:勘と経験→勝利に貢献する 統計データに基づく 重要な指標:出塁率,奪三振率,与四 球率, OPS 「お買い得」な選手を集める 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    17 https://eiga.com/movie/55274/gallery/
  18. 「マネー・ボール」 スカウト:勘と経験→勝利に貢献する 統計データに基づく 重要な指標:出塁率,奪三振率,与四 球率, OPS 「お買い得」な選手を集める 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    18 Leaders Event from London, United Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による
  19. 「マネー・ボール」 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 19 Leaders Event from London, United

    Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による
  20. 「マネー・ボール」 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 20 Leaders Event from London, United

    Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による メジャー屈指の 常勝球団に!
  21. セイバーメトリクスの効果と限界 野球の勝利に貢献する要素の正しい理解 過去のスコアブックの活用 ⇒スコアブックの粒度のデータでは 限界がある 自分自身やバット・ボールがどのように動いて いるのかわからない 具体的なトレーニング/技術向上には寄与しな い 計測:特殊な装置

    「裸の上半身に48個のマーカー「弱点知る」阪 神藤浪」 (日刊スポーツ.2019年12月10日) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 21
  22. セイバーメトリクスの効果と限界 野球の勝利に貢献する要素の正しい理解 過去のスコアブックの活用 ⇒スコアブックの粒度のデータでは 限界がある 自分自身やバット・ボールがどのように動いて いるのかわからない 具体的なトレーニング/技術向上には寄与しな い 計測:特殊な装置

    「裸の上半身に48個のマーカー「弱点知る」阪 神藤浪」 (日刊スポーツ.2019年12月10日) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 22 選手やボールの 位置や速度を 球場でも計測 できたらなぁ… https://www.irasutoya.com/2015/02/blog-post_42.html
  23. statcast:スコアブックから物理計測へ statcast: リアルタイム計測&データ 蓄積システム Future of the Game: Baseball's Latest

    Statistical Revolution 軌道(時刻x位置)の計測 スコアブックから物理量に基づく評価 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 23 https://baseballsavant.mlb.com/statcast_field?ev=100&la=13
  24. 物理計測が明らかにする野球の真理 バレル・ゾーン(フライボール革命) ピッチトンネル 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 24 https://www.mlb.com/glossary/statcast/barrel https://www.mlb.com/mariners/video/bill-s-blackboard-tunneling

  25. 物理計測が明らかにする野球の真理 守備シフト フレーミング ボールの通過位置とストライクと判定された 割合を算出 リーグ平均よりもストライクが多い→良いキャッ チャー https://baseballsavant.mlb.com/catcher_fra ming?year=2020&team=&min=q&sort=4,1 2021/11/30

    京都大学大学院 情報科学研究科「情報通信のデザイン」 25
  26. データに基づく野球の現在 「勝利数」に換算される評価の客観化 WAR (Wins above replacement) リーグの標準的控え選手と交代したときに何勝 増やすことができるか https://www.espn.com/mlb/war/leaders/_/type /seasonal/year/2020

    勝利に貢献できる最適なプレイの発見→そ れを実現できる身体的素質が限定されつつ ある 反射的・画一的となる懸念 イチロー選手の引退会見 https://youtu.be/a4AtxQWhN6I?t=3668 “2001年にアメリカに来てから、19年の野球は 全く違う野球になりました。頭を使わなくてもで きる野球になりつつあるような。” 「誰」が頭を使わない/使っているのか? 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 26
  27. まとめ(1) 野球におけるデータ活用 スコアブックデータの活用 セイバーメトリクス マネーボール 物理計測システムの発達 トレーニング・戦略へ反映 バレル,ピッチトンネル,守備シフト,フレーミン グ… 最適解への収束への懸念

    「考える」余地は残っているのか? 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 27
  28. 今日の概要 スポーツとデータ 野球での成功:マネーボールとデータ革命 サッカーでの挑戦:データ分析のフロンティア 「正しい」ランキングとは? 競技を問わないランキングの作成方法 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 28

  29. サッカーとデータ:計測技術との戦い サッカー:データ測定を妨げる競技特性 ピッチの大きさ 入り乱れる22名の選手 明確に区切られないプレー  攻撃/守備=ボール保持/非保持 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    29
  30. サッカーとデータ:計測技術との戦い サッカー:データ測定を妨げる競技特性 広いピッチ:105 x 68[m]  バレーボール:18 x 9 [m]

     補:映像・データ分析が早くから発達.業界標準の分析ソフトあり.  テニス(ダブルス):23.77 x 10.97 [m]  バスケットボール:28 x 15 [m] 高い位置(=スタンド)に測定機器が必要 入り乱れる22名の選手 明確に区切られないプレー  攻撃/守備=ボール保持/非保持 物理計測以前に,野球のスコアブックに相当するデータ すら不十分 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 30 soccer basketball tennis volleyball
  31. 古典的成果: サッカーの得点と,馬に蹴られた兵士の数 「サッカーの得点は,まれに起こる出来事の 回数である」 確率の分布として考える 「ポアソン分布」 「馬に蹴られて死んでしまった兵士の数」の研究 𝑃 𝑋 =

    𝑥 = 𝑒−𝜆 𝜆𝑥 𝑥! 右図:2020年J1リーグ 平均得点: 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 31
  32. 勝敗シミュレータ しくみ チームの平均得失点を入力 ポアソン分布に従い得失点の確率を計算する 勝ち・引き分け・負けの確率を計算 例:平均得失点1.5-1.0の場合 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 32

  33. 勝敗シミュレータ しくみ チームの平均得失点を入力 ポアソン分布に従い得失点の確率を計算する 勝ち・引き分け・負けの確率を計算 勝利確率:1-0, 2-0, 2-1, 3-0, 3-1,

    3-2, …のすべ ての確率を計算して足す 得失点は独立と仮定 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 33
  34. 勝敗シミュレータ しくみ チームの平均得失点を入力 ポアソン分布に従い得失点の確率を計算する 勝ち・引き分け・負けの確率を計算 勝利確率:1-0, 2-0, 2-1, 3-0, 3-1,

    3-2, …のすべ ての確率を計算して足す 得失点は独立と仮定 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 34
  35. 勝敗シミュレータ しくみ チームの平均得失点を入力 ポアソン分布に従い得失点の確率を計算する 勝ち・引き分け・負けの確率を計算 勝利確率:1-0, 2-0, 2-1, 3-0, 3-1,

    3-2, …のすべ ての確率を計算して足す 得失点は独立と仮定 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 35 シミュレータのリンクです (スマホでも遊べます)
  36. 限られたデータからの予測 レーティング 例:各国代表チームの実力評価 得失点などの公式記録 選手の市場価値・所属クラブなど 1分ごとに勝利確率を計算 FiveThirtyEight, 2018 World Cup

    Predictions 538 (?) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 36
  37. 限られたデータからの予測 レーティング 例:各国代表チームの実力評価 得失点などの公式記録 選手の市場価値・所属クラブなど 1分ごとに勝利確率を計算 FiveThirtyEight, 2018 World Cup

    Predictions 538: アメリカ大統領選挙の選挙人の総数 選挙結果の統計予測で有名なサイト スポーツデータも扱っている 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 37
  38. 計測技術の発達/サッカー市場の拡大 トラッキングデータ OptaPro data collection Opta(スポーツデータを扱う企業)のデータ取得 の様子(2018年) Tracking - How

    the Bundesliga Stats are Collected Bundesligaでのデータ取得システム紹介. The Future of Football - New Technology in the Bundesliga 画像認識での姿勢取得,など 市場拡大 「ファイナンシャル・フェアプレー(FFP)」 4つのキーワードで読み解くFFPの仕組み 「PE ファンド」や 「ヘッジファンド」が参入! サッ カークラブ買収の 新たなトレンド (私自身財務は素人でよくわかっていません が) 安定した投資先となるための規制が有 効に→投資の活性化・市場拡大 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 38
  39. 計測技術とデータ蓄積の果実: ゴール期待値 「ゴール期待値」 Bundesliga Match Facts powered by AWS: xGoals

    How Did These Goals Go In? - We Explain How Goal Probability Works シュートの「位置」「状況」ごとの成功確率を大量の シュートデータから生成  Premier League: 'Expected goals' tells us whether a player really should have scored 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 39 公開データを活用 インタラクティブ版 簡易版ゴール期待値 (simplified expected goals, sxG) A public data set of spatio-temporal match events in soccer competitions
  40. サッカーにおけるデータ分析の最前線 ボロノイ図とフォーメーション評価 Geometry of football (Voronoi) ボロノイ図:点(選手)からの距離が等しくなる 境界線を描いた図 2021/11/30 京都大学大学院

    情報科学研究科「情報通信のデザイン」 40 VAEP(VALUING ACTIONS BY ESTIMATING PROBABILITIES) すべてのプレイ(パス,ドリブル,…)がどれだ け得点確率を上げたかを統計的に算出
  41. AI-inspired analysis ゲームAIに触発されるデータ分析 VAEP←囲碁AI 「強化学習」 勝敗から逆算して手前の盤面の評価値を算出 物理学者を採用するサッカークラブ 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    41
  42. AI-inspired analysis ゲームAIに触発されるデータ分析 VAEP←囲碁AI 「強化学習」 得点から逆算して手前の状況の評価値を算出 ちょっとした未来予測 コンピュータ内のサッカーシミュレータで多量の 試合を行う→最適戦略を導出 物理学者を採用するサッカークラブ

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 42
  43. AI-inspired analysis ゲームAIに触発されるデータ分析 VAEP←囲碁AI 「強化学習」 得点から逆算して手前の状況の評価値を算出 ちょっとした未来予測 コンピュータ内のサッカーシミュレータで多量の 試合を行う→最適戦略を導出 Google

    Research Football with Manchester City F.C. 物理学者を採用するサッカークラブ 新指標の開発から分析作業の自動化まで。 ドイツ代表復権のカギを握る“AI研究” リバプールはデータで「プレーの質」を問う。 南野らを評価する新指標「EPV」 物理学者など,動的システム理論,統計学, コンピュータプログラミングを理解する人材の 登用 サッカー版「セイバーメトリクス」 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 43
  44. まとめ(2) サッカーにおけるデータ活用 長い「古典的」成果の世界 データ取得の難しさ 物理計測システムの発達 ゴール期待値,幾何学的評価(ボロノイ図), VAEP AIとの接近 サッカーは「ハック」されるのか? 2021/11/30

    京都大学大学院 情報科学研究科「情報通信のデザイン」 44
  45. 今日の概要 スポーツとデータ 野球での成功:マネーボールとデータ革命 サッカーでの挑戦:データ分析のフロンティア 「正しい」ランキングとは? 良いランキング,良くないランキング 競技を問わないランキングの作成方法 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    45
  46. 「公式世界ランキング」って正しいの? 競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ランキングの正しさ ? 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 46

  47. 「公式世界ランキング」って正しいの? 競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ランキングの正しさ ランキングが高いほうが勝つ可能性が高い リオ五輪 球技予測プロジェクト 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    47
  48. 「公式世界ランキング」って正しいの? 競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ランキングの正しさ ランキングが高いほうが勝つ可能性が高い リオ五輪 球技予測プロジェクト 球技5競技10種目を予測する  バスケットボール,ハンドボール,ホッケー,バレー

    ボール,水球  予測内容:各試合の勝敗,メダルの有無/色 予測方法  世界ランキング  雑誌・新聞予測  小中英嗣の予測  Konaka, “A Unified Statistical Rating Method for Team Ball Games and Its Application to Predictions in the Olympic Games” 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 48
  49. リオ五輪予測プロジェクト 各試合の勝敗予測 公式世界ランキング:「ランキングが高いほうが 勝つ」 メダル予測 公式世界ランキング:ランキング1-3位 雑誌・新聞の予測  雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌)  新聞:USA Today (アメリカの全国紙) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 49
  50. リオ五輪予測プロジェクト 各試合の勝敗予測 公式世界ランキング:「ランキングが高いほうが 勝つ」 メダル予測 公式世界ランキング:ランキング1-3位 雑誌・新聞の予測  雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌)  新聞:USA Today (アメリカの全国紙) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 50 試合数 正解 公式ランキング 370 238 小中英嗣 370 ??? メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ???
  51. リオ五輪予測プロジェクト 各試合の勝敗予測 公式世界ランキング:「ランキングが高いほうが 勝つ」 メダル予測 公式世界ランキング:ランキング1-3位 雑誌・新聞の予測  雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌)  新聞:USA Today (アメリカの全国紙) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 51 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ??? (* p<0.01 で有意差あり)
  52. リオ五輪予測プロジェクト 各試合の勝敗予測 公式世界ランキング:「ランキングが高いほうが 勝つ」 メダル予測 公式世界ランキング:ランキング1-3位 雑誌・新聞の予測  雑誌:Sports Illustrated

    (アメリカのスポーツ専門雑誌)  新聞:USA Today (アメリカの全国紙) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 52 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 19 10 (* p<0.01 で有意差あり)
  53. リオ五輪予測プロジェクト 各試合の勝敗予測 公式世界ランキング:「ランキングが高いほうが 勝つ」 メダル予測 公式世界ランキング:ランキング1-3位 統計予測を扱う企業(Gracenote) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    53 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10 (* p<0.01 で有意差あり)
  54. リオ五輪予測プロジェクト:まとめ 公式ランキングは実力を適切に評価 できていないのではないか? 現場を取材している記者・専門家も 実力を適切に評価できていないので はないか? 小中英嗣は何をしたのか? 統計予測企業も公式ランキングや専門家 を出し抜いている 2021/11/30

    京都大学大学院 情報科学研究科「情報通信のデザイン」 54 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10
  55. 「実力」とは何か? 人間の専門家の特徴 ◎競技特性・構造の定性的な理解 ×データの記憶 ×みられる試合数は限られる ×「実力」評価に必要・不要な要素を適切に 分別できない 余分な情報を得られすぎる 「実力」とは何か? 2021/11/30

    京都大学大学院 情報科学研究科「情報通信のデザイン」 55
  56. 「実力」とは何か? 人間の専門家の特徴 ◎競技特性・構造の定性的な理解 ×データの記憶 ×みられる試合数は限られる ×「実力」評価に必要・不要な要素を適切に 分別できない 余分な情報を得られすぎる 「実力」とは何か? 5競技の共通点:得点が多いほうが勝ち

    「実力」=「得点を取る能力」「失点を抑える 能力」 仮説:実力評価に最も有効なデータは過去 の結果(得失点)である 「1点取られる間に何点取れるか」=得失点比 専門家による技術・戦術の評価は必ずしも実力 を定量化しない 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 56
  57. 球技の本質 京都大学大学院 情報科学研究科「情報通信のデザイン」 「自分が1点取られる間に何点取れるか?」=「得失点比」が本質 得失点(または無得点)の最小単位を繰り返す確率過程 得失点比は対戦チーム間の実力差で定まる(という仮定) 対比較法 (得失点比)=1 ⇔ 勝率5割

    競技ごとの得点機会数や成功率の差を吸収できる単一モデルを構築した い! 2021/11/30 57
  58. 球技の本質 競技ごとの得点機会数や成功率 の差を吸収できる単一モデル チームの得点能力差(横軸)-勝 率(縦軸) ロジスティック回帰? 京都大学大学院 情報科学研究科「情報通信のデザイン」 2021/11/30 58

  59. 球技の本質 競技ごとの得点機会数や成功率 の差を吸収できる単一モデル チームの得点能力差(横軸)-勝 率(縦軸) ロジスティック回帰? 京都大学大学院 情報科学研究科「情報通信のデザイン」 そうです!! 2021/11/30

    59
  60. 球技の本質 競技ごとの得点機会数や成功率 の差を吸収できる単一モデル チームの得点能力差(横軸)-勝 率(縦軸) ロジスティック回帰? 京都大学大学院 情報科学研究科「情報通信のデザイン」 そうです!! ෝ

    𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗  𝑟𝑖 , 𝑟 𝑗 :チーム𝑖, 𝑗の実力(レーティング) 𝐷𝑘 : 競技𝑘の変換パラメータ ෝ 𝑤𝑖.𝑗 : チーム𝑖の𝑗に対する予測勝率 (Eloレーティングと同様のモデル) 2021/11/30 60
  61. モデルの構築  find  that minimize subject to 京都大学大学院 情報科学研究科「情報通信のデザイン」

    ෝ 𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 𝐽 = ෍ 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑚𝑎𝑡𝑐ℎ𝑒𝑠 𝑤𝑖,𝑗 − ෝ 𝑤𝑖,𝑗 2 𝑟𝑖 (𝑖 = 1, ⋯ , 𝑁𝑇 ), 𝐷𝑘 𝑤𝑖,𝑗 : past results  過去の試合結果と予測勝率の誤差 (二乗和)が最小となるような各チーム レーティング(実力値)と競技パラメー タを導出する 実際は得点割合を説明するパラメータの 導出が間に入っています.[Konaka(2019), to be published] 2021/11/30 61
  62. モデル構築に利用した試合結果 オリンピック予選,大規模世界大会, 大陸選手権など. 原則2014年~2016年7月 各種目およそ250~450試合 専門家(というか人間)の苦手 数百試合の試合結果を記憶し, かつ一貫したモデルで実力を評価すること 京都大学大学院 情報科学研究科「情報通信のデザイン」

    Konaka(2019) “A Unified Statistical Rating Method for Team Ball Games and Its Application to Predictions in the Olympic Games” 2021/11/30 62
  63. 「悪い」ランキングの特徴 各試合の勝敗を対戦相手・得 失点差・重要度の区別なく反映 させる 初期のFIFAランキング 1993-1998 勝利+3,引き分け+1 これのみ(!) さすがにランキングの体を成し ていないので,修正された

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 63 日本最高位:9位 (1998年2月)
  64. 「悪い」ランキングの特徴 各試合の結果ではなく大会の順位を 反映する 大会予選の条件/参加枠 各順位ごとのポイント付与が適当 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 64

  65. 「悪い」ランキングの特徴 各試合の結果ではなく大会の順位を 反映する 大会予選の条件/参加枠 各順位ごとのポイント付与が適当 (旧)FIVBランキング バレーボール 世界大会を独占する開催国が開催国 枠で出場してランキングポイントを得る 枠が少ない大陸が過小評価

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 65
  66. 「悪い」ランキングの特徴 各試合の結果ではなく大会の順位を 反映する 大会予選の条件/参加枠 各順位ごとのポイント付与が適当 (旧)FIVBランキング バレーボール 世界大会を独占する開催国が開催国 枠で出場してランキングポイントを得る 枠が少ない大陸が過小評価

    (Konaka[2019]) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 66
  67. 「悪い」ランキングの特徴 各試合の結果ではなく大会の順位を反映する 大会予選の条件/参加枠 (旧)FIVBランキング(バレーボール) 世界大会を独占する開催国が開催国枠で出場してランキングポイントを得る 枠が少ない大陸が過小評価 世界選手権におけるヨーロッパ各国 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    67
  68. 「悪い」ランキングの特徴 各試合の結果ではなく大会の順位を反映する 大会予選の条件/参加枠 (旧)FIVBランキング(バレーボール) 世界大会を独占する開催国が開催国枠で出場してランキングポイントを得る 枠が少ない大陸が過小評価 世界選手権におけるヨーロッパ各国 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    68 「ワールドカップ」への出場枠は 2のみ!
  69. (旧)FIVBランキングの欠陥 横軸:ランキングポイント,縦 軸:提案手法の評価 FIVBランキングポイントは得 点の能力を定量化していない 世界大会の予測精度も提案 手法が高い 565, 544/733試合 2010-2018.

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 69
  70. (旧)FIVBランキングの欠陥 横軸:ランキングポイント,縦 軸:提案手法の評価 FIVBランキングポイントは得 点の能力を定量化していない 世界大会の予測精度も提案 手法が高い 565, 544/733試合 2010-2018.

    5大会 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 70
  71. ランキングが正しくないことの弊害: 世界選手権2018男子大会 日本男子:世界選手権2018出 場 FIVBランキング: 12 プールA内3位 結果: プールA5位 FIVBランキングでの過大評価

    が原因 [https://italy-bulgaria2018.fivb.com/en/results-and-ranking/round1] 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 71
  72. もしランキングが適切だったら? もしランキングが適切だったら? 日本は16位相当 右図:17位から24位相当チームに対 する予測勝率 プールはランキングに基づき決定 日本はプールで2勝以上を挙げ,4位 以内(一次リーグ突破)を確保できた可 能性が高い 過大評価が公正な結果を妨げた

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 72
  73. 「良い」ランキングの例 プロテニス(ATP)ランキング ランキングポイント比が勝率と対応する (右図) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 73

  74. 「良い」ランキングの例 プロテニス(ATP)ランキング ランキングポイント比が勝率と対応する (右図) 例:選手A(ランキングポイント1500)と選 手B(ランキングポイント1000)が対戦 Aの予測勝率= 1500 1500+1000 =

    0.6 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 74
  75. 「良い」ランキングの例 プロテニス(ATP)ランキング ランキングポイント比が勝率と対応する (右図) 前提条件 トーナメント戦 有力選手への出場義務 順位とランキングポイントの関係が適切 上位選手を強制的に参加させる大会を 数多く開けないとうまくいかない

    グランドスラムには全上位選手が出場 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 75
  76. 「良い」ランキングの決定版: イロレーティング チェスとランキング チェス 選手が多く,総当たりは無理 アルパド・イロ チェスプレイヤーとしても有名な物理学者 試合結果から強さを推定する手法を提案 「イロ・レーティング(Elo Rating)」

    アルパド・イロ(ÉLŐ ÁRPÁD IMRE) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 76
  77. 「良い」ランキングの決定版: イロレーティング ELO RATING 各選手がレーティング(強さを数値化したも の)を持つ レーティング差が予測勝率を定める 予測勝率と結果の差に基づきレーティングを 修正する 「予測」→「修正」の繰り返し

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 77
  78. イロレーティングの具体例 予測過程 試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 𝑟𝐴 ,

    𝑟𝐵 : 選手A,Bのレーティング 予測勝率 𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 修正過程 試合が多い場合 Aが勝利  𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804  𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596  ±3.84 Bが勝利  𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787  𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613  ±12.16 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 78
  79. イロレーティングの具体例 予測過程 試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 𝑟𝐴 ,

    𝑟𝐵 : 選手A,Bのレーティング 予測勝率 𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 レーティング差0=予測勝率0.5 レーティング差大→予測勝率が1に近づく シグモイド関数 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 79
  80. イロレーティングの具体例 修正過程の解釈 強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない 弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 試合が多い場合

    Aが勝利  𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804  𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596  ±3.84 Bが勝利  𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787  𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613  ±12.16 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 80
  81. イロレーティングの具体例 修正過程の解釈 強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない 弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 試合が多い場合

    Aが勝利  𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟖𝟎𝟒  𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟓𝟗𝟔  ±𝟑. 𝟖𝟒 Bが勝利  𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787  𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613  ±12.16 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 81
  82. イロレーティングの具体例 修正過程の解釈 強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない 弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が 多い 修正過程 試合が多い場合

    Aが勝利  𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804  𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596  ±3.84 Bが勝利  𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟕𝟖𝟕  𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟔𝟏𝟑  ±𝟏𝟐. 𝟏𝟔 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 82
  83. 様々な競技での イロレーティング系ランキングの採用 ラグビー 「番狂わせ」の定量化 日本初戦が番狂わせランキングトップ (2015) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 83

    World Rugby. "Rankings Explanation"
  84. 様々な競技での イロレーティング系ランキングの採用 ランキングポイント差と得点差 (RWC 2003-2015大会) 「番狂わせ」の定量化 日本初戦が番狂わせランキングトップ (2015) 「番狂わせ」=ランキングポイントが少ないほう が勝つ:わずか15%

    (2003-2015大会) 最大ランキングポイント差(2015大会まで):- 13.09 日本対南アフリカ(2015大会) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 84
  85. 様々な競技での イロレーティング系ランキングの採用 FIFA女子サッカーランキング 2003年~ 予測勝率の関数が少し違う 得失点差,試合種別による重み FIFA男子サッカーランキング 2018年~ 女子から遅れること15年. FIVBバレーボールランキング

    2020年~ セット数に基づくイロ系レーティング 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 85
  86. 結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 番付の近い力士と対戦 勝ち越し・負け越し数と番付の上下量が対応 以下の点でランキングとしての性能が下がる 経験的 特殊な運用の番付(横綱・大関) 数理的なレーティングで予測精度が改善

    横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 86 小中.「大相撲における力士の実力の定量的評価 指標の提案」
  87. 結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 番付の近い力士と対戦 勝ち越し・負け越し数と番付の上下量が対応 以下の点でランキングとしての性能が下がる 経験的 特殊な運用の番付(横綱・大関) 数理的なレーティングで予測精度が改善

    横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 87 小中.「大相撲における力士の実力の定量的評価 指標の提案」
  88. どの「平幕優勝」がすごいの? の定量化 2020年1月場所 「最も驚きの」幕内優勝10傑(~2020年3月) year month nameEng wins predicted wins

    logloss 1991 7 Kotofuji 14 5.6273 1.5755 2020 1 Tokushoryu 14 5.5564 1.4768 1984 9 Tagaryu 13 6.1411 1.2961 2008 5 Kotooshu 14 6.8338 1.2534 1972 1 Tochiazuma 11 6.2910 1.2266 1975 7 Kongo 13 6.8946 1.2054 2018 1 Tochinoshin 14 6.6507 1.1892 1961 5 Sadanoyam a 12 7.0139 1.1161 1976 9 Kaiketsu 14 6.6405 1.1107 2000 3 Takatoriki 13 5.9884 1.1094 2021/11/30 88 京都大学大学院 情報科学研究科「情報通信のデザイン」
  89. 横綱昇進の条件は 妥当か? 横綱 順位ではなく特殊な「身分」 内規(とされる) 大関で2場所連続優勝:現役横綱 の人数に左右される どこを基準とするべきか? 前頭の平均=0 (右図)

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 89
  90. 横綱昇進の条件は 妥当か? 横綱 内規(とされる) 大関で2場所連続優勝:現役横綱 の人数に左右される どこを基準とするべきか? 前頭の平均=0 (右図) 稀勢の里関

    2017年1月場所終了時:全力士中 最高評価 1度のみの優勝で議論を呼ぶ 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 90
  91. で,東京オリンピックは? 公式ランキングの改善 イロレーティング系への改善 バスケットボール ホッケー バレーボール その他2種目(ハンドボール,水球) 公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 2021/11/30

    京都大学大学院 情報科学研究科「情報通信のデザイン」 91 試合数 正解 公式ランキング 354 250 小中英嗣 354 ???
  92. で,東京オリンピックは? 公式ランキングの改善 イロレーティング系への改善 バスケットボール ホッケー バレーボール その他2種目(ハンドボール,水球) 公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 ◦

    有意差無し(p=0.271>0.05) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 92 試合数 正解 公式ランキング 354 250 小中英嗣 354 258
  93. で,東京オリンピックは? 公式ランキングの改善 イロレーティング系への改善 バスケットボール ホッケー バレーボール その他2種目(ハンドボール,水球) 公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 ◦

    有意差無し(p=0.271>0.05) 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 93 試合数 正解 公式ランキング 354 250 小中英嗣 354 258 数理的根拠を伴う,公正なランキングが広まりつつある
  94. (余談)レーティングは スポーツだけではない! レーティングと順位づけ(ランキング) レーティング=「何らかの基準に基づいて定 量化すること」 ランキング=「何らかの基準に基づいて順序 を定めること」 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」

    94
  95. (余談)レーティングは スポーツだけではない! レーティングと順位づけ(ランキング) ランキング=「何らかの基準に基づいて順 序を定めること」 Web検索エンジン(例:Google) ページ表示の順序 ページ重要度の「レーティング」と「ランキン グ」 似た数理構造を活用可能

    2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 95
  96. まとめ(3) 適切なランキングの設計 ランキングの良し悪し ランキングの上下が試合結果の予測となってい るべき 大会形式と合わせて慎重に設計されるべき 過大・過小評価による弊害 イロレーティング 勝率予測モデルと試合結果に基づく修正を繰り 返す

    様々なランキングがこちらに変更されつつある 「順序をつける」 スポーツだけではない Web検索など 抽象化:「評価を定量化して並べる」 数学的な構造の活用 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 96
  97. FIFAワールドカップ予測コンペ スポーツ予測コンペを開催します(FIFAワール ドカップ2022) FIFAワールドカップ・カタール2022予測コンペ 勝率または最終順位を予測.予測性能を競 う kaggleのような感じ 参加者募集中! 2021/11/30 京都大学大学院

    情報科学研究科「情報通信のデザイン」 97
  98. ありがとうございました! 2021/11/30 京都大学大学院 情報科学研究科「情報通信のデザイン」 98