Slide 1

Slide 1 text

データでスポーツを 楽しもう 小中英嗣(こなか・えいじ 名城大学理工学部情報工学科 准教授) 2021/5/22 刈谷市総合文化センター 大学連携講座 1

Slide 2

Slide 2 text

スポーツの楽しみ方 スポーツを「する」 スポーツを「みる」 2021/5/22 刈谷市総合文化センター 大学連携講座 2

Slide 3

Slide 3 text

スポーツの「何をみる」? ⚫スポーツの「何をみる」? ⚫チーム ⚫選手 ⚫スタジアム ⚫飲食 ⚫技術 ⚫戦術・戦略 2021/5/22 刈谷市総合文化センター 大学連携講座 3

Slide 4

Slide 4 text

スポーツの「何をみる」? ⚫スポーツの「何をみる」? ⚫チーム ⚫選手 ⚫スタジアム ⚫飲食 ⚫技術 ⚫戦術・戦略 ⚫データ 2021/5/22 刈谷市総合文化センター 大学連携講座 4

Slide 5

Slide 5 text

スポーツとデータ ⚫スポーツとデータの関係 ⚫スポーツとデータは関連深い?相性が良い? 2021/5/22 刈谷市総合文化センター 大学連携講座 5

Slide 6

Slide 6 text

スポーツとデータ ⚫スポーツとデータの関係 ⚫スポーツとデータは関連深い?相性が良い? ⚫スポーツとデータは相性が良い ⚫そもそもスポーツとは「運動を数値にして評価する活動」 ⚫距離,時間,成功回数… ⚫得点=「ボールがある領域を通過した回数」 ⚫ルールが明確である 2021/5/22 刈谷市総合文化センター 大学連携講座 6

Slide 7

Slide 7 text

今日の概要 ⚫スポーツとデータ ⚫野球での成功:マネーボールとデータ革命 ⚫サッカーでの挑戦:データ分析のフロンティア ⚫「正しい」ランキングとは? ⚫競技を問わないランキングの作成方法 2021/5/22 刈谷市総合文化センター 大学連携講座 7

Slide 8

Slide 8 text

今日の概要 ⚫スポーツとデータ ⚫野球での成功:マネーボールとデータ革命 ⚫サッカーでの挑戦:データ分析のフロンティア ⚫「正しい」ランキングとは? ⚫競技を問わないランキングの作成方法 2021/5/22 刈谷市総合文化センター 大学連携講座 8

Slide 9

Slide 9 text

野球:選手をどのように評価するの か? ⚫選手の「良さ」を評価できる値はど れ? ⚫打率 ⚫出塁率 ⚫本塁打数 ⚫打点 ⚫得点圏打率 ⚫盗塁数 ⚫勝利数 ⚫防御率 ⚫… 2021/5/22 刈谷市総合文化センター 大学連携講座 9

Slide 10

Slide 10 text

野球:選手をどのように評価するの か? ⚫選手の「良さ」を評価できる値はど れ? ⚫△打率 ⚫◎出塁率 ⚫〇本塁打数 ⚫△打点 ⚫×得点圏打率 ⚫×盗塁数 ⚫×勝利数 ⚫△防御率 ⚫… 2021/5/22 刈谷市総合文化センター 大学連携講座 10

Slide 11

Slide 11 text

野球:選手をどのように評価するの か? ⚫選手の「良さ」を評価できる値はど れ? ⚫△打率 ⚫◎出塁率 ⚫〇本塁打数 ⚫△打点 ⚫×得点圏打率 ⚫×盗塁数 ⚫×勝利数 ⚫△防御率 ⚫… 2021/5/22 刈谷市総合文化センター 大学連携講座 11 勝利にどれだけ 貢献したか? 選手個人を 評価できているか?

Slide 12

Slide 12 text

ビル・ジェームズとセイバーメトリクス ⚫ビル・ジェームズ ⚫野球の統計データ取得 ⚫データに基づく分析 ⚫1970年代に「セイバーメトリクス」の確 立に寄与 ⚫(SABRMetrics, SABR=Society for American Baseball Research) ⚫提唱当初はあまり注目されず. 2021/5/22 刈谷市総合文化センター 大学連携講座 12 Colette Morton and Dan Holden - DSCF0551, CC 表示-継承 2.0, https://commons.wikimedia.org/w/index.php?curid=16358673 による

Slide 13

Slide 13 text

「セイバーメトリクス?」 ⚫野球における評価を統計に基づき行 う ⚫「勝利にいかに貢献できたのか?」を 客観的に評価する ⚫「伝統的」な指標は必ずしも勝利数を 増やさない or 選手個人の能力を表さ ない! ⚫打点,盗塁,得点圏打率,勝利数,防 御率,… ⚫「野球で勝つためには?」 ⚫ホームランをたくさん打つ!→△ ⚫打者3人がアウトになるまでにいかに 多くの塁を獲得できるか?→◎ 2021/5/22 刈谷市総合文化センター 大学連携講座 13

Slide 14

Slide 14 text

「セイバーメトリクス?」 ⚫野球における評価を統計に基づき行 う ⚫「勝利にいかに貢献できたのか?」を 客観的に評価する ⚫「伝統的」な指標は必ずしも勝利数を 増やさない or 選手個人の能力を表さ ない! ⚫打点,盗塁,得点圏打率,勝利数,防 御率,… ⚫「野球で勝つためには?」 ⚫ホームランをたくさん打つ!→△ ⚫打者3人がアウトになるまでにいかに 多くの塁を獲得できるか?→◎ ⚫アウトにならない確率=出塁率◎ ⚫打席当たりの獲得塁数=長打率◎ ⚫出塁率+長打率=◎◎ ⚫OPS (On-base Plus Slugging) 2021/5/22 刈谷市総合文化センター 大学連携講座 14

Slide 15

Slide 15 text

「マネー・ボール」 ⚫ 2011年公開 ⚫実話に基づく ⚫メジャーリーグの弱小球団の物語 ⚫オークランド・アスレチックス ⚫GM:ビリー・ビーン ⚫1997年就任 2021/5/22 刈谷市総合文化センター 大学連携講座 15 (amazon.co.jp)

Slide 16

Slide 16 text

「マネー・ボール」 ⚫ 2011年公開 ⚫実話に基づく ⚫メジャーリーグの弱小球団の物語 ⚫オークランド・アスレチックス ⚫GM:ビリー・ビーン ⚫1997年就任 2021/5/22 刈谷市総合文化センター 大学連携講座 16

Slide 17

Slide 17 text

「マネー・ボール」 ⚫スカウト:勘と経験→勝利に貢献する 統計データに基づく ⚫重要な指標:出塁率,奪三振率,与四 球率, OPS ⚫「お買い得」な選手を集める 2021/5/22 刈谷市総合文化センター 大学連携講座 17 https://eiga.com/movie/55274/gallery/

Slide 18

Slide 18 text

「マネー・ボール」 ⚫スカウト:勘と経験→勝利に貢献する 統計データに基づく ⚫重要な指標:出塁率,奪三振率,与四 球率, OPS ⚫「お買い得」な選手を集める 2021/5/22 刈谷市総合文化センター 大学連携講座 18 Leaders Event from London, United Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による

Slide 19

Slide 19 text

「マネー・ボール」 2021/5/22 刈谷市総合文化センター 大学連携講座 19 Leaders Event from London, United Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による

Slide 20

Slide 20 text

「マネー・ボール」 2021/5/22 刈谷市総合文化センター 大学連携講座 20 Leaders Event from London, United Kingdom - Billy Beane - General Manager Oakland A'sUploaded by Muboshgu, CC 表示 2.0, https://commons.wikimedia.org/w/index.php?curid=20513220による メジャー屈指の 常勝球団に!

Slide 21

Slide 21 text

セイバーメトリクスの効果と限界 ⚫野球の勝利に貢献する要素の正しい理解 ⚫過去のスコアブックの活用 ⚫⇒スコアブックの粒度のデータでは 限界がある ⚫自分自身やバット・ボールがどのように動いて いるのかわからない ⚫具体的なトレーニング/技術向上には寄与しな い ⚫計測:特殊な装置 ⚫「裸の上半身に48個のマーカー「弱点知る」阪 神藤浪」 (日刊スポーツ.2019年12月10日) 2021/5/22 刈谷市総合文化センター 大学連携講座 21

Slide 22

Slide 22 text

セイバーメトリクスの効果と限界 ⚫野球の勝利に貢献する要素の正しい理解 ⚫過去のスコアブックの活用 ⚫⇒スコアブックの粒度のデータでは 限界がある ⚫自分自身やバット・ボールがどのように動いて いるのかわからない ⚫具体的なトレーニング/技術向上には寄与しな い ⚫計測:特殊な装置 ⚫「裸の上半身に48個のマーカー「弱点知る」阪 神藤浪」 (日刊スポーツ.2019年12月10日) 2021/5/22 刈谷市総合文化センター 大学連携講座 22 選手やボールの 位置や速度を 球場でも計測 できたらなぁ… https://www.irasutoya.com/2015/02/blog-post_42.html

Slide 23

Slide 23 text

statcast:スコアブックから物理計測へ ⚫statcast: リアルタイム計測&データ 蓄積システム ⚫Amazonが技術提供 ⚫メジャーリーグベースボールは AWS で ビッグデータを処理し、興奮を届ける ⚫軌道(時刻x位置)の計測 ⚫スコアブックから物理量に基づく評価 2021/5/22 刈谷市総合文化センター 大学連携講座 23 https://baseballsavant.mlb.com/statcast_field?ev=100&la=13

Slide 24

Slide 24 text

物理計測が明らかにする野球の真理 バレル・ゾーン(フライボール革命) ピッチトンネル 2021/5/22 刈谷市総合文化センター 大学連携講座 24 https://www.mlb.com/glossary/statcast/barrel https://www.mlb.com/mariners/video/bill-s-blackboard-tunneling

Slide 25

Slide 25 text

物理計測が明らかにする野球の真理 守備シフト フレーミング ⚫ボールの通過位置とストライクと判定された 割合を算出 ⚫リーグ平均よりもストライクが多い→良いキャッ チャー ⚫https://baseballsavant.mlb.com/catcher_fra ming?year=2020&team=&min=q&sort=4,1 2021/5/22 刈谷市総合文化センター 大学連携講座 25

Slide 26

Slide 26 text

データに基づく野球の現在 「勝利数」に換算される評価の客観化 ⚫WAR (Wins above replacement) ⚫リーグの標準的控え選手と交代したときに何勝 増やすことができるか ⚫https://www.espn.com/mlb/war/leaders/_/type /seasonal/year/2020 ⚫勝利に貢献できる最適なプレイの発見→そ れを実現できる身体的素質が限定されつつ ある 反射的・画一的となる懸念 ⚫イチロー選手の引退会見 ⚫https://youtu.be/a4AtxQWhN6I?t=3668 ⚫“2001年にアメリカに来てから、19年の野球は 全く違う野球になりました。頭を使わなくてもで きる野球になりつつあるような。” ⚫「誰」が頭を使わない/使っているのか? 2021/5/22 刈谷市総合文化センター 大学連携講座 26

Slide 27

Slide 27 text

まとめ(1) 野球におけるデータ活用 ⚫スコアブックデータの活用 ⚫セイバーメトリクス ⚫マネーボール ⚫物理計測システムの発達 ⚫トレーニング・戦略へ反映 ⚫バレル,ピッチトンネル,守備シフト,フレーミン グ… ⚫最適解への収束への懸念 ⚫「考える」余地は残っているのか? 2021/5/22 刈谷市総合文化センター 大学連携講座 27

Slide 28

Slide 28 text

今日の概要 ⚫スポーツとデータ ⚫野球での成功:マネーボールとデータ革命 ⚫サッカーでの挑戦:データ分析のフロンティア ⚫「正しい」ランキングとは? ⚫競技を問わないランキングの作成方法 2021/5/22 刈谷市総合文化センター 大学連携講座 28

Slide 29

Slide 29 text

サッカーとデータ:計測技術との戦い ⚫サッカー:データ測定を妨げる競技特性 ⚫ピッチの大きさ ⚫入り乱れる22名の選手 ⚫明確に区切られないプレー ⚫ 攻撃/守備=ボール保持/非保持 2021/5/22 刈谷市総合文化センター 大学連携講座 29

Slide 30

Slide 30 text

サッカーとデータ:計測技術との戦い ⚫サッカー:データ測定を妨げる競技特性 ⚫広いピッチ:105 x 68[m] ⚫ バレーボール:18 x 9 [m] ⚫ 補:映像・データ分析が早くから発達.業界標準の分析ソフトあり. ⚫ テニス(ダブルス):23.77 x 10.97 [m] ⚫ バスケットボール:28 x 15 [m] ⚫高い位置(=スタンド)に測定機器が必要 ⚫入り乱れる22名の選手 ⚫明確に区切られないプレー ⚫ 攻撃/守備=ボール保持/非保持 ⚫物理計測以前に,野球のスコアブックに相当するデータ すら不十分 2021/5/22 刈谷市総合文化センター 大学連携講座 30 soccer basketball tennis volleyball

Slide 31

Slide 31 text

古典的成果: サッカーの得点と,馬に蹴られた兵士の数 ⚫「サッカーの得点は,まれに起こる出来事の 回数である」 ⚫確率の分布として考える ⚫「ポアソン分布」 ⚫「馬に蹴られて死んでしまった兵士の数」の研究 ⚫𝑃 𝑋 = 𝑥 = 𝑒−𝜆 𝜆𝑥 𝑥! ⚫右図:2020年J1リーグ ⚫平均得点: 2021/5/22 刈谷市総合文化センター 大学連携講座 31

Slide 32

Slide 32 text

勝敗シミュレータ ⚫しくみ ⚫チームの平均得失点を入力 ⚫ポアソン分布に従い得失点の確率を計算する ⚫勝ち・引き分け・負けの確率を計算 ⚫例:平均得失点1.5-1.0の場合 2021/5/22 刈谷市総合文化センター 大学連携講座 32

Slide 33

Slide 33 text

勝敗シミュレータ ⚫しくみ ⚫チームの平均得失点を入力 ⚫ポアソン分布に従い得失点の確率を計算する ⚫勝ち・引き分け・負けの確率を計算 ⚫勝利確率:1-0, 2-0, 2-1, 3-0, 3-1, 3-2, …のすべ ての確率を計算して足す ⚫得失点は独立と仮定 2021/5/22 刈谷市総合文化センター 大学連携講座 33

Slide 34

Slide 34 text

勝敗シミュレータ ⚫しくみ ⚫チームの平均得失点を入力 ⚫ポアソン分布に従い得失点の確率を計算する ⚫勝ち・引き分け・負けの確率を計算 ⚫勝利確率:1-0, 2-0, 2-1, 3-0, 3-1, 3-2, …のすべ ての確率を計算して足す ⚫得失点は独立と仮定 2021/5/22 刈谷市総合文化センター 大学連携講座 34

Slide 35

Slide 35 text

勝敗シミュレータ ⚫しくみ ⚫チームの平均得失点を入力 ⚫ポアソン分布に従い得失点の確率を計算する ⚫勝ち・引き分け・負けの確率を計算 ⚫勝利確率:1-0, 2-0, 2-1, 3-0, 3-1, 3-2, …のすべ ての確率を計算して足す ⚫得失点は独立と仮定 2021/5/22 刈谷市総合文化センター 大学連携講座 35 シミュレータのリンクです (スマホでも遊べます)

Slide 36

Slide 36 text

限られたデータからの予測 レーティング ⚫例:各国代表チームの実力評価 ⚫得失点などの公式記録 ⚫選手の市場価値・所属クラブなど ⚫1分ごとに勝利確率を計算 ⚫FiveThirtyEight, 2018 World Cup Predictions ⚫538 (?) 2021/5/22 刈谷市総合文化センター 大学連携講座 36

Slide 37

Slide 37 text

限られたデータからの予測 レーティング ⚫例:各国代表チームの実力評価 ⚫得失点などの公式記録 ⚫選手の市場価値・所属クラブなど ⚫1分ごとに勝利確率を計算 ⚫FiveThirtyEight, 2018 World Cup Predictions ⚫538: アメリカ大統領選挙の選挙人の総数 ⚫選挙結果の統計予測で有名なサイト ⚫スポーツデータも扱っている 2021/5/22 刈谷市総合文化センター 大学連携講座 37

Slide 38

Slide 38 text

計測技術の発達/サッカー市場の拡大 トラッキングデータ ⚫OptaPro data collection ⚫Opta(スポーツデータを扱う企業)のデータ取得 の様子(2018年) ⚫Tracking - How the Bundesliga Stats are Collected ⚫Bundesligaでのデータ取得システム紹介. ⚫The Future of Football - New Technology in the Bundesliga ⚫画像認識での姿勢取得,など 市場拡大 ⚫「ファイナンシャル・フェアプレー(FFP)」 ⚫4つのキーワードで読み解くFFPの仕組み ⚫「PE ファンド」や 「ヘッジファンド」が参入! サッ カークラブ買収の 新たなトレンド ⚫(私自身財務は素人でよくわかっていません が) 安定した投資先となるための規制が有 効に→投資の活性化・市場拡大 2021/5/22 刈谷市総合文化センター 大学連携講座 38

Slide 39

Slide 39 text

計測技術とデータ蓄積の果実: ゴール期待値 「ゴール期待値」 ⚫Bundesliga Match Facts powered by AWS: xGoals ⚫シュートの「位置」「状況」ごとの成功確率を 大量のシュートデータから生成 ⚫Premier League: 'Expected goals' tells us whether a player really should have scored 2021/5/22 刈谷市総合文化センター 大学連携講座 39 公開データを活用 ⚫インタラクティブ版 簡易版ゴール期待値 (simplified expected goals, sxG) ⚫A public data set of spatio-temporal match events in soccer competitions

Slide 40

Slide 40 text

サッカーにおけるデータ分析の最前線 ボロノイ図とフォーメーション評価 ⚫Geometry of football (Voronoi) ⚫ボロノイ図:点(選手)からの距離が等しくなる 境界線を描いた図 2021/5/22 刈谷市総合文化センター 大学連携講座 40 VAEP(VALUING ACTIONS BY ESTIMATING PROBABILITIES) ⚫すべてのプレイ(パス,ドリブル,…)がどれだ け得点確率を上げたかを統計的に算出

Slide 41

Slide 41 text

AI-inspired analysis ゲームAIに触発されるデータ分析 ⚫VAEP←囲碁AI ⚫「強化学習」 ⚫勝敗から逆算して手前の盤面の評価値を算出 物理学者を採用するサッカークラブ 2021/5/22 刈谷市総合文化センター 大学連携講座 41

Slide 42

Slide 42 text

AI-inspired analysis ゲームAIに触発されるデータ分析 ⚫VAEP←囲碁AI ⚫「強化学習」 ⚫得点から逆算して手前の状況の評価値を算出 ⚫ちょっとした未来予測 ⚫コンピュータ内のサッカーシミュレータで多量の 試合を行う→最適戦略を導出 物理学者を採用するサッカークラブ 2021/5/22 刈谷市総合文化センター 大学連携講座 42

Slide 43

Slide 43 text

AI-inspired analysis ゲームAIに触発されるデータ分析 ⚫VAEP←囲碁AI ⚫「強化学習」 ⚫得点から逆算して手前の状況の評価値を算出 ⚫ちょっとした未来予測 ⚫コンピュータ内のサッカーシミュレータで多量の 試合を行う→最適戦略を導出 ⚫Google Research Football with Manchester City F.C. 物理学者を採用するサッカークラブ ⚫新指標の開発から分析作業の自動化まで。 ドイツ代表復権のカギを握る“AI研究” ⚫リバプールはデータで「プレーの質」を問う。 南野らを評価する新指標「EPV」 ⚫物理学者など,動的システム理論,統計学, コンピュータプログラミングを理解する人材の 登用 ⚫サッカー版「セイバーメトリクス」 2021/5/22 刈谷市総合文化センター 大学連携講座 43

Slide 44

Slide 44 text

まとめ(2) サッカーにおけるデータ活用 ⚫長い「古典的」成果の世界 ⚫データ取得の難しさ ⚫物理計測システムの発達 ⚫ゴール期待値,幾何学的評価(ボロノイ図), VAEP ⚫AIとの接近 ⚫サッカーは「ハック」されるのか? 2021/5/22 刈谷市総合文化センター 大学連携講座 44

Slide 45

Slide 45 text

今日の概要 ⚫スポーツとデータ ⚫野球での成功:マネーボールとデータ革命 ⚫サッカーでの挑戦:データ分析のフロンティア ⚫「正しい」ランキングとは? ⚫良いランキング,良くないランキング ⚫競技を問わないランキングの作成方法 2021/5/22 刈谷市総合文化センター 大学連携講座 45

Slide 46

Slide 46 text

「公式世界ランキング」って正しいの? ⚫競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ⚫ランキングの正しさ ? 2021/5/22 刈谷市総合文化センター 大学連携講座 46

Slide 47

Slide 47 text

「公式世界ランキング」って正しいの? ⚫競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ⚫ランキングの正しさ ⚫ランキングが高いほうが勝つ可能性が高い ⚫リオ五輪 球技予測プロジェクト 2021/5/22 刈谷市総合文化センター 大学連携講座 47

Slide 48

Slide 48 text

「公式世界ランキング」って正しいの? ⚫競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ⚫ランキングの正しさ ⚫ランキングが高いほうが勝つ可能性が高い ⚫リオ五輪 球技予測プロジェクト ⚫球技5競技10種目を予測する ⚫ バスケットボール,ハンドボール,ホッケー,バレー ボール,水球 ⚫ 予測内容:各試合の勝敗,メダルの有無/色 ⚫予測方法 ⚫ 世界ランキング ⚫ 雑誌・新聞予測 ⚫ 小中英嗣の予測 ⚫ Konaka, “A Unified Statistical Rating Method for Team Ball Games and Its Application to Predictions in the Olympic Games” 2021/5/22 刈谷市総合文化センター 大学連携講座 48

Slide 49

Slide 49 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2021/5/22 刈谷市総合文化センター 大学連携講座 49

Slide 50

Slide 50 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2021/5/22 刈谷市総合文化センター 大学連携講座 50 試合数 正解 公式ランキング 370 238 小中英嗣 370 ??? メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ???

Slide 51

Slide 51 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2021/5/22 刈谷市総合文化センター 大学連携講座 51 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ??? (* p<0.01 で有意差あり)

Slide 52

Slide 52 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2021/5/22 刈谷市総合文化センター 大学連携講座 52 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 19 10 (* p<0.01 で有意差あり)

Slide 53

Slide 53 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫統計予測を扱う企業(Gracenote) 2021/5/22 刈谷市総合文化センター 大学連携講座 53 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10 (* p<0.01 で有意差あり)

Slide 54

Slide 54 text

リオ五輪予測プロジェクト:まとめ ⚫公式ランキングは実力を適切に評価 できていないのではないか? ⚫現場を取材している記者・専門家も 実力を適切に評価できていないので はないか? ⚫小中英嗣は何をしたのか? ⚫統計予測企業も公式ランキングや専門家 を出し抜いている 2021/5/22 刈谷市総合文化センター 大学連携講座 54 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10

Slide 55

Slide 55 text

「実力」とは何か? 人間の専門家の特徴 ⚫◎競技特性・構造の定性的な理解 ⚫×データの記憶 ⚫×みられる試合数は限られる ⚫×「実力」評価に必要・不要な要素を適切に 分別できない ⚫余分な情報を得られすぎる 「実力」とは何か? 2021/5/22 刈谷市総合文化センター 大学連携講座 55

Slide 56

Slide 56 text

「実力」とは何か? 人間の専門家の特徴 ⚫◎競技特性・構造の定性的な理解 ⚫×データの記憶 ⚫×みられる試合数は限られる ⚫×「実力」評価に必要・不要な要素を適切に 分別できない ⚫余分な情報を得られすぎる 「実力」とは何か? ⚫5競技の共通点:得点が多いほうが勝ち ⚫「実力」=「得点を取る能力」「失点を抑える 能力」 ⚫仮説:実力評価に最も有効なデータは過去 の結果(得失点)である ⚫「1点取られる間に何点取れるか」=得失点比 ⚫専門家による技術・戦術の評価は必ずしも実力 を定量化しない 2021/5/22 刈谷市総合文化センター 大学連携講座 56

Slide 57

Slide 57 text

球技の本質 E.KONAKA@SPORTS ANALYST MEETUP #2 (20190512) ⚫「自分が1点取られる間に何点取れるか?」=「得失点比」が本質 ⚫得失点(または無得点)の最小単位を繰り返す確率過程 ⚫得失点比は対戦チーム間の実力差で定まる(という仮定) ⚫対比較法 ⚫(得失点比)=1 ⇔ 勝率5割 ⚫競技ごとの得点機会数や成功率の差を吸収できる単一モデルを構築した い!

Slide 58

Slide 58 text

球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? E.KONAKA@SPORTS ANALYST MEETUP #2 (20190512)

Slide 59

Slide 59 text

球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? E.KONAKA@SPORTS ANALYST MEETUP #2 (20190512) そうです!!

Slide 60

Slide 60 text

球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? E.KONAKA@SPORTS ANALYST MEETUP #2 (20190512) そうです!! ෝ 𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 ⚫ 𝑟𝑖 , 𝑟 𝑗 :チーム𝑖, 𝑗の実力(レーティング) ⚫𝐷𝑘 : 競技𝑘の変換パラメータ ⚫ෝ 𝑤𝑖.𝑗 : チーム𝑖の𝑗に対する予測勝率 ⚫(Eloレーティングと同様のモデル)

Slide 61

Slide 61 text

モデルの構築 ⚫ find ⚫ that minimize ⚫subject to E.KONAKA@SPORTS ANALYST MEETUP #2 (20190512) ෝ 𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 𝐽 = ෍ 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑚𝑎𝑡𝑐ℎ𝑒𝑠 𝑤𝑖,𝑗 − ෝ 𝑤𝑖,𝑗 2 𝑟𝑖 (𝑖 = 1, ⋯ , 𝑁𝑇 ), 𝐷𝑘 𝑤𝑖,𝑗 : past results ⚫ 過去の試合結果と予測勝率の誤差 (二乗和)が最小となるような各チーム レーティング(実力値)と競技パラメー タを導出する ⚫実際は得点割合を説明するパラメータの 導出が間に入っています.[Konaka(2019), to be published]

Slide 62

Slide 62 text

モデル構築に利用した試合結果 ⚫オリンピック予選,大規模世界大会, 大陸選手権など. ⚫原則2014年~2016年7月 ⚫各種目およそ250~450試合 ⚫専門家(というか人間)の苦手 ⚫数百試合の試合結果を記憶し, ⚫かつ一貫したモデルで実力を評価すること E.KONAKA@SPORTS ANALYST MEETUP #2 (20190512) Konaka(2019) “A Unified Statistical Rating Method for Team Ball Games and Its Application to Predictions in the Olympic Games”

Slide 63

Slide 63 text

「悪い」ランキングの特徴 ⚫各試合の勝敗を対戦相手・得 失点差・重要度の区別なく反映 させる ⚫初期のFIFAランキング ⚫1993-1998 ⚫勝利+3,引き分け+1 ⚫これのみ(!) ⚫さすがにランキングの体を成し ていないので,修正された 2021/5/22 刈谷市総合文化センター 大学連携講座 63 日本最高位:9位 (1998年2月)

Slide 64

Slide 64 text

「悪い」ランキングの特徴 ⚫各試合の結果ではなく大会の順位を 反映する ⚫大会予選の条件/参加枠 ⚫各順位ごとのポイント付与が適当 2021/5/22 刈谷市総合文化センター 大学連携講座 64

Slide 65

Slide 65 text

「悪い」ランキングの特徴 ⚫各試合の結果ではなく大会の順位を 反映する ⚫大会予選の条件/参加枠 ⚫各順位ごとのポイント付与が適当 ⚫(旧)FIVBランキング ⚫バレーボール ⚫世界大会を独占する開催国が開催国 枠で出場してランキングポイントを得る ⚫枠が少ない大陸が過小評価 2021/5/22 刈谷市総合文化センター 大学連携講座 65

Slide 66

Slide 66 text

「悪い」ランキングの特徴 ⚫各試合の結果ではなく大会の順位を 反映する ⚫大会予選の条件/参加枠 ⚫各順位ごとのポイント付与が適当 ⚫(旧)FIVBランキング ⚫バレーボール ⚫世界大会を独占する開催国が開催国 枠で出場してランキングポイントを得る ⚫枠が少ない大陸が過小評価 ⚫(Konaka[2019]) 2021/5/22 刈谷市総合文化センター 大学連携講座 66

Slide 67

Slide 67 text

「悪い」ランキングの特徴 ⚫各試合の結果ではなく大会の順位を反映する ⚫大会予選の条件/参加枠 ⚫(旧)FIVBランキング(バレーボール) ⚫世界大会を独占する開催国が開催国枠で出場してランキングポイントを得る ⚫枠が少ない大陸が過小評価 ⚫世界選手権におけるヨーロッパ各国 2021/5/22 刈谷市総合文化センター 大学連携講座 67

Slide 68

Slide 68 text

「悪い」ランキングの特徴 ⚫各試合の結果ではなく大会の順位を反映する ⚫大会予選の条件/参加枠 ⚫(旧)FIVBランキング(バレーボール) ⚫世界大会を独占する開催国が開催国枠で出場してランキングポイントを得る ⚫枠が少ない大陸が過小評価 ⚫世界選手権におけるヨーロッパ各国 2021/5/22 刈谷市総合文化センター 大学連携講座 68 「ワールドカップ」への出場枠は 2のみ!

Slide 69

Slide 69 text

(旧)FIVBランキングの欠陥 ⚫横軸:ランキングポイント,縦 軸:提案手法の評価 ⚫FIVBランキングポイントは得 点の能力を定量化していない ⚫世界大会の予測精度も提案 手法が高い ⚫565, 544/733試合 ⚫2010-2018. 2021/5/22 刈谷市総合文化センター 大学連携講座 69

Slide 70

Slide 70 text

(旧)FIVBランキングの欠陥 ⚫横軸:ランキングポイント,縦 軸:提案手法の評価 ⚫FIVBランキングポイントは得 点の能力を定量化していない ⚫世界大会の予測精度も提案 手法が高い ⚫565, 544/733試合 ⚫2010-2018. 5大会 2021/5/22 刈谷市総合文化センター 大学連携講座 70

Slide 71

Slide 71 text

ランキングが正しくないことの弊害: 世界選手権2018男子大会 ⚫日本男子:世界選手権2018出 場 ⚫FIVBランキング: 12 ⚫プールA内3位 ⚫結果: プールA5位 ⚫FIVBランキングでの過大評価 が原因 [https://italy-bulgaria2018.fivb.com/en/results-and-ranking/round1]

Slide 72

Slide 72 text

もしランキングが適切だったら? ⚫もしランキングが適切だったら? ⚫日本は16位相当 ⚫右図:17位から24位相当チームに対 する予測勝率 ⚫プールはランキングに基づき決定 ⚫日本はプールで2勝以上を挙げ,4位 以内(一次リーグ突破)を確保できた可 能性が高い 過大評価が公正な結果を妨げた

Slide 73

Slide 73 text

「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する (右図) 2021/5/22 刈谷市総合文化センター 大学連携講座 73

Slide 74

Slide 74 text

「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する (右図) ⚫例:選手A(ランキングポイント1500)と選 手B(ランキングポイント1000)が対戦 ⚫Aの予測勝率= 1500 1500+1000 = 0.6 2021/5/22 刈谷市総合文化センター 大学連携講座 74

Slide 75

Slide 75 text

「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する (右図) ⚫前提条件 ⚫トーナメント戦 ⚫有力選手への出場義務 ⚫順位とランキングポイントの関係が適切 ⚫上位選手を強制的に参加させる大会を 数多く開けないとうまくいかない ⚫グランドスラムには全上位選手が出場 2021/5/22 刈谷市総合文化センター 大学連携講座 75

Slide 76

Slide 76 text

「良い」ランキングの決定版: イロレーティング チェスとランキング ⚫チェス ⚫選手が多く,総当たりは無理 ⚫アルパド・イロ ⚫チェスプレイヤーとしても有名な物理学者 ⚫試合結果から強さを推定する手法を提案 ⚫「イロ・レーティング(Elo Rating)」 アルパド・イロ(ÉLŐ ÁRPÁD IMRE) 2021/5/22 刈谷市総合文化センター 大学連携講座 76

Slide 77

Slide 77 text

「良い」ランキングの決定版: イロレーティング ELO RATING ⚫各選手がレーティング(強さを数値化したも の)を持つ ⚫レーティング差が予測勝率を定める ⚫予測勝率と結果の差に基づきレーティングを 修正する ⚫「予測」→「修正」の繰り返し 2021/5/22 刈谷市総合文化センター 大学連携講座 77

Slide 78

Slide 78 text

イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 , 𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2021/5/22 刈谷市総合文化センター 大学連携講座 78

Slide 79

Slide 79 text

イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 , 𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 ⚫レーティング差0=予測勝率0.5 ⚫レーティング差大→予測勝率が1に近づく シグモイド関数 2021/5/22 刈谷市総合文化センター 大学連携講座 79

Slide 80

Slide 80 text

イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2021/5/22 刈谷市総合文化センター 大学連携講座 80

Slide 81

Slide 81 text

イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟖𝟎𝟒 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟓𝟗𝟔 ⚫ ±𝟑. 𝟖𝟒 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2021/5/22 刈谷市総合文化センター 大学連携講座 81

Slide 82

Slide 82 text

イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が 多い 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟕𝟖𝟕 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟔𝟏𝟑 ⚫ ±𝟏𝟐. 𝟏𝟔 2021/5/22 刈谷市総合文化センター 大学連携講座 82

Slide 83

Slide 83 text

様々な競技での イロレーティング系ランキングの採用 ラグビー 「番狂わせ」の定量化 ⚫日本初戦が番狂わせランキングトップ (2015) 2021/5/22 刈谷市総合文化センター 大学連携講座 83 World Rugby. "Rankings Explanation"

Slide 84

Slide 84 text

様々な競技での イロレーティング系ランキングの採用 ランキングポイント差と得点差 (RWC 2003-2015大会) 「番狂わせ」の定量化 ⚫日本初戦が番狂わせランキングトップ (2015) ⚫「番狂わせ」=ランキングポイントが少ないほう が勝つ:わずか15% (2003-2015大会) ⚫最大ランキングポイント差(2015大会まで):- 13.09 ⚫日本対南アフリカ(2015大会) 2021/5/22 刈谷市総合文化センター 大学連携講座 84

Slide 85

Slide 85 text

様々な競技での イロレーティング系ランキングの採用 ⚫FIFA女子サッカーランキング ⚫2003年~ ⚫予測勝率の関数が少し違う ⚫得失点差,試合種別による重み ⚫FIFA男子サッカーランキング ⚫2018年~ ⚫女子から遅れること15年. ⚫FIVBバレーボールランキング ⚫2020年~ ⚫セット数に基づくイロ系レーティング 2021/5/22 刈谷市総合文化センター 大学連携講座 85

Slide 86

Slide 86 text

結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 ⚫番付の近い力士と対戦 ⚫勝ち越し・負け越し数と番付の上下量が対応 ⚫以下の点でランキングとしての性能が下がる ⚫経験的 ⚫特殊な運用の番付(横綱・大関) ⚫数理的なレーティングで予測精度が改善 ⚫横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2021/5/22 刈谷市総合文化センター 大学連携講座 86 小中.「大相撲における力士の実力の定量的評価 指標の提案」

Slide 87

Slide 87 text

結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 ⚫番付の近い力士と対戦 ⚫勝ち越し・負け越し数と番付の上下量が対応 ⚫以下の点でランキングとしての性能が下がる ⚫経験的 ⚫特殊な運用の番付(横綱・大関) ⚫数理的なレーティングで予測精度が改善 ⚫横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2021/5/22 刈谷市総合文化センター 大学連携講座 87 小中.「大相撲における力士の実力の定量的評価 指標の提案」

Slide 88

Slide 88 text

どの「平幕優勝」がすごいの? の定量化 2020年1月場所 「最も驚きの」幕内優勝10傑 year month nameEng wins predicted wins logloss 1991 7 Kotofuji 14 5.6273 1.5755 2020 1 Tokushoryu 14 5.5564 1.4768 1984 9 Tagaryu 13 6.1411 1.2961 2008 5 Kotooshu 14 6.8338 1.2534 1972 1 Tochiazuma 11 6.2910 1.2266 1975 7 Kongo 13 6.8946 1.2054 2018 1 Tochinoshin 14 6.6507 1.1892 1961 5 Sadanoyam a 12 7.0139 1.1161 1976 9 Kaiketsu 14 6.6405 1.1107 2000 3 Takatoriki 13 5.9884 1.1094 2021/5/22 88

Slide 89

Slide 89 text

横綱昇進の条件は 妥当か? 横綱 ⚫順位ではなく特殊な「身分」 ⚫内規(とされる) ⚫大関で2場所連続優勝:現役横綱 の人数に左右される ⚫どこを基準とするべきか? ⚫前頭の平均=0 (右図) 2021/5/22 刈谷市総合文化センター 大学連携講座 89

Slide 90

Slide 90 text

横綱昇進の条件は 妥当か? 横綱 ⚫内規(とされる) ⚫大関で2場所連続優勝:現役横綱 の人数に左右される ⚫どこを基準とするべきか? ⚫前頭の平均=0 (右図) ⚫稀勢の里関 ⚫2017年1月場所終了時:全力士中 最高評価 ⚫1度のみの優勝で議論を呼ぶ 2021/5/22 刈谷市総合文化センター 大学連携講座 90

Slide 91

Slide 91 text

(余談)レーティングは スポーツだけではない! レーティングと順位づけ(ランキング) ⚫レーティング=「何らかの基準に基づいて定 量化すること」 ⚫ランキング=「何らかの基準に基づいて順序 を定めること」 2021/5/22 刈谷市総合文化センター 大学連携講座 91

Slide 92

Slide 92 text

(余談)レーティングは スポーツだけではない! レーティングと順位づけ(ランキング) ⚫ランキング=「何らかの基準に基づいて順 序を定めること」 ⚫Web検索エンジン(例:Google) ⚫ページ表示の順序 ⚫ページ重要度の「レーティング」と「ランキン グ」 ⚫似た数理構造を活用可能 2021/5/22 刈谷市総合文化センター 大学連携講座 92

Slide 93

Slide 93 text

まとめ(3) 適切なランキングの設計 ⚫ランキングの良し悪し ⚫ランキングの上下が試合結果の予測となってい るべき ⚫大会形式と合わせて慎重に設計されるべき ⚫過大・過小評価による弊害 ⚫イロレーティング ⚫勝率予測モデルと試合結果に基づく修正を繰り 返す ⚫様々なランキングがこちらに変更されつつある 「順序をつける」 ⚫スポーツだけではない ⚫Web検索など ⚫抽象化:「評価を定量化して並べる」 ⚫数学的な構造の活用 2021/5/22 刈谷市総合文化センター 大学連携講座 93

Slide 94

Slide 94 text

ありがとうございました! 2021/5/22 刈谷市総合文化センター 大学連携講座 94