Slide 1

Slide 1 text

スポーツデータアナリティクス: ランキングおよび予測モデル構築手法を中心に 小中 英嗣 (名城大学情報工学部) 2022/3/8 電子情報通信学会総合大会2023 1

Slide 2

Slide 2 text

自己紹介 ⚫氏名:小中 英嗣(こなか えいじ) ⚫所属:名城大学情報工学部情報 工学科 ⚫研究分野 ⚫システム制御理論 ⚫連続・離散ハイブリッドシステム ⚫最適化による設計 ⚫スポーツアナリティクス ⚫レーティング・ランキング手法 ⚫メトリクス(評価指標)開発 ⚫スポーツアナリティクスへ至る経緯 ⚫趣味:スポーツ観戦(結構何でも観る) ⚫得点過程→確率過程では? ⚫予測モデルを作ってみる ⚫ランキングや大会制度の不備を数理的に指 摘する ⚫バレーボール各国代表チームのレーティン グ手法の提案および結果予測・大会形式評 価への応用(2017) ⚫J1 リーグ 2 ステージ+ポストシーズン制 度の統計的分析(2016) 2022/3/8 電子情報通信学会総合大会2023 2

Slide 3

Slide 3 text

エンターテインメントとしてのスポーツ スポーツを「する」 スポーツを「みる」 2022/3/8 電子情報通信学会総合大会2023 3

Slide 4

Slide 4 text

エンターテインメントとしてのスポーツ スポーツを「する」 スポーツを「みる」 2022/3/8 電子情報通信学会総合大会2023 4

Slide 5

Slide 5 text

スポーツの「何をみる」「みせる」? ⚫スポーツの「何をみる」? ⚫チーム ⚫選手 ⚫スタジアム ⚫飲食 ⚫技術 ⚫戦術・戦略 2022/3/8 電子情報通信学会総合大会2023 5

Slide 6

Slide 6 text

スポーツの「何をみる」「みせる」? ⚫スポーツの「何をみる」? ⚫チーム ⚫選手 ⚫スタジアム ⚫飲食 ⚫技術 ⚫戦術・戦略 ⚫データ 2022/3/8 電子情報通信学会総合大会2023 6

Slide 7

Slide 7 text

Definition of “sports” ⚫PLAY ⚫Spontaneous PLAY ⚫Organized PLAY = GAMES ⚫Non-competitive GAMES ⚫Competitive GAMES = CONTESTS ⚫Intellectual CONTESTS ⚫Physical CONTESTS = SPORTS (Sports | Definition, History, Examples, & Facts | Britannica) ⚫「スポーツ」とは… ⚫物理的・身体的で ⚫競争を伴う ⚫組織だった遊び 2022/3/8 電子情報通信学会総合大会2023 7

Slide 8

Slide 8 text

スポーツとデータ ⚫スポーツとデータの関係 ⚫スポーツとデータは関連深い?相性が良い? 2022/3/8 電子情報通信学会総合大会2023 8

Slide 9

Slide 9 text

スポーツとデータ ⚫スポーツとデータの関係 ⚫スポーツとデータは関連深い?相性が良い? ⚫スポーツとデータは相性が良い ⚫そもそもスポーツとは「運動を数値にして評価する活動」 ⚫距離,時間,成功回数… ⚫得点=「ボールがある領域を通過した回数」 ⚫ルールが明確である 2022/3/8 電子情報通信学会総合大会2023 9

Slide 10

Slide 10 text

スポーツと評価 ⚫そもそもスポーツとは「運動を数値に して評価する活動」 ⚫複数試合の結果→順位・ランキング ⚫多くの大会は順序を決めるために開催 されている 2022/3/8 電子情報通信学会総合大会2023 10

Slide 11

Slide 11 text

今日の内容 ⚫そもそもスポーツとは「運動を数値に して評価する活動」 ⚫複数試合の結果→順位・ランキング ⚫多くの大会は順序を決めるために開催 されている ⚫今日の内容 ⚫適切なランキング手法 ⚫予測モデルへの応用 ⚫事例紹介 2022/3/8 電子情報通信学会総合大会2023 11

Slide 12

Slide 12 text

スポーツとランキング なぜ必要?いつ必要? ⚫大会:順序を決める場 ⚫勝利数・勝率・勝点 ⚫均等な対戦:異論が出にくい ⚫不均一な状況では? ⚫チーム数が多すぎる ⚫地理的に離れている ランキングの活用方法 ⚫大会制度設計への活用 ⚫シード ⚫グループ分け ⚫ファンへの周知 2022/3/8 電子情報通信学会総合大会2023 12

Slide 13

Slide 13 text

採用されているランキング手法 [Stefani, 2011] ⚫オリンピック採用種目を中心に公式 ランキング手法を調査 ⚫159競技・種目 ⚫分類 ⚫None: 60 ⚫Subjective: 2 ⚫Accumulative: 84 ⚫Adjustive: 13 ⚫Accumulative ⚫一定期間の試合・大会結果に基づく加 算 ⚫Adjustive ⚫試合ごとに調整 2022/3/8 電子情報通信学会総合大会2023 13

Slide 14

Slide 14 text

「性能の悪い」ランキング ランキングの「性能」とは何? ⚫「ランキングが高いほうが勝率が高い」 ⚫「ランキング差が大きいほうが勝率が1に近 づく」 「性能の悪い」ランキングの作られ方 ⚫対戦相手の実力を考慮しない ⚫試合ではなく大会の結果を考慮して しまう ⚫順位とランキングポイントの関係に根 拠がない ⚫複数の大会をまとめる設計が雑 ⚫作り方が雑なAccumulativeなランキ ング →事例紹介 2022/3/8 電子情報通信学会総合大会2023 14

Slide 15

Slide 15 text

(初期の)FIFAランキング(サッカー) ⚫各試合の勝敗を対戦相手・得 失点差・重要度の区別なく反映 させる ⚫初期のFIFAランキング ⚫1993-1998 ⚫勝利+3,引き分け+1 ⚫これのみ(!) ⚫さすがにランキングの体を成し ていないので,修正された 2022/3/8 電子情報通信学会総合大会2023 15 日本最高位:9位 (1998年2月)

Slide 16

Slide 16 text

(初期の)FIFAランキング(サッカー) ⚫各試合の勝敗を対戦相手・得失点 差・重要度の区別なく反映させる ⚫ワールドカップ1998 ⚫グループステージでの勝点 ⚫相関係数-0.23 2022/3/8 電子情報通信学会総合大会2023 16

Slide 17

Slide 17 text

FIFAランキングの改善 1998大会 (相関係数-0.23) 2022大会(相関係数-0.46) 2022/3/8 電子情報通信学会総合大会2023 17

Slide 18

Slide 18 text

FIFAランキングの改善 1998大会 (相関係数-0.23) 2022大会(相関係数-0.46) 改善(後述) *複数回計算方法が改善されている 2022/3/8 電子情報通信学会総合大会2023 18

Slide 19

Slide 19 text

(旧)FIVBランキング(バレーボール) ⚫各試合の結果ではなく大会の順位を 反映する ⚫大会予選の条件/参加枠 ⚫各順位ごとのポイント付与がAd hoc ⚫(旧)FIVBランキング ⚫バレーボール ⚫世界大会を独占する開催国が開催国 枠で出場してランキングポイントを得る ⚫枠が少ない大陸が過小評価 ⚫(Konaka[2019]) 2022/3/8 電子情報通信学会総合大会2023 19

Slide 20

Slide 20 text

(旧)FIVBランキング ⚫各試合の結果ではなく大会の順位を反映する ⚫大会予選の条件/参加枠 ⚫(旧)FIVBランキング(バレーボール) ⚫世界大会を独占する開催国が開催国枠で出場してランキングポイントを得る ⚫枠が少ない大陸が過小評価 ⚫世界選手権におけるヨーロッパ各国 2022/3/8 電子情報通信学会総合大会2023 20

Slide 21

Slide 21 text

(旧)FIVBランキング ⚫各試合の結果ではなく大会の順位を反映する ⚫大会予選の条件/参加枠 ⚫(旧)FIVBランキング(バレーボール) ⚫世界大会を独占する開催国が開催国枠で出場してランキングポイントを得る ⚫枠が少ない大陸が過小評価 ⚫世界選手権におけるヨーロッパ各国 2022/3/8 電子情報通信学会総合大会2023 21 「ワールドカップ」への出場枠は 2のみ!

Slide 22

Slide 22 text

(旧)FIVBランキングの欠陥 ⚫横軸:ランキングポイント,縦 軸:提案手法(後述)の評価 ⚫提案手法:各チームの得失点 に基づく評価値 ⚫FIVBランキングポイントは得 点の能力を定量化していない ⚫世界大会の予測精度も提案 手法が高い ⚫565, 544/733試合 ⚫2010-2018. 2022/3/8 電子情報通信学会総合大会2023 22

Slide 23

Slide 23 text

(旧)FIVBランキングの欠陥 ⚫横軸:ランキングポイント ⚫縦軸:提案手法=各チームの 得失点に基づく評価値(後述) ⚫FIVBランキングポイントは得 点の能力を定量化していない ⚫世界大会の予測精度も提案 手法が高い ⚫565, 544/733試合 ⚫2010-2018. 2022/3/8 電子情報通信学会総合大会2023 23

Slide 24

Slide 24 text

「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する (右図) 2022/3/8 電子情報通信学会総合大会2023 24

Slide 25

Slide 25 text

「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する (右図) ⚫例:選手A(ランキングポイント1500)と選 手B(ランキングポイント1000)が対戦 ⚫Aの予測勝率= 1500 1500+1000 = 0.6 2022/3/8 電子情報通信学会総合大会2023 25

Slide 26

Slide 26 text

「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する (右図) ⚫前提条件 ⚫トーナメント戦 ⚫有力選手への出場義務 ⚫順位とランキングポイントの関係が適切 ⚫上位選手を強制的に参加させる大会を 数多く開けないとうまくいかない ⚫グランドスラムには全上位選手が出場 2022/3/8 電子情報通信学会総合大会2023 26

Slide 27

Slide 27 text

「良い」ランキングの例 ⚫プロテニス(ATP)ランキング ⚫ランキングポイント比が勝率と対応する ⚫前提条件 ⚫トーナメント戦 ⚫有力選手への出場義務 ⚫順位とランキングポイントの関係が適(右 表) ⚫上位選手を強制的に参加させる大会を 数多く開けないとうまくいかない ⚫グランドスラムには全上位選手が出場 2022/3/8 電子情報通信学会総合大会2023 27 W F SF QF R16 R32 R64 GS 2000 1200 720 360 180 90 45 ATP1000 96D 1000 600 360 180 90 45 25 ATP500 48D 500 300 180 90 45 20 ATP250 48D 250 150 90 45 20 × 0.6 × 0.6 × 0.5 × 0.5 × 0.5

Slide 28

Slide 28 text

「公式世界ランキング」って正しいの? ⚫競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ⚫ランキングの正しさ ⚫ランキングが高いほうが勝つ可能性が高い ⚫リオ五輪 球技予測プロジェクト 2022/3/8 電子情報通信学会総合大会2023 28

Slide 29

Slide 29 text

「公式世界ランキング」って正しいの? ⚫競技ごとの「公式世界ランキング」は各国の 実力を正しく表しているのか? ⚫ランキングの正しさ ⚫ランキングが高いほうが勝つ可能性が高い ⚫リオ五輪 球技予測プロジェクト ⚫球技5競技10種目を予測する ⚫ バスケットボール,ハンドボール,ホッケー,バレー ボール,水球 ⚫ 予測内容:各試合の勝敗,メダルの有無/色 ⚫予測方法 ⚫ 世界ランキング ⚫ 雑誌・新聞予測 ⚫ 小中英嗣の予測 ⚫ Konaka, “A Unified Statistical Rating Method for Team Ball Games and Its Application to Predictions in the Olympic Games” 2022/3/8 電子情報通信学会総合大会2023 29

Slide 30

Slide 30 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2022/3/8 電子情報通信学会総合大会2023 30

Slide 31

Slide 31 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2022/3/8 電子情報通信学会総合大会2023 31 試合数 正解 公式ランキング 370 238 小中英嗣 370 ??? メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ???

Slide 32

Slide 32 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2022/3/8 電子情報通信学会総合大会2023 32 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 ??? ??? (* p<0.01 で有意差あり)

Slide 33

Slide 33 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫雑誌・新聞の予測 ⚫ 雑誌:Sports Illustrated (アメリカのスポーツ専門雑誌) ⚫ 新聞:USA Today (アメリカの全国紙) 2022/3/8 電子情報通信学会総合大会2023 33 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 小中英嗣 30 19 10 (* p<0.01 で有意差あり)

Slide 34

Slide 34 text

リオ五輪予測プロジェクト ⚫各試合の勝敗予測 ⚫公式世界ランキング:「ランキングが高いほうが 勝つ」 ⚫メダル予測 ⚫公式世界ランキング:ランキング1-3位 ⚫統計予測を扱う企業(Gracenote) 2022/3/8 電子情報通信学会総合大会2023 34 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10 (* p<0.01 で有意差あり)

Slide 35

Slide 35 text

リオ五輪予測プロジェクト:まとめ ⚫公式ランキングは実力を適切に評価 できていないのではないか? ⚫現場を取材している記者・専門家も 実力を適切に評価できていないので はないか? ⚫小中英嗣は何をしたのか? ⚫統計予測企業も公式ランキングや専門家 を出し抜いている 2022/3/8 電子情報通信学会総合大会2023 35 試合数 正解 公式ランキング 370 238 小中英嗣 370 262* メダル数 正解(メダ ル有無) 正解(メダ ル色) 公式ランキ ング 30 14 6 雑誌(SI) 30 16 8 新聞(USA Today) 30 14 7 統計予測 (Gracenote) 30 14 10 小中英嗣 30 19 10

Slide 36

Slide 36 text

「実力」とは何か? 人間の専門家の特徴 ⚫◎競技特性・構造の定性的な理解 ⚫×データの記憶 ⚫×みられる試合数は限られる ⚫×「実力」評価に必要・不要な要素を適切に 分別できない ⚫余分な情報を得られすぎる 「実力」とは何か? 2022/3/8 電子情報通信学会総合大会2023 36

Slide 37

Slide 37 text

「実力」とは何か? 人間の専門家の特徴 ⚫◎競技特性・構造の定性的な理解 ⚫×データの記憶 ⚫×みられる試合数は限られる ⚫×「実力」評価に必要・不要な要素を適切に 分別できない ⚫余分な情報を得られすぎる 「実力」とは何か? ⚫5競技の共通点:得点が多いほうが勝ち ⚫「実力」=「得点を取る能力」「失点を抑える 能力」 ⚫仮説:実力評価に最も有効なデータは過去 の結果(得失点)である ⚫「1点取られる間に何点取れるか」=得失点比 ⚫専門家による技術・戦術の評価は必ずしも実力 を定量化しない 2022/3/8 電子情報通信学会総合大会2023 37

Slide 38

Slide 38 text

球技の本質 電子情報通信学会総合大会2023 ⚫「自分が1点取られる間に何点取れるか?」=「得失点比」が本質 ⚫得失点(または無得点)の最小単位を繰り返す確率過程 ⚫得失点比は対戦チーム間の実力差で定まる(という仮定) ⚫対比較法 ⚫(得失点比)=1 ⇔ 勝率5割 ⚫競技ごとの得点機会数や成功率の差を吸収できる単一モデルを構築した い! 2022/3/8 38

Slide 39

Slide 39 text

球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? 電子情報通信学会総合大会2023 2022/3/8 39

Slide 40

Slide 40 text

球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? 電子情報通信学会総合大会2023 そうです!! 2022/3/8 40

Slide 41

Slide 41 text

球技の本質 ⚫競技ごとの得点機会数や成功率 の差を吸収できる単一モデル ⚫チームの得点能力差(横軸)-勝 率(縦軸) ⚫ロジスティック回帰? 電子情報通信学会総合大会2023 そうです!! ෝ 𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 ⚫ 𝑟𝑖 , 𝑟 𝑗 :チーム𝑖, 𝑗の実力(レーティング) ⚫𝐷𝑘 : 競技𝑘の変換パラメータ ⚫ෝ 𝑤𝑖.𝑗 : チーム𝑖の𝑗に対する予測勝率 ⚫(Eloレーティングと同様のモデル) 2022/3/8 41

Slide 42

Slide 42 text

モデルの構築 ⚫ find ⚫ that minimize ⚫subject to 電子情報通信学会総合大会2023 ෝ 𝑤𝑖,𝑗 = 1 1 + exp −𝐷𝑘 𝑟𝑖 − 𝑟𝑗 𝐽 = ෍ 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑚𝑎𝑡𝑐ℎ𝑒𝑠 𝑤𝑖,𝑗 − ෝ 𝑤𝑖,𝑗 2 𝑟𝑖 (𝑖 = 1, ⋯ , 𝑁𝑇 ), 𝐷𝑘 𝑤𝑖,𝑗 : past results ⚫ 過去の試合結果と予測勝率の誤差 (二乗和)が最小となるような各チーム レーティング(実力値)と競技パラメー タを導出する ⚫実際は得点割合を説明するパラメータの 導出が間に入っています.[Konaka(2019)] ⚫本質的にイロ・レーティングと等価 2022/3/8 42

Slide 43

Slide 43 text

「良い」ランキングの決定版: イロレーティング チェスとランキング ⚫チェス ⚫選手が多く,総当たりは無理 ⚫アルパド・イロ ⚫チェスプレイヤーとしても有名な物理学者 ⚫試合結果から強さを推定する手法を提案 ⚫「イロ・レーティング(Elo Rating)」 アルパド・イロ(ÉLŐ ÁRPÁD IMRE) 2022/3/8 電子情報通信学会総合大会2023 43

Slide 44

Slide 44 text

「良い」ランキングの決定版: イロレーティング ELO RATING ⚫各選手がレーティング(強さを数値化したも の)を持つ ⚫レーティング差が予測勝率を定める ⚫予測勝率と結果の差に基づきレーティングを 修正する ⚫「予測」→「修正」の繰り返し 2022/3/8 電子情報通信学会総合大会2023 44

Slide 45

Slide 45 text

イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 , 𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2022/3/8 電子情報通信学会総合大会2023 45

Slide 46

Slide 46 text

イロレーティングの具体例 予測過程 ⚫試合前:𝑟𝐴 = 1800, 𝑟𝐵 = 1600 ⚫𝑟𝐴 , 𝑟𝐵 : 選手A,Bのレーティング ⚫予測勝率 ⚫𝑝𝐴,𝐵 = 1 1+10 1600−1800 400 ≃ 0.7597 ⚫レーティング差0=予測勝率0.5 ⚫レーティング差大→予測勝率が1に近づく シグモイド関数 2022/3/8 電子情報通信学会総合大会2023 46

Slide 47

Slide 47 text

イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2022/3/8 電子情報通信学会総合大会2023 47

Slide 48

Slide 48 text

イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が多 い 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟖𝟎𝟒 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟓𝟗𝟔 ⚫ ±𝟑. 𝟖𝟒 ⚫Bが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 0 − 0.7597 ≃ 1787 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 1 − 0.2413 ≃ 1613 ⚫ ±12.16 2022/3/8 電子情報通信学会総合大会2023 48

Slide 49

Slide 49 text

イロレーティングの具体例 修正過程の解釈 ⚫強いほうが勝つ→予測と実際が近い→レー ティングをそんなに修正しなくてよい→修正量 が少ない ⚫弱いほうが勝つ→予測と実際が遠い→レー ティングをたくさん修正するべき→修正量が 多い 修正過程 ⚫試合が多い場合 ⚫Aが勝利 ⚫ 𝑟𝐴 ← 𝑟𝐴 + 16 × 1 − 0.7597 ≃ 1804 ⚫ 𝑟𝐵 ← 𝑟𝐵 + 16 × 0 − 0.2413 ≃ 1596 ⚫ ±3.84 ⚫Bが勝利 ⚫ 𝒓𝑨 ← 𝒓𝑨 + 𝟏𝟔 × 𝟎 − 𝟎. 𝟕𝟓𝟗𝟕 ≃ 𝟏𝟕𝟖𝟕 ⚫ 𝒓𝑩 ← 𝒓𝑩 + 𝟏𝟔 × 𝟏 − 𝟎. 𝟐𝟒𝟏𝟑 ≃ 𝟏𝟔𝟏𝟑 ⚫ ±𝟏𝟐. 𝟏𝟔 2022/3/8 電子情報通信学会総合大会2023 49

Slide 50

Slide 50 text

様々な競技での イロレーティング系ランキングの採用 ラグビー 「番狂わせ」の定量化 ⚫日本初戦が番狂わせランキングトップ (2015) 2022/3/8 電子情報通信学会総合大会2023 50 World Rugby. "Rankings Explanation"

Slide 51

Slide 51 text

様々な競技での イロレーティング系ランキングの採用 ランキングポイント差と得点差 (RWC 2003-2015大会) 「番狂わせ」の定量化 ⚫日本初戦が番狂わせランキングトップ (2015) ⚫「番狂わせ」=ランキングポイントが少ないほう が勝つ:わずか15% (2003-2015大会) ⚫最大ランキングポイント差(2015大会まで):- 13.09 ⚫日本対南アフリカ(2015大会) 2022/3/8 電子情報通信学会総合大会2023 51

Slide 52

Slide 52 text

様々な競技での イロレーティング系ランキングの採用 ⚫FIFA女子サッカーランキング ⚫2003年~ ⚫予測勝率の関数が少し違う ⚫得失点差,試合種別による重み ⚫FIFA男子サッカーランキング ⚫2018年~ ⚫女子から遅れること15年. ⚫FIVBバレーボールランキング ⚫2020年~ ⚫セット数に基づくイロ系レーティング 2022/3/8 電子情報通信学会総合大会2023 52

Slide 53

Slide 53 text

結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 ⚫番付の近い力士と対戦 ⚫勝ち越し・負け越し数と番付の上下量が対応 ⚫以下の点でランキングとしての性能が下がる ⚫経験的 ⚫特殊な運用の番付(横綱・大関) ⚫数理的なレーティングで予測精度が改善 ⚫横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2022/3/8 電子情報通信学会総合大会2023 53 小中.「大相撲における力士の実力の定量的評価 指標の提案」

Slide 54

Slide 54 text

結果的にイロレーティングの 変種となっていた例(とその改善) 大相撲 番付 ⚫番付の近い力士と対戦 ⚫勝ち越し・負け越し数と番付の上下量が対応 ⚫以下の点でランキングとしての性能が下がる ⚫経験的 ⚫特殊な運用の番付(横綱・大関) ⚫数理的なレーティングで予測精度が改善 ⚫横綱としてふさわしいか?の定量的な基準 番付と数理的手法の比較(予測正解率) 2022/3/8 電子情報通信学会総合大会2023 54 小中.「大相撲における力士の実力の定量的評価 指標の提案」

Slide 55

Slide 55 text

どの「平幕優勝」がすごいの? の定量化 2020年1月場所 「最も驚きの」幕内優勝10傑(~2020年3月) year month nameEng wins predicted wins logloss 1991 7 Kotofuji 14 5.6273 1.5755 2020 1 Tokushoryu 14 5.5564 1.4768 1984 9 Tagaryu 13 6.1411 1.2961 2008 5 Kotooshu 14 6.8338 1.2534 1972 1 Tochiazuma 11 6.2910 1.2266 1975 7 Kongo 13 6.8946 1.2054 2018 1 Tochinoshin 14 6.6507 1.1892 1961 5 Sadanoyam a 12 7.0139 1.1161 1976 9 Kaiketsu 14 6.6405 1.1107 2000 3 Takatoriki 13 5.9884 1.1094 2022/3/8 55 電子情報通信学会総合大会2023

Slide 56

Slide 56 text

横綱昇進の条件は 妥当か? 横綱 ⚫順位ではなく特殊な「身分」 ⚫内規(とされる) ⚫大関で2場所連続優勝:現役横綱 の人数に左右される ⚫どこを基準とするべきか? ⚫前頭の平均=0 (右図) 2022/3/8 電子情報通信学会総合大会2023 56

Slide 57

Slide 57 text

横綱昇進の条件は 妥当か? 横綱 ⚫内規(とされる) ⚫大関で2場所連続優勝:現役横綱 の人数に左右される ⚫どこを基準とするべきか? ⚫前頭の平均=0 (右図) ⚫稀勢の里関 ⚫2017年1月場所終了時:全力士中 最高評価 ⚫1度のみの優勝で議論を呼ぶ 2022/3/8 電子情報通信学会総合大会2023 57

Slide 58

Slide 58 text

で,東京オリンピックは? 公式ランキングの改善 ⚫イロレーティング系への改善 ⚫バスケットボール ⚫ホッケー ⚫バレーボール ⚫その他2種目(ハンドボール,水球) ⚫公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 2022/3/8 電子情報通信学会総合大会2023 58 試合数 正解 公式ランキング 354 250 小中英嗣 354 ???

Slide 59

Slide 59 text

で,東京オリンピックは? 公式ランキングの改善 ⚫イロレーティング系への改善 ⚫バスケットボール ⚫ホッケー ⚫バレーボール ⚫その他2種目(ハンドボール,水球) ⚫公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 ◦ 有意差無し(p=0.271>0.05) 2022/3/8 電子情報通信学会総合大会2023 59 試合数 正解 公式ランキング 354 250 小中英嗣 354 258

Slide 60

Slide 60 text

で,東京オリンピックは? 公式ランキングの改善 ⚫イロレーティング系への改善 ⚫バスケットボール ⚫ホッケー ⚫バレーボール ⚫その他2種目(ハンドボール,水球) ⚫公式ランキングを公開しなくなった 提案手法と公式ランキングの比較 ◦ 有意差無し(p=0.271>0.05) 2022/3/8 電子情報通信学会総合大会2023 60 試合数 正解 公式ランキング 354 250 小中英嗣 354 258 数理的根拠を伴う,公正なランキングが広まりつつある

Slide 61

Slide 61 text

(余談)レーティングは スポーツだけではない! レーティングと順位づけ(ランキング) ⚫レーティング=「何らかの基準に基づいて定 量化すること」 ⚫ランキング=「何らかの基準に基づいて順序 を定めること」 2022/3/8 電子情報通信学会総合大会2023 61

Slide 62

Slide 62 text

(余談)レーティングは スポーツだけではない! レーティングと順位づけ(ランキング) ⚫ランキング=「何らかの基準に基づいて順 序を定めること」 ⚫Web検索エンジン(例:Google) ⚫ページ表示の順序 ⚫ページ重要度の「レーティング」と「ランキン グ」 ⚫似た数理構造を活用可能 2022/3/8 電子情報通信学会総合大会2023 62

Slide 63

Slide 63 text

その他のトピック 選手評価指標の開発 ⚫野球:セイバーメトリクス ⚫評価指標の内容⇔計測データの粒度 ⚫バスケットボール ⚫プレイ単位データ→各選手の攻守の貢献の定 量化 ⚫Personal Strength Evaluation in B.LEAGUE 2022/3/8 電子情報通信学会総合大会2023 63

Slide 64

Slide 64 text

その他のトピック オープンデータの活用 ⚫シュート位置データ→ゴール期待値 ⚫サッカーにおけるゴール期待値 ⚫バスケットボール 2022/3/8 電子情報通信学会総合大会2023 64

Slide 65

Slide 65 text

その他のトピック オープンデータの活用 ⚫シュート位置データ→ゴール期待値 ⚫サッカーにおけるゴール期待値 ⚫バスケットボール 2022/3/8 電子情報通信学会総合大会2023 65

Slide 66

Slide 66 text

まとめ 適切なランキングの設計 ⚫ランキングの良し悪し ⚫ランキングの上下が試合結果の予測となってい るべき ⚫大会形式と合わせて慎重に設計されるべき ⚫過大・過小評価による弊害 ⚫イロレーティング ⚫勝率予測モデルと試合結果に基づく修正を繰り 返す ⚫様々なランキングがこちらに変更されつつある 「順序をつける」 ⚫スポーツだけではない ⚫Web検索など ⚫抽象化:「評価を定量化して並べる」 ⚫数学的な構造の活用 2022/3/8 電子情報通信学会総合大会2023 66

Slide 67

Slide 67 text

ありがとうございました! 研究情報公開一覧 ⚫Webサイト ⚫https://www-ie.meijo- u.ac.jp/~konaka/summary.html ⚫SNS ⚫@konakalab/Twitter ⚫ブログ ⚫note, qiita, livedoor Blog ⚫発表スライド ⚫https://speakerdeck.com/konakalab さわれるWEBアプリ ⚫ポアソン分布を利用したサッカーシミュレー ション ⚫Bリーグにおける勝利確率(得失点差と残り 時間) ⚫男子プロテニス サービス位置・ランキング ポイントと成功確率 2022/3/8 電子情報通信学会総合大会2023 67

Slide 68

Slide 68 text

2022/3/8 電子情報通信学会総合大会2023 68