【D1-6】netkeibaにおける機械学習を用いた競馬オッズ予測手法の開発とその変革 | #MTDC2024 | MIXI TECH DESIGN CONFERENCE 2024

Slide 1

Slide 1 text

©MIXI netkeibaにおける機械学習を用いた競馬オッズ予測手法の開発とその変革氏名: 渡辺莉央開発本部 CTO室たんぽぽ室たんぽぽグループ

Slide 2

Slide 2 text

©MIXI 自己紹介 ● 渡辺莉央 (2018年新卒) ● 開発本部たんぽぽ室たんぽぽグループ ● 仕事内容 Ø プロダクトへの機械学習導入検証 Ø AI関連技術の調査および検証 ● 趣味 Ø ダーツ Ø テニス Ø サッカー & バスケ観戦 (Liverpool & 千葉ジェッツ)

Slide 3

Slide 3 text

©MIXI 本日のお品書き ● netkeibaと「予想オッズ」 Ø netkeibaについて Ø 従来の予想オッズの仕組み ● 競馬オッズについて Ø オッズがわかるメリット Ø 予想オッズの算出方法 ● 「予想オッズ」について Ø 「予想オッズ」の問題点 Ø 「予想オッズ」から「予測オッズ」へ ● 「予測オッズ」について Ø ベースモデルと現行モデル Ø 精度検証 ● まとめ

Slide 4

Slide 4 text

©MIXI 4 netkeibaと「予想オッズ」

Slide 5

Slide 5 text

©MIXI 5 netkeibaとは ● 国内最大級の競馬情報サイト ● 競馬を楽しむためのさまざまな情報やニュースを公開

Slide 6

Slide 6 text

©MIXI 6 予想オッズとは ● 各レースのページ内で提供しているコンテンツのひとつ ● (従来の仕様は) ユーザーの事前投票を用いた「集合知」によって算出

Slide 7

Slide 7 text

©MIXI 7 競馬オッズについて

Slide 8

Slide 8 text

©MIXI 8 オッズはどのように決められているのだろう？ Q.

Slide 9

Slide 9 text

©MIXI 9 50票 43票 32票 25票 0.33％ 0.29％ 0.21％ 0.17％ 2.42倍 2.76倍 3.81倍 4.71倍オッズ = 払戻率(=0.8) / 支持率 A. オッズは投票比率によって決められます投票数支持率オッズ

Slide 10

Slide 10 text

©MIXI 10 オッズがわかると何が嬉しい？ Q.

Slide 11

Slide 11 text

©MIXI 11 A. 馬券購入の指標になります ● オッズは、ユーザーが一番わかりやすく人気/不人気の馬を確認できる指標 ● 予想印では、予想家によって印の意味が異なる可能性があり不正確順位精度が指標の精度に影響

Slide 12

Slide 12 text

©MIXI 12 A. 馬券予測の期待値が計算できるようになります 40% 20% 5% 2倍 7倍 20倍 80% 100% 140% × × × オッズ精度が回収率の精度に影響馬券予測AIの仕組み勝率オッズ回収率 AIオッズ

Slide 13

Slide 13 text

©MIXI 13 「予想オッズ」について

Slide 14

Slide 14 text

©MIXI 14 従来の予想オッズ算出方法問題点「俺プロ」での一般投票を元にオッズ算出

Slide 15

Slide 15 text

©MIXI 15 従来の予想オッズ算出方法問題点 ● 精度が投票数に左右される「俺プロ」での一般投票を元にオッズ算出

Slide 16

Slide 16 text

©MIXI 16 従来の予想オッズ算出方法問題点 ● 精度が投票数に左右される ● 意図的な投票操作をされる可能性がある「俺プロ」での一般投票を元にオッズ算出

Slide 17

Slide 17 text

©MIXI 17 「予想オッズ」から「予測オッズ」へ算出方法問題点 ● 精度が投票数に左右される ● 意図的な投票操作をされる可能性がある「俺プロ」での一般投票を元にオッズ算出過去のオッズとレース情報からAIでオッズ予測 ● 投票数による精度のばらつきが無い ● 人為的な影響を受けなくなる ↳ ↳

Slide 18

Slide 18 text

©MIXI 18 「予測オッズ」について

Slide 19

Slide 19 text

©MIXI 19 予測オッズ開発の変革 : ベースモデル概要 AIに学習させる値(ラベル) 概要前処理モデル後処理馬/騎手/場に対して統計/カテゴリ変換等を行う(詳細は割愛) LightGBMを用いた回帰予測(支持率の数値を出力) レース毎に比率に直した後オッズに変換オッズ支持率

Slide 20

Slide 20 text

©MIXI 20 ラベルに支持率を採用している理由オッズ支持率 ● 値が小さいほどより上位の人気馬 Ø オッズが1倍に近づくと共に、予測値が負値に近づく ● 後処理での比率計算がしづらい ü 値が大きいほどより上位人気の馬となる Ø オッズが1倍に近づくと共に、予測値が負値から遠ざかる ü 後処理での比率計算がしやすい

Slide 21

Slide 21 text

©MIXI 21 予測オッズ開発の変革 : ベースモデル構成図

Slide 22

Slide 22 text

©MIXI 22 ベースモデル学習/予測フロー

Slide 23

Slide 23 text

©MIXI 23 ● 単体予測であり、レースでの力関係が考慮されていない ● 後処理で出力調整をしているため、予測値とラベル値が一致しない ● 下位順位になるほど、予測値が負値になる可能性が高くなる Ø 予測オッズが100倍の場合、学習する支持率のラベルは0.008となるベースモデルの問題点

Slide 24

Slide 24 text

©MIXI 24 ● 単体予測であり、レースでの力関係が考慮されていない ● 後処理で出力調整をしているため、予測値とラベル値が一致しない ● 下位順位になるほど、予測値が負値になる可能性が高くなる Ø 予測オッズが100倍の場合、学習する支持率のラベルは0.008となるベースモデルの問題点 ↳ ↳ ↳ ランク学習を導入するモデル内で比率計算を行えるような構成にする出力値に負値が含まれないようにする

Slide 25

Slide 25 text

Slide 26

Slide 26 text

©MIXI 26 ● CatBoostで提供されているランク学習アルゴリズムの一種 ● グループ内のTop1を予測する際に使用される ● 最終出力がグループ内の確率値になることを利用し、支持率を予測 QuerySoftmaxとは 1 0 0 0.6 0.3 0.1 文章のTop1を予測する場合レースの支持率を予測する場合 0.47 0.31 0.22 0.50 0.27 0.23

Slide 27

Slide 27 text

Slide 28

Slide 28 text

©MIXI 28 予測オッズ開発の変革 : 現行モデル概要 AIに学習させる値概要前処理モデル後処理馬/騎手/場に対して統計/カテゴリ変換等を行う(詳細は割愛) 1. CatBoostを用いた順位予測(PairLogit) 2. CatBoostを用いた支持率予測(QuerySoftmax) 出力値をオッズに変換 (比率変換は不要) オッズ支持率

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

©MIXI 35 まとめ ● 予想オッズ改善の背景について Ø 集合知による「予想オッズ」からAIによる「予測オッズ」にすることで、投票数や人為的な操作を受け付けないように ● 予測オッズ手法について Ø 支持率を予測して、後処理でオッズに変換することでオッズを予測 Ø ランク学習を用いることで、出走馬の力関係を考慮した支持率予測に対応 Ø QuerySoftmaxを用いることで、比率計算を含んだ損失計算に対応 Ø 数値精度、および順位精度において、従来モデルより高精度に