【D1-6】netkeibaにおける機械学習を用いた競馬オッズ予測手法の開発とその変革 | #MTDC2024 | MIXI TECH DESIGN CONFERENCE 2024

©MIXI netkeibaにおける機械学習を用いた競馬オッズ予測手法の開発とその変革氏名: 渡辺莉央開発本部 CTO室たんぽぽ室たんぽぽグループ

©MIXI 自己紹介 • 渡辺莉央 (2018年新卒) • 開発本部たんぽぽ室たんぽぽグループ • 仕事内容
Ø プロダクトへの機械学習導入検証 Ø AI関連技術の調査および検証 • 趣味 Ø ダーツ Ø テニス Ø サッカー & バスケ観戦 (Liverpool & 千葉ジェッツ)

©MIXI 本日のお品書き • netkeibaと「予想オッズ」 Ø netkeibaについて Ø 従来の予想オッズの仕組み • 競馬オッズについて
Ø オッズがわかるメリット Ø 予想オッズの算出方法 • 「予想オッズ」について Ø 「予想オッズ」の問題点 Ø 「予想オッズ」から「予測オッズ」へ • 「予測オッズ」について Ø ベースモデルと現行モデル Ø 精度検証 • まとめ

©MIXI 4 netkeibaと「予想オッズ」

©MIXI 5 netkeibaとは • 国内最大級の競馬情報サイト • 競馬を楽しむためのさまざまな情報やニュースを公開

©MIXI 6 予想オッズとは • 各レースのページ内で提供しているコンテンツのひとつ • (従来の仕様は) ユーザーの事前投票を用いた「集合知」によって算出

©MIXI 7 競馬オッズについて

©MIXI 8 オッズはどのように決められているのだろう？ Q.

©MIXI 9 50票 43票 32票 25票 0.33％ 0.29％ 0.21％ 0.17％
2.42倍 2.76倍 3.81倍 4.71倍オッズ = 払戻率(=0.8) / 支持率 A. オッズは投票比率によって決められます投票数支持率オッズ

©MIXI 10 オッズがわかると何が嬉しい？ Q.

©MIXI 11 A. 馬券購入の指標になります • オッズは、ユーザーが一番わかりやすく人気/不人気の馬を確認できる指標 • 予想印では、予想家によって印の意味が異なる可能性があり不正確
順位精度が指標の精度に影響

©MIXI 12 A. 馬券予測の期待値が計算できるようになります 40% 20% 5% 2倍 7倍 20倍
80% 100% 140% × × × オッズ精度が回収率の精度に影響馬券予測AIの仕組み勝率オッズ回収率 AIオッズ

©MIXI 13 「予想オッズ」について

©MIXI 14 従来の予想オッズ算出方法問題点「俺プロ」での一般投票を元にオッズ算出

©MIXI 15 従来の予想オッズ算出方法問題点 • 精度が投票数に左右される「俺プロ」での一般投票を元にオッズ算出

©MIXI 16 従来の予想オッズ算出方法問題点 • 精度が投票数に左右される • 意図的な投票操作をされる可能性がある「俺プロ」での一般投票を元にオッズ算出

©MIXI 17 「予想オッズ」から「予測オッズ」へ算出方法問題点 • 精度が投票数に左右される • 意図的な投票操作をされる可能性がある「俺プロ」での一般投票を元にオッズ算出
過去のオッズとレース情報からAIでオッズ予測 • 投票数による精度のばらつきが無い • 人為的な影響を受けなくなる ↳ ↳

©MIXI 18 「予測オッズ」について

©MIXI 19 予測オッズ開発の変革 : ベースモデル概要 AIに学習させる値(ラベル) 概要前処理モデル後処理
馬/騎手/場に対して統計/カテゴリ変換等を行う(詳細は割愛) LightGBMを用いた回帰予測(支持率の数値を出力) レース毎に比率に直した後オッズに変換オッズ支持率

©MIXI 20 ラベルに支持率を採用している理由オッズ支持率 • 値が小さいほどより上位の人気馬 Ø オッズが1倍に近づくと共に、予測値が負値に近づく •
後処理での比率計算がしづらい ü 値が大きいほどより上位人気の馬となる Ø オッズが1倍に近づくと共に、予測値が負値から遠ざかる ü 後処理での比率計算がしやすい

©MIXI 21 予測オッズ開発の変革 : ベースモデル構成図

©MIXI 22 ベースモデル学習/予測フロー

©MIXI 23 • 単体予測であり、レースでの力関係が考慮されていない • 後処理で出力調整をしているため、予測値とラベル値が一致しない • 下位順位になるほど、予測値が負値になる可能性が高くなる Ø 予測オッズが100倍の場合、学習する支持率のラベルは0.008となる
ベースモデルの問題点

©MIXI 24 • 単体予測であり、レースでの力関係が考慮されていない • 後処理で出力調整をしているため、予測値とラベル値が一致しない • 下位順位になるほど、予測値が負値になる可能性が高くなる Ø 予測オッズが100倍の場合、学習する支持率のラベルは0.008となる
ベースモデルの問題点 ↳ ↳ ↳ ランク学習を導入するモデル内で比率計算を行えるような構成にする出力値に負値が含まれないようにする

©MIXI 26 • CatBoostで提供されているランク学習アルゴリズムの一種 • グループ内のTop1を予測する際に使用される • 最終出力がグループ内の確率値になることを利用し、支持率を予測 QuerySoftmaxとは 1
0 0 0.6 0.3 0.1 文章のTop1を予測する場合レースの支持率を予測する場合 0.47 0.31 0.22 0.50 0.27 0.23

©MIXI 27 • 損失計算の主要部分はCross Entropy Ø y=-log(x) 0<x<1 では、値が1に近づくにつれて(誤差の)減少率が下がる順位予測モデルによるRank
Weight 支持率が低い馬(=下位人気馬)の誤差改善を優先してしまう… ↳ 順位予測モデルを追加し、重み付けすることで支持率が高い馬(=上位人気馬)を優先するようにのグラフ

©MIXI 28 予測オッズ開発の変革 : 現行モデル概要 AIに学習させる値概要前処理モデル
後処理馬/騎手/場に対して統計/カテゴリ変換等を行う(詳細は割愛) 1. CatBoostを用いた順位予測(PairLogit) 2. CatBoostを用いた支持率予測(QuerySoftmax) 出力値をオッズに変換 (比率変換は不要) オッズ支持率

©MIXI 35 まとめ • 予想オッズ改善の背景について Ø 集合知による「予想オッズ」からAIによる「予測オッズ」にすることで、投票数や人為的な操作を受け付けないように • 予測オッズ手法について
Ø 支持率を予測して、後処理でオッズに変換することでオッズを予測 Ø ランク学習を用いることで、出走馬の力関係を考慮した支持率予測に対応 Ø QuerySoftmaxを用いることで、比率計算を含んだ損失計算に対応 Ø 数値精度、および順位精度において、従来モデルより高精度に

©MIXI

【D1-6】netkeibaにおける機械学習を用いた競馬オッズ予測手法の開発とその変革 | #...

【D1-6】netkeibaにおける機械学習を用いた競馬オッズ予測手法の開発とその変革 | #MTDC2024 | MIXI TECH DESIGN CONFERENCE 2024

Video

More Decks by MIXI ENGINEERS

Other Decks in Technology

Featured

Transcript