AkarengaLT#11 python

Pythonで競馬予想してみた 1 2022年3月5日AkarengaLT

目次 2 1.自己紹介 2.競馬とは 3.機械学習とは 4.今回実装する目標 5.作成するにあたって 6.前処理について 7.モデルについて 9.結果
10.おわりに

自己紹介 3

高橋拓也年齢：23歳 Python歴：大体1年ぐらい健康食品通販のWeb販売をおこなっていた。最近はまっていること RailsDockerを使ったアプリケーションの開発 FF14、Valorant、steamゲーム、アニメ Discord：eleva0729#3352 chatwork：t_takuya0729
4

作ろうと思ったきっかけ • PDCAサイクルを回しやすい →レースは基本土日に行われており、結果をもとに改善しやすい。 • 自分で予想しても当たらなくなったので機械にやってもらおうと思った。 • 楽して儲けたかった。。。 5

競馬とは 6

競馬とは • 競馬とは、騎手が馬に乗り、決められたコースの距離を走り、一番早く走るスピードを競う競技、およびその着順を予想するものです。 • 賭け方の種類は1着の馬を当てる単勝、3着以内に来る馬を当てる複勝、 1着、2着、3着となる馬を着順通りに的中させる3連単などたくさんあります。 7

機械学習とは 8

機械学習とは • 機械学習とは、AIが人間のように高度な判断を実行するに必要な「法則」をコンピューターに探させる方法（アルゴリズム）の総称 • 機械学習でできることは画像認識、音声認識、自然言語処理、予測などに使われている。 Pythonによる機械学習入門より引用 9

今回実装する目標 10

今回実装する目標 • 回収率を100％以上を目標にする • 賭け方に関しては単勝・複勝にする • 目的変数は3着以内に来た馬を0-1変数に変換にして作成する 11

作成するにあたって 12

今回使用するライブラリー 13

今回使用するバージョン • Python：3.6 • Pandas：1.1.5 • Numpy：1.19.5 • scikit-learn：0.24.2 •
Lightgbm：3.3.0 • Tensorflow：2.6.0 etc... 14

作成フロー 15 前処理 • 特徴量生成 • 主成分分析 etc... モデル •
LightGBM • TensorFlow 予測 • 確率で表示

今回使用するデータの中身 Targetから習得(有料) https://jra-van.jp/target/index.html 本当はnetkeiba.comさんからスクレイピングをした方がいいのだがデータの中身はこちらから https://kashiwapro.hatenablog.com/entry/2021/10/29/162155 16

前処理について 17

前処理 • 騎手・父馬・母父馬・父馬タイプを主成分分析・ Target Encodingで作成する。 • 前走の成績・過去5戦の成績を作成する。 • 四則演算を中心に特徴量を作成する。 GitHub:
https://github.com/KHTTakuya/KeibaPrediction 18

前処理で利用するライブラリー 19

主成分分析 • 主成分分析とは、たくさんの量的な説明変数をより少ない指標や合成変数（複数の変数が合体したもの）に要約する手法 • 今回の場合は10個の変数を主成分分析すると、1つの要素で約6割変数の内容を説明できる。
20 騎手データ 0 0.599803 1 0.700485 2 0.780361 3 0.840323 4 0.889738 5 0.924274 6 0.947155 7 0.969340 8 0.985989 9 1.000000

主成分分析 21 df = df[df['days'] < datetime(2021, 1, 1)] df.loc[df['result']
>= 4, 'result'] = 0 df.loc[(df['result'] <= 3) & (df['result'] >= 1), 'result'] = 1 # 各ジョッキーコース別の複勝率（2021年1月1日まで集計対象） table_jockey = pd.pivot_table(df, index='jocky', columns='place', values='result', aggfunc='mean', dropna=False) table_jockey = table_jockey.fillna(0) table_jockey = pd.DataFrame(table_jockey) table_jockey = table_jockey.round(4) table_jockey = table_jockey.add_prefix('jockey_') # 主成分分析：次元削除 pca = PCA() pca.fit(table_jockey) df_score = pd.DataFrame(pca.transform(table_jockey), index=table_jockey.index) df_score = df_score.loc[:, :5] df_score = pd.DataFrame(data=df_score) df_score = df_score.rename(columns={0: 'jockey_pca1', 1: 'jockey_pca2', 2: 'jockey_pca3', 3: 'jockey_pca4', 4: 'jockey_pca5', 5: 'jockey_pca6'})

Target Encoding • Target Encodingとは一般的に説明変数に含まれるカテゴリ変数と目的変数を元にして特徴量を作り出す。 • 今回は騎手名をカテゴリ変数として特徴量を作成している。
22 jocky flag holdout_ts 津村明秀 0 0.137001 井上敏樹 0 0.050512 吉田隼人 0 0.173719 秋山真一 0 0.1422 藤岡康太 1 0.160703 ... ... ... 小崎綾也 1 0.104527 富田暁 0 0.082949 川又賢治 0 0.103596 浜中俊 0 0.228835 国分恭介 0 0.074155

Target Encoding 23

前走成績 24 Name_days_df = df[[“horsename”, “place”, “turf”, “distance”, “days”, “pop”,
“odds”, “rank3”, “rank4”, “3ftime”, “result”, ‘speedindex’, ‘last_race_index’, ‘count’, ‘rentai’]].sort_values([‘horsename’, ‘days’]) name_list = name_days_df[‘horsename’].unique() df_shift_list = [] df_rolling_list = [] For name in name_list: name_df = name_days_df[name_days_df[‘horsename'] == name] shift_name_df = name_df[["place", "turf", "distance", "pop", "odds", "rank3", "rank4", "3ftime", "result", 'speedindex', 'last_race_index']].shift(1) rolling_name_df = name_df[["pop", "odds", "3ftime", 'speedindex', "result", 'count', 'rentai']].rolling(5, min_periods=1)¥ .agg(agg_list).shift(1) shift_name_df['horsename'] = name rolling_name_df['horsename'] = name df_shift_list.append(shift_name_df) df_rolling_list.append(rolling_name_df)

特徴量の生成 25 # 特徴量生成 df['flag_konkan'] = (df['distance'] % 400 ==
0).astype(int) df['flag_pre_konkan'] = (df['pre_distance'] % 400 == 0).astype(int) df['odds_hi'] = (df['odds'] / df['pop']) df['re_odds_hi'] = (df['pre_odds'] / df['pre_pop']) df['odds_hi*2'] = df['odds_hi'] ** 2 df['re_odds_hi*2'] = df['re_odds_hi'] ** 2 df['re_3_to_4time'] = (df['pre_rank4'] - df['pre_rank3']) df['re_3_to_4time_hi*2'] = (df['pre_rank4'] / df['pre_rank3']) ** 2 df['re_pop_now_pop'] = (df['pre_pop'] - df['pop']) df['re_odds_now_odds'] = (df['pre_odds'] - df['odds']) df['re_result_to_pop'] = (df['pre_result'] - df['pre_pop']) df['popmax_popmin'] = df['popmax'] - df['popmin'] df['oddsmax_oddsmin'] = df['oddsmax'] - df['oddsmin'] df['rentai_ritu'] = (df["rentai5sum"] / df["count5sum"]).round(3)

モデルについて 26

モデルで利用するライブラリー 27

カテゴリ変数化 df = df.astype({'distance': 'string', 'pre_distance': 'string'}) cat_cols = ['place',
'turf', 'distance', 'weather', 'condition', 'sex', 'horsename', 'trainer', 'pre_place', 'pre_turf', 'pre_distance'] for c in cat_cols: le = LabelEncoder() le.fit(df[c]) df[c] = le.transform(df[c]) df['days'] = pd.to_datetime(df['days']) df = df.dropna(how='any') drop_list = ['days', 'raceid', 'result', 'racenum', 'class', 'jocky', 'horsecount', 'weight', 'father', 'mother', 'fathertype', 'legtype', 'fathermon’] LightGBMはカテゴリ変数を読み込めるので使用する。しかしTensorflowを使う場合は(調べた限り)カテゴリ変数を使うことができない感じでしたのでダミー変数化や targetencodingで直していきます。 28

(補足)ダミー変数化 df = df.replace({'distance': [1000, 1200, 1400, 1500]}, 'sprint') df
= df.replace({'distance': [1600, 1700, 1800]}, 'mile') df = df.replace({'distance': [2000, 2200, 2300, 2400]}, 'middle') df = df.replace({'distance': [2500, 2600, 3000, 3200, 3400, 3600]}, 'stayer') df = df.replace({'pre_distance': [1000, 1200, 1400, 1500]}, 'sprint') df = df.replace({'pre_distance': [1600, 1700, 1800]}, 'mile') df = df.replace({'pre_distance': [2000, 2200, 2300, 2400]}, 'middle') df = df.replace({'pre_distance': [2500, 2600, 3000, 3200, 3400, 3600]}, 'stayer') columns_list = ['place', 'class', 'turf', 'weather', 'distance', 'condition', 'sex', 'pre_place', 'pre_turf', 'pre_distance'] df = pd.get_dummies(df, columns=columns_list) df = df.drop(['father', 'mother', 'fathermon', 'fathertype', 'legtype', 'jocky', 'trainer'], axis=1) このようにダミー変数化をした際に特徴量の数を増やし過ぎないようにグループを作って変数化する。 29

params = { 'task': 'predict', 'objective': 'binary', 'verbosity': -1, }
model = lgb.train( params, lgb_train, categorical_feature=cat_cols, valid_sets=lgb_eval, num_boost_round=100, early_stopping_rounds=10, ) best_params = model.params model = lgb.train( best_params, lgb_train, categorical_feature=cat_cols, valid_sets=lgb_eval, num_boost_round=100, # 100 early_stopping_rounds=10, # 20 ) lightGBMのハイパーパラメータの作成は自動最適化フレームワークoptunaを利用して作成モデル(LightGBM) 30

model = keras.Sequential([ keras.layers.Dense( 256, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dense( 128, activation='relu',
input_shape=(train_features.shape[-1],)), keras.layers.Dense( 128, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dropout(0.1), keras.layers.Dense( 256, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dense( 128, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dense( 128, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dropout(0.1), keras.layers.Dense( 256, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dense( 128, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dense( 128, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dropout(0.1), keras.layers.Dense( 256, activation='relu', input_shape=(train_features.shape[-1],)), keras.layers.Dense(1, activation='sigmoid', bias_initializer=output_bias), ]) Tensorflowのドキュメントを利用して作成しています。右のコードのように層を作成していく。 http://marupeke296.com/IKDADV_DL_No2_Keras.html モデル(Tensorflow) 31

予想結果 32

モデルの評価 • TensorFlow binary_logloss: 0.5291 accuracy: 0.7176 • LightGBM binary_logloss:
0.4118 accuracy: 0.80951 正確度(Accuracy)が割といい感じにできているが Loglossが高くなっている。 →競馬予想であるため高くなるのは必然的な気がする。 33

実際の予想結果 • 今回は2月27日に行われたレースを対象とする。 35レースを対象に一番予想確率が高い馬1頭に単勝複勝100円ずつ入れた場合とする。 ※但し新馬戦、障害レースは除外しています。 34

結果 • 合計は8,300円で回収率は119％と目標である回収率100%を達成することができた。 • 場所別でみると • 中山競馬場：回収率136％ •
阪神競馬場：回収率110％ • 小倉競馬場：回収率95％ 35 単勝複勝合計 ¥3,960 ¥4,340 回収率 113% 124% 的中数 12 27 的中率 34% 77%

結論競馬の予測はいい感じにできたのでよかった。機械学習の勉強にもわりと向いている気がします。競馬は知れば知るほど面白いので是非お試しにやってみてはいかがでしょうか 36

おわりに 37

今後 • 現在は競馬予想を楽しめるようにDjangoを使ってWebアプリケーションを作成しデプロイしたものの改善点は多い • 改善するために、Railsを使って開発中 38

さいごに <使用可能言語/ツール> 得意言語：Python Django (Django-Rest-Framework) /Ruby on Rails / Pandas
/ TensorFlow / React.js / AWS / GCP / Docker データ分析やWebアプリケーションの開発やりたいです。もし気になりましたらFaceBookなどメッセージをいただけると幸いです！ 39

補足 GitHub https://github.com/KHTTakuya/KeibaPrediction Qiita https://qiita.com/KHTTakuya/items/35ea5e710f0fb3aa86e4 ホームページ https://eleva-guatemala.com 40

ご清聴ありがとうございました！ 41

AkarengaLT#11 python

AkarengaLT#11 python

Other Decks in Technology

Featured

Transcript