Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ABEJA Tech LT #4 ~野球×データで次の投球を予測する!~

Ade0cb4143c001fef8ca5aa320c2eb1d?s=47 ABEJA
April 05, 2022

ABEJA Tech LT #4 ~野球×データで次の投球を予測する!~

Ade0cb4143c001fef8ca5aa320c2eb1d?s=128

ABEJA

April 05, 2022
Tweet

More Decks by ABEJA

Other Decks in Technology

Transcript

  1. 開始: 19:00 開始までしばらくお待ちください # abejatech イベントに関するツイートはこちら! QRコードからツイート画面が開きます

  2. ABECONとは? 毎週金曜日に行われる、社内有志が持ち寄った楽しい技術や、話したい趣味を語り合う会、 ABEJA CONFERENCE、略してABECONです。 オフィスの皆が一堂に集まり、週末の夜に盛り上がる会を月に一度だけ外部にも公開いたします。 それでは乾杯の準備はよろしいでしょうか!

  3. 1. Chatの宛先をご確認ください! • 宛先がデフォルトで「主催者」になっています • 発表に対するコメント等は「全員」に設定して 投稿いた だければ幸いです! • お気軽に、8888等の拍手喝采をお願いいたします 2.

    Tweetも大歓迎です! # abejatech イベント用ハッシュタグ
  4. Confidential 本日のスケジュール 随時質問を募集しております!( zoom上のコメントでもTwitterでも大丈夫です) 時間 コンテンツ 登壇者 19:00 乾杯 19:00-19:10

    オープニング 19:10-19:40 本題 ABEJA(金谷) ABEJA(松村) 19:40-20:00 質疑応答、クロージング
  5. Confidential 自己紹介 松村 和樹 • 2021年5月~ABEJAデータサイエンスチーム • リモートワークfrom広島 • もちろんカープファン

    • スポーツ全般見るのも自分がやるのも分析するのも好き
  6. Confidential 自己紹介 金谷 翔平 • 2021年4月~ABEJA システム開発グループ • AIソリューションのシステム開発を担当 •

    趣味で野球やサッカーのデータ分析 • 中日ドラゴンズファン
  7. 会社紹介

  8. 本社所在地 〒107-0061 東京都港区北青山二丁目14番4号 the ARGYLE aoyama 「WeWork」6階 設立 2012年9月10日 Tagline

    ゆたかな世界を、実装する Implement a Fruitful World Vision イノベーションで世界を変える We change the world through our innovation. Mission テクノロジーの力で産業構造を変革する We will reform industrial structures with the force of our technology. Entrepreneurship “Technopreneurship” Liberal Arts Technology 両者の円環を推進する原動力 テクノプレナーシップ リベラルアーツで自らの行為を 問い続ける姿勢 テクノロジーでイノベーションを 実現して社会貢献をする姿勢 Society Culture 我々が目指すゆたかな世界を実現するために、新たなテクノロジーを社会 実装するだけでなく、正しい創造性・人間性・倫理観をもって活用する姿勢 を常に問い続けます。 会社概要 ABEJAの世界観・使命 ABEJAの行動精神
  9. 主要事業 個別企業のDXニーズに対しては特化したサービスを、複数企業に共通する課題に対しては汎用的な仕組みやサービスをご提供 ソリューション領域 ABEJA Platformを活用し、個別企業に対して、 DXニーズに対応したプロフェッショナルサービスを提供 上流工程 グランドデザイン策定・ DX/AI戦略策定 中流工程

    BPR・モデル開発・評価・運用設計・人材戦略策定 下流工程 インテグレーション・ BPO・DX/AI研修 運用工程 実運用・再学習・グロース プロダクト領域 ABEJA Platform上に構築した様々なシステムを、 複数企業に対して、汎用的な仕組み・サービスとして提供 AI実装によるDXのステップを一気通貫で実現する、様々な機能群を整備・統合したソフトウェア群 技術パートナー企業: Horizontal レコメンデーションシステム 修理部品特定システム 需要予測システム Vertical 小売 流通 不動産 etc. etc.
  10. 発表パート

  11. Confidential 全体の流れ ②データの前処理 ①テーマ選定/データ収集 ③EDA/特徴量作成 ④モデル作成 今回は②、③にフォーカスします! 野球ドメインの知識からデータを分析し、どの ようにEDAを行うかご紹介します

  12. 野球界でのデータ活用

  13. Confidential 野球界でのデータ活用の歴史 • MLBでは財力のある球団による主力選手の引き抜きが多発 • アスレチックスの当時 GMビリー・ビーン氏がデータを活用して、 低年俸でも勝てるチームづくりを目指した ※1   

    セイバーメトリクス(統計学的アプローチ) 2000年代 • スタットキャストの登場により、選手の動きなど取得できるデータ が広大化 (スイング速度、打球速度・角度、回転数、走行速度など )    スタットキャスト(データ解析ツール) 2010年代 財力の時代から、強くなるためのデータ活用へ  多様なデータに基づく、戦略の変化        ※1 早川書房 マネー・ボール マイケル・ルイス著 • 打率が高く、本塁打の多いスター選手は高年俸で手が出せないため、多 少打率が低くても出塁率が高い (アウトになりにくい)選手を集める • バント・盗塁をむやみにやらない 当時の方針 • スタットキャストのデータから打球速度 158km/h以上、打球角度 30度前後 が本塁打になりやすいと判明 • 三振数は激増するなどの結果にも フライボール革命
  14. 今日のテーマ

  15. Confidential 今日のテーマ やったこと 1. 投球の結果が、カウント、イニング、投手、打者によってどうなるかを予測 2. 特定の状況で、どんな球種を投げるか、どこに投げるのかも分析 たとえば、9回裏2アウト満塁フルカウントで、山本由伸選手が柳田悠岐選手に投じた 1 球の行方は?

    使用したデータ • Probspace様の野球コンペのデータ( 2020年の1球単位での投球結果データ) • 使用許可ありがとうございます! データの詳細 • 訓練データ :2020年6月下旬のデータ(20,400件) • テストデータ:2020年7月~11月のデータ(33,808件) ◦ 投球後にわかる情報(球速,球種)などは訓練データのみに含まれている ◦ 投球結果はストライク,ボール,ファール,アウト,ヒット,2塁打,3塁打,ホームラン の8パターン
  16. Confidential 今回使用するデータについて カラム名 例 説明 totalPitchingCount 1 各打席の投球が何球目か B 0

    ボールカウント S 1 ストライクカウント O 0 アウトカウント b1 FALSE 1塁にランナーがいるか b2 TRUE 2塁にランナーがいるか b3 TRUE 3塁にランナーがいるか pitcher - ピッチャー名(NaNを含む) pitcherHand L 右投げか左投げか batter - バッター名(NaNを含む) batterHand R 右打ちか左打ちか inning 1回表 イニング startDayTime 2020-06-19 18:00:00 試合開始日時 カラム名 例 説明 pitchType ストレート 球種 speed 149km/h 投球速度 ballPositionLabel 内角低め 投球位置 ballX 17 投球のX座標(1-21) ballY J 投球のY座標(A-K) dir S 打球方向(A-Z) dist 38.3 打球距離 battingType ゴロ 打球種類(バント, ゴロ, ポップフライ, フライ, ライ ナー) y ヒット 投球結果(ボール, ストライク, ファウル, アウト, シ ングルヒット, 二塁打, 三塁打, ホームラン) 投球前から取得できるデータ 投球後に取得できるデータ
  17. None
  18. None
  19. データの前処理

  20. ➢ 欠損値処理 ◦ trainデータのpitcherHand、batterHand、dir、dist、battingTypeに欠損値が含 まれている ◦ testデータのpitcher、pitcherHand、batterHandに欠損値が含まれている 前処理

  21. pitcherHandの欠損値処理 pitcherカラムが一致している他のデータを参照し、欠損値を埋める

  22. batterHandの欠損値処理 pitcher同様、batterカラムが一致している他のデータを参照し、欠損値を埋める

  23. イニング,スピードの前処理 ➢ 正規表現を使用して、必要な情報を取得する ◦ inning(1回表)はイニング数と表裏で分割し、カラムを作成する ◦ speedは単位を外し数値のみにする

  24. EDA

  25. ➢ 投球結果の分布 ➢ カウントと結果の関係性 ➢ カウント + 選手と結果の関係性 ➢ 投球の高低・球種・球速について

    ➢ コースと球速について ➢ 投球イニングと結果の関係性 EDAについて
  26. Confidential 投球結果の分布 1球ごとで見ると、打球が前に飛んだ 比率はかなり低い。。 (ストライク+ボール+ファールでおよそ 8割を占めている)

  27. B: ボールカウント (0~3) S: ストライクカウント(0~2) カウントによって結果は変化するのか?

  28. ➢ ストライクカウント ◦ 3ストライクになるとアウト(バッターの負け) ◦ 2ストライクになった時点で、バッターはヒットを狙わなければならない ◦ ピッチャー側が有利なカウントではどのような結果になるのか? カウントによって結果は変化するのか?

  29. ストライクカウントに対する結果を可視化 ➢ 0ストライク ◦ ストライクorボールが約8割 ➢ 2ストライク ◦ ストライクカウントが増えるにつれて ストライクになる割合が減る

    ◦ ファール・アウト・ヒットの割合も増え る ストライクカウント数
  30. ➢ ボールカウント ◦ 4ボールになると出塁(ピッチャーの負け) ◦ 3ボールになった時点で、ピッチャーはストライクを取らなければならない ◦ バッター側が有利なボールカウントではどのような結果になるのか? カウントによって結果は変化するのか?

  31. ボールカウントに対する結果を可視化 ➢ 0ボール ◦ ストライクorボールが約8割 ➢ 2ボール ◦ アウトの割合が一番多い →3ボールになるとピッチャー不利のため、勝負

    になることが多いカウント? ➢ 3ボール ◦ ヒットの割合が増える ◦ ボールの割合も意外と多い ボールカウント数
  32. 0ボール 1ボール 2ボール 3ボール 0ストライク 1ストライク 2ストライク B_Sに対する結果を可視化

  33. 0ボール 1ボール 2ボール 3ボール 0ストライク 1ストライク 2ストライク 打者に有利なカウント 投手に有利なカウント 勝負のカウント

    B_Sに対する結果を可視化
  34. • B + Sのカラムを作成 • 0_0〜3_2の12種類 • 学習時にはB + S

    + Oの特徴量も作成して いるが、B + Sのみ掲載 ストライクカウントとボールカウントから特徴量作成
  35. ➢ 打者ごとに、初級からヒットを狙いにいくタイプや慎重に球を見極めるタイプなど様々 ➢ 前ページまでに記載した B_Sのカウントと打者の傾向を可視化する ➢ データ数の多い初球 (0_0)のデータのみ掲載 打者のカウントと結果の関係性

  36. 打者のカウントと結果の関係性 • 初球は様子をみるタイプ 西川 遥輝 糸原 健斗 全選手平均

  37. 打者のカウントと結果の関係性 • 初球から積極的に打つタイプ 坂本 勇人 西川 龍馬 全選手平均

  38. 打者のカウントと結果の関係性 • 強打者タイプ 浅村 栄斗 岡本 和真 全選手平均

  39. • 選手名 + B_Sのカラムを作成 ストライクカウントとボールカウントから特徴量作成

  40. Confidential 投球コースについて 図:投球コースごとの構成比 赤枠:ストライクゾーン ヒートマップの色:赤に近いほど投球の 比率が高いゾーン

  41. Confidential 投球の高低と結果について 図:投球の高低ごとの結果の構成比 ・当然だが、極端に高めや低めの球 はボールになっている ・ど真ん中にいくと打たれやすい ・ボールの高低の比率という特徴量を 作ると有効なのでは ?

  42. Confidential 投球の球種と球速について 図:投球の球種ごとの球速 ・一番早いストレートは平均で 145km程度、一 番遅いカーブは115km程度。30km差があると かなり打ちにくそう。。 速球系,それ以外でグルーピング 球速(km/h)

  43. Confidential 投球の高低と球種 図:ボールの高さごとの速球系 ,速球系以外の比率 ・高めは速球系が多い ・低めは変化球が多く、一番低いゾーンは おそらくワンバウンドの変化球? 高めは 速球が多い 低め

    速球以外が多い
  44. Confidential 速球系のコースと球速について 図 速球系のコースごとの球速 ・ ・全体的にインコース、高めの ボールが球速が速い。 ・そもそも高めやインコースに投げ る投手は球速が速い投手 ?

    高めの 速球が速い
  45. Confidential 速球派投手と技巧派投手の速球系投球ゾーン 図:速球派投手(最高球速150km以上),技巧派投手(最高球速145km以下)の速球系の投球ゾーン 速球派投手 技巧派投手 ・技巧派投手は速球系は外角の ボールゾーンが多い ・速球派投手は高めの比率が高 い

  46. Confidential イニングごとの球種について 図:イニングごとの球種 ・初回は速球系が多い ・中盤は変化球が増える ・終盤は速球系が多い

  47. モデル作成

  48. モデル作成に当たって追加作成した特徴量 • ここまでのEDA結果とドメイン知識をもとに以下のような特徴量を追加で作成 ◦ ボールカウント×ストライクカウント ◦ ボールカウント×ストライクカウント×アウトカウント ◦ 選手×ボールカウント×ストライクカウント ◦

    投手の高め、低めなどへの投球割合 ◦ 投手の変化球比率 ◦ 投手の平均球速 ◦ 打球の平均飛距離 ◦ 打球のタイプの比率
  49. • 今回は解釈性の高い特徴量のみ使ったのでモデルの精度はそこまでは高くならなかった。。 • ただし仮説をもとに追加作成した特徴量は効果的であった →ドメイン知識はやはり大切 予測結果 ・投手や打者が誰かという情報が効 いている ・カウントも効いている ・投手の投球コースや球種の情報も

    効いている ・b1(ランナーが一塁にいるかどう か)が二塁,三塁より効いている ・打者の打球の傾向も効いている
  50. 参考:打者ごとの打球タイプ 図:打者ごとの打球タイプの構成比 岡本 和真 中島 卓也 全選手平均

  51. 今回の振り返り/今後に向けて • 今後予測精度を上げるには ? ◦ 学習用に使えたのが、およそ 1週分のデータのみなので選手の調子の影響とか強いか も。。 ◦ 選手の走力,守備力の情報がほしい。

    ◦ 点差の情報もあるといい?接戦だと敬遠したりバントが増えるはず ◦ 投球の回転数とかのデータもほしい。遅くても空振りとれるストレートなどもある ◦ パラメータチューニング ,集約特徴量を色々追加などテクニカルな部分で工夫する • 今後やりたいこと ◦ サッカー、バスケなど他のスポーツでも分析してみたい・・! ◦ こんなテーマ面白いのではなどあれば、ぜひアンケートに記入お願いします!!
  52. ご自由にコメント下さい! 発言される場合は 「手を挙げる」ボタンから! QA Time

  53. イベントのアンケートで、興味のあるテーマなどご応募ください! conpass経由でメールにもご送付いたしました。 Google Formが開きます

  54. Confidential ABEJAでは一緒に働く仲間を募集しています! ・フレックスタイム制 ・リモートワーク  (全国のWeWorkオフィスを自由に活用できます) ・兼業可能(許可制) ・ABECON(毎週金曜日に開催する社内勉強会) ABEJAでの働き方 社内メンバー による発表

    テーマ データサイエンス、 IoT、ディープラーニング、芸術、音楽、社会学、 リベラルアーツ、法務、数学的な折り紙の話、 Art x Technology、 ロジカルライティング 社外講師に よる発表テー マ 数学講座、ビジネスで使える SQL講座、スタートアップ経営者が抱える課題の解 決策、成功までの過程で起こる試練、トポロジー 面談でもう少し詳しく話を聞きたい方は こちら 新しく出る求人やイベントの案内を希望され る方はこちら 募集中ポジション カジュアル面談 採用情報のご案内 募集中のポジションはこちら
  55. アンケートのご協力よろしくおねがいします。