$30 off During Our Annual Pro Sale. View Details »

ABEJA Tech LT #4 ~野球×データで次の投球を予測する!~

ABEJA
April 05, 2022

ABEJA Tech LT #4 ~野球×データで次の投球を予測する!~

ABEJA

April 05, 2022
Tweet

More Decks by ABEJA

Other Decks in Technology

Transcript

  1. 開始: 19:00
    開始までしばらくお待ちください
    # abejatech
    イベントに関するツイートはこちら!
    QRコードからツイート画面が開きます

    View Slide

  2. ABECONとは?
    毎週金曜日に行われる、社内有志が持ち寄った楽しい技術や、話したい趣味を語り合う会、
    ABEJA CONFERENCE、略してABECONです。
    オフィスの皆が一堂に集まり、週末の夜に盛り上がる会を月に一度だけ外部にも公開いたします。
    それでは乾杯の準備はよろしいでしょうか!

    View Slide

  3. 1. Chatの宛先をご確認ください!
    ● 宛先がデフォルトで「主催者」になっています
    ● 発表に対するコメント等は「全員」に設定して 投稿いた
    だければ幸いです!
    ● お気軽に、8888等の拍手喝采をお願いいたします
    2. Tweetも大歓迎です!
    # abejatech
    イベント用ハッシュタグ

    View Slide

  4. Confidential
    本日のスケジュール
    随時質問を募集しております!( zoom上のコメントでもTwitterでも大丈夫です)
    時間 コンテンツ 登壇者
    19:00 乾杯
    19:00-19:10 オープニング
    19:10-19:40 本題
    ABEJA(金谷)
    ABEJA(松村)
    19:40-20:00 質疑応答、クロージング

    View Slide

  5. Confidential
    自己紹介
    松村 和樹
    ● 2021年5月~ABEJAデータサイエンスチーム
    ● リモートワークfrom広島
    ● もちろんカープファン
    ● スポーツ全般見るのも自分がやるのも分析するのも好き

    View Slide

  6. Confidential
    自己紹介
    金谷 翔平
    ● 2021年4月~ABEJA システム開発グループ
    ● AIソリューションのシステム開発を担当
    ● 趣味で野球やサッカーのデータ分析
    ● 中日ドラゴンズファン

    View Slide

  7. 会社紹介

    View Slide

  8. 本社所在地
    〒107-0061 東京都港区北青山二丁目14番4号
    the ARGYLE aoyama 「WeWork」6階
    設立
    2012年9月10日
    Tagline
    ゆたかな世界を、実装する
    Implement a Fruitful World
    Vision
    イノベーションで世界を変える
    We change the world through our innovation.
    Mission
    テクノロジーの力で産業構造を変革する
    We will reform industrial structures with the force of our technology.
    Entrepreneurship
    “Technopreneurship”
    Liberal Arts
    Technology
    両者の円環を推進する原動力
    テクノプレナーシップ
    リベラルアーツで自らの行為を
    問い続ける姿勢
    テクノロジーでイノベーションを
    実現して社会貢献をする姿勢
    Society Culture
    我々が目指すゆたかな世界を実現するために、新たなテクノロジーを社会
    実装するだけでなく、正しい創造性・人間性・倫理観をもって活用する姿勢
    を常に問い続けます。
    会社概要
    ABEJAの世界観・使命
    ABEJAの行動精神

    View Slide

  9. 主要事業
    個別企業のDXニーズに対しては特化したサービスを、複数企業に共通する課題に対しては汎用的な仕組みやサービスをご提供
    ソリューション領域
    ABEJA Platformを活用し、個別企業に対して、
    DXニーズに対応したプロフェッショナルサービスを提供
    上流工程 グランドデザイン策定・ DX/AI戦略策定
    中流工程 BPR・モデル開発・評価・運用設計・人材戦略策定
    下流工程 インテグレーション・ BPO・DX/AI研修
    運用工程 実運用・再学習・グロース
    プロダクト領域
    ABEJA Platform上に構築した様々なシステムを、
    複数企業に対して、汎用的な仕組み・サービスとして提供
    AI実装によるDXのステップを一気通貫で実現する、様々な機能群を整備・統合したソフトウェア群
    技術パートナー企業:
    Horizontal
    レコメンデーションシステム
    修理部品特定システム
    需要予測システム
    Vertical
    小売
    流通
    不動産
    etc.
    etc.

    View Slide

  10. 発表パート

    View Slide

  11. Confidential
    全体の流れ
    ②データの前処理
    ①テーマ選定/データ収集
    ③EDA/特徴量作成
    ④モデル作成
    今回は②、③にフォーカスします!
    野球ドメインの知識からデータを分析し、どの
    ようにEDAを行うかご紹介します

    View Slide

  12. 野球界でのデータ活用

    View Slide

  13. Confidential
    野球界でのデータ活用の歴史
    ● MLBでは財力のある球団による主力選手の引き抜きが多発
    ● アスレチックスの当時
    GMビリー・ビーン氏がデータを活用して、
    低年俸でも勝てるチームづくりを目指した
    ※1
      
    セイバーメトリクス(統計学的アプローチ)
    2000年代
    ● スタットキャストの登場により、選手の動きなど取得できるデータ
    が広大化
    (スイング速度、打球速度・角度、回転数、走行速度など
    )
      
    スタットキャスト(データ解析ツール)
    2010年代
    財力の時代から、強くなるためのデータ活用へ  多様なデータに基づく、戦略の変化 
         
    ※1 早川書房 マネー・ボール マイケル・ルイス著
    ● 打率が高く、本塁打の多いスター選手は高年俸で手が出せないため、多
    少打率が低くても出塁率が高い (アウトになりにくい)選手を集める
    ● バント・盗塁をむやみにやらない
    当時の方針
    ● スタットキャストのデータから打球速度 158km/h以上、打球角度 30度前後
    が本塁打になりやすいと判明
    ● 三振数は激増するなどの結果にも
    フライボール革命

    View Slide

  14. 今日のテーマ

    View Slide

  15. Confidential
    今日のテーマ
    やったこと
    1. 投球の結果が、カウント、イニング、投手、打者によってどうなるかを予測
    2. 特定の状況で、どんな球種を投げるか、どこに投げるのかも分析
    たとえば、9回裏2アウト満塁フルカウントで、山本由伸選手が柳田悠岐選手に投じた
    1
    球の行方は?
    使用したデータ
    ● Probspace様の野球コンペのデータ(
    2020年の1球単位での投球結果データ)
    ● 使用許可ありがとうございます!
    データの詳細
    ● 訓練データ :2020年6月下旬のデータ(20,400件)
    ● テストデータ:2020年7月~11月のデータ(33,808件)
    ○ 投球後にわかる情報(球速,球種)などは訓練データのみに含まれている
    ○ 投球結果はストライク,ボール,ファール,アウト,ヒット,2塁打,3塁打,ホームラン
    の8パターン

    View Slide

  16. Confidential
    今回使用するデータについて
    カラム名 例 説明
    totalPitchingCount 1 各打席の投球が何球目か
    B 0 ボールカウント
    S 1 ストライクカウント
    O 0 アウトカウント
    b1 FALSE 1塁にランナーがいるか
    b2 TRUE 2塁にランナーがいるか
    b3 TRUE 3塁にランナーがいるか
    pitcher - ピッチャー名(NaNを含む)
    pitcherHand L 右投げか左投げか
    batter - バッター名(NaNを含む)
    batterHand R 右打ちか左打ちか
    inning 1回表 イニング
    startDayTime
    2020-06-19
    18:00:00
    試合開始日時
    カラム名 例 説明
    pitchType ストレート 球種
    speed 149km/h 投球速度
    ballPositionLabel 内角低め 投球位置
    ballX 17 投球のX座標(1-21)
    ballY J 投球のY座標(A-K)
    dir S 打球方向(A-Z)
    dist 38.3 打球距離
    battingType ゴロ
    打球種類(バント, ゴロ, ポップフライ, フライ, ライ
    ナー)
    y ヒット
    投球結果(ボール, ストライク, ファウル, アウト, シ
    ングルヒット, 二塁打, 三塁打, ホームラン)
    投球前から取得できるデータ 投球後に取得できるデータ

    View Slide

  17. View Slide

  18. View Slide

  19. データの前処理

    View Slide

  20. ➢ 欠損値処理
    ○ trainデータのpitcherHand、batterHand、dir、dist、battingTypeに欠損値が含
    まれている
    ○ testデータのpitcher、pitcherHand、batterHandに欠損値が含まれている
    前処理

    View Slide

  21. pitcherHandの欠損値処理
    pitcherカラムが一致している他のデータを参照し、欠損値を埋める

    View Slide

  22. batterHandの欠損値処理
    pitcher同様、batterカラムが一致している他のデータを参照し、欠損値を埋める

    View Slide

  23. イニング,スピードの前処理
    ➢ 正規表現を使用して、必要な情報を取得する
    ○ inning(1回表)はイニング数と表裏で分割し、カラムを作成する
    ○ speedは単位を外し数値のみにする

    View Slide

  24. EDA

    View Slide

  25. ➢ 投球結果の分布
    ➢ カウントと結果の関係性
    ➢ カウント + 選手と結果の関係性
    ➢ 投球の高低・球種・球速について
    ➢ コースと球速について
    ➢ 投球イニングと結果の関係性
    EDAについて

    View Slide

  26. Confidential
    投球結果の分布
    1球ごとで見ると、打球が前に飛んだ
    比率はかなり低い。。
    (ストライク+ボール+ファールでおよそ
    8割を占めている)

    View Slide

  27. B: ボールカウント (0~3)
    S: ストライクカウント(0~2)
    カウントによって結果は変化するのか?

    View Slide

  28. ➢ ストライクカウント
    ○ 3ストライクになるとアウト(バッターの負け)
    ○ 2ストライクになった時点で、バッターはヒットを狙わなければならない
    ○ ピッチャー側が有利なカウントではどのような結果になるのか?
    カウントによって結果は変化するのか?

    View Slide

  29. ストライクカウントに対する結果を可視化
    ➢ 0ストライク
    ○ ストライクorボールが約8割
    ➢ 2ストライク
    ○ ストライクカウントが増えるにつれて
    ストライクになる割合が減る
    ○ ファール・アウト・ヒットの割合も増え

    ストライクカウント数

    View Slide

  30. ➢ ボールカウント
    ○ 4ボールになると出塁(ピッチャーの負け)
    ○ 3ボールになった時点で、ピッチャーはストライクを取らなければならない
    ○ バッター側が有利なボールカウントではどのような結果になるのか?
    カウントによって結果は変化するのか?

    View Slide

  31. ボールカウントに対する結果を可視化
    ➢ 0ボール
    ○ ストライクorボールが約8割
    ➢ 2ボール
    ○ アウトの割合が一番多い
    →3ボールになるとピッチャー不利のため、勝負
    になることが多いカウント?
    ➢ 3ボール
    ○ ヒットの割合が増える
    ○ ボールの割合も意外と多い
    ボールカウント数

    View Slide

  32. 0ボール 1ボール 2ボール 3ボール
    0ストライク
    1ストライク
    2ストライク
    B_Sに対する結果を可視化

    View Slide

  33. 0ボール 1ボール 2ボール 3ボール
    0ストライク
    1ストライク
    2ストライク
    打者に有利なカウント
    投手に有利なカウント
    勝負のカウント
    B_Sに対する結果を可視化

    View Slide

  34. ● B + Sのカラムを作成
    ● 0_0〜3_2の12種類
    ● 学習時にはB + S + Oの特徴量も作成して
    いるが、B + Sのみ掲載
    ストライクカウントとボールカウントから特徴量作成

    View Slide

  35. ➢ 打者ごとに、初級からヒットを狙いにいくタイプや慎重に球を見極めるタイプなど様々
    ➢ 前ページまでに記載した B_Sのカウントと打者の傾向を可視化する
    ➢ データ数の多い初球 (0_0)のデータのみ掲載
    打者のカウントと結果の関係性

    View Slide

  36. 打者のカウントと結果の関係性
    ● 初球は様子をみるタイプ
    西川 遥輝 糸原 健斗
    全選手平均

    View Slide

  37. 打者のカウントと結果の関係性
    ● 初球から積極的に打つタイプ
    坂本 勇人 西川 龍馬
    全選手平均

    View Slide

  38. 打者のカウントと結果の関係性
    ● 強打者タイプ
    浅村 栄斗 岡本 和真
    全選手平均

    View Slide

  39. ● 選手名 + B_Sのカラムを作成
    ストライクカウントとボールカウントから特徴量作成

    View Slide

  40. Confidential
    投球コースについて
    図:投球コースごとの構成比
    赤枠:ストライクゾーン
    ヒートマップの色:赤に近いほど投球の
    比率が高いゾーン

    View Slide

  41. Confidential
    投球の高低と結果について
    図:投球の高低ごとの結果の構成比
    ・当然だが、極端に高めや低めの球
    はボールになっている
    ・ど真ん中にいくと打たれやすい
    ・ボールの高低の比率という特徴量を
    作ると有効なのでは ?

    View Slide

  42. Confidential
    投球の球種と球速について
    図:投球の球種ごとの球速
    ・一番早いストレートは平均で 145km程度、一
    番遅いカーブは115km程度。30km差があると
    かなり打ちにくそう。。
    速球系,それ以外でグルーピング
    球速(km/h)

    View Slide

  43. Confidential
    投球の高低と球種
    図:ボールの高さごとの速球系
    ,速球系以外の比率
    ・高めは速球系が多い
    ・低めは変化球が多く、一番低いゾーンは
    おそらくワンバウンドの変化球?
    高めは
    速球が多い
    低め
    速球以外が多い

    View Slide

  44. Confidential
    速球系のコースと球速について
    図 速球系のコースごとの球速

    ・全体的にインコース、高めの
    ボールが球速が速い。
    ・そもそも高めやインコースに投げ
    る投手は球速が速い投手 ?
    高めの
    速球が速い

    View Slide

  45. Confidential
    速球派投手と技巧派投手の速球系投球ゾーン
    図:速球派投手(最高球速150km以上),技巧派投手(最高球速145km以下)の速球系の投球ゾーン
    速球派投手 技巧派投手
    ・技巧派投手は速球系は外角の
    ボールゾーンが多い
    ・速球派投手は高めの比率が高

    View Slide

  46. Confidential
    イニングごとの球種について
    図:イニングごとの球種
    ・初回は速球系が多い
    ・中盤は変化球が増える
    ・終盤は速球系が多い

    View Slide

  47. モデル作成

    View Slide

  48. モデル作成に当たって追加作成した特徴量
    ● ここまでのEDA結果とドメイン知識をもとに以下のような特徴量を追加で作成
    ○ ボールカウント×ストライクカウント
    ○ ボールカウント×ストライクカウント×アウトカウント
    ○ 選手×ボールカウント×ストライクカウント
    ○ 投手の高め、低めなどへの投球割合
    ○ 投手の変化球比率
    ○ 投手の平均球速
    ○ 打球の平均飛距離
    ○ 打球のタイプの比率

    View Slide

  49. ● 今回は解釈性の高い特徴量のみ使ったのでモデルの精度はそこまでは高くならなかった。。
    ● ただし仮説をもとに追加作成した特徴量は効果的であった →ドメイン知識はやはり大切
    予測結果
    ・投手や打者が誰かという情報が効
    いている
    ・カウントも効いている
    ・投手の投球コースや球種の情報も
    効いている
    ・b1(ランナーが一塁にいるかどう
    か)が二塁,三塁より効いている
    ・打者の打球の傾向も効いている

    View Slide

  50. 参考:打者ごとの打球タイプ
    図:打者ごとの打球タイプの構成比
    岡本 和真 中島 卓也
    全選手平均

    View Slide

  51. 今回の振り返り/今後に向けて
    ● 今後予測精度を上げるには ?
    ○ 学習用に使えたのが、およそ 1週分のデータのみなので選手の調子の影響とか強いか
    も。。
    ○ 選手の走力,守備力の情報がほしい。
    ○ 点差の情報もあるといい?接戦だと敬遠したりバントが増えるはず
    ○ 投球の回転数とかのデータもほしい。遅くても空振りとれるストレートなどもある
    ○ パラメータチューニング ,集約特徴量を色々追加などテクニカルな部分で工夫する
    ● 今後やりたいこと
    ○ サッカー、バスケなど他のスポーツでも分析してみたい・・!
    ○ こんなテーマ面白いのではなどあれば、ぜひアンケートに記入お願いします!!

    View Slide

  52. ご自由にコメント下さい!
    発言される場合は
    「手を挙げる」ボタンから!
    QA Time

    View Slide

  53. イベントのアンケートで、興味のあるテーマなどご応募ください!
    conpass経由でメールにもご送付いたしました。
    Google Formが開きます

    View Slide

  54. Confidential
    ABEJAでは一緒に働く仲間を募集しています!
    ・フレックスタイム制
    ・リモートワーク
     (全国のWeWorkオフィスを自由に活用できます)
    ・兼業可能(許可制)
    ・ABECON(毎週金曜日に開催する社内勉強会)
    ABEJAでの働き方
    社内メンバー
    による発表
    テーマ
    データサイエンス、
    IoT、ディープラーニング、芸術、音楽、社会学、
    リベラルアーツ、法務、数学的な折り紙の話、
    Art x Technology、
    ロジカルライティング
    社外講師に
    よる発表テー

    数学講座、ビジネスで使える
    SQL講座、スタートアップ経営者が抱える課題の解
    決策、成功までの過程で起こる試練、トポロジー
    面談でもう少し詳しく話を聞きたい方は
    こちら
    新しく出る求人やイベントの案内を希望され
    る方はこちら
    募集中ポジション
    カジュアル面談
    採用情報のご案内
    募集中のポジションはこちら

    View Slide

  55. アンケートのご協力よろしくおねがいします。

    View Slide