Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ABEJA Tech LT #4 ~野球×データで次の投球を予測する!~

ABEJA
April 05, 2022

ABEJA Tech LT #4 ~野球×データで次の投球を予測する!~

ABEJA

April 05, 2022
Tweet

More Decks by ABEJA

Other Decks in Technology

Transcript

  1. 本社所在地 〒107-0061 東京都港区北青山二丁目14番4号 the ARGYLE aoyama 「WeWork」6階 設立 2012年9月10日 Tagline

    ゆたかな世界を、実装する Implement a Fruitful World Vision イノベーションで世界を変える We change the world through our innovation. Mission テクノロジーの力で産業構造を変革する We will reform industrial structures with the force of our technology. Entrepreneurship “Technopreneurship” Liberal Arts Technology 両者の円環を推進する原動力 テクノプレナーシップ リベラルアーツで自らの行為を 問い続ける姿勢 テクノロジーでイノベーションを 実現して社会貢献をする姿勢 Society Culture 我々が目指すゆたかな世界を実現するために、新たなテクノロジーを社会 実装するだけでなく、正しい創造性・人間性・倫理観をもって活用する姿勢 を常に問い続けます。 会社概要 ABEJAの世界観・使命 ABEJAの行動精神
  2. 主要事業 個別企業のDXニーズに対しては特化したサービスを、複数企業に共通する課題に対しては汎用的な仕組みやサービスをご提供 ソリューション領域 ABEJA Platformを活用し、個別企業に対して、 DXニーズに対応したプロフェッショナルサービスを提供 上流工程 グランドデザイン策定・ DX/AI戦略策定 中流工程

    BPR・モデル開発・評価・運用設計・人材戦略策定 下流工程 インテグレーション・ BPO・DX/AI研修 運用工程 実運用・再学習・グロース プロダクト領域 ABEJA Platform上に構築した様々なシステムを、 複数企業に対して、汎用的な仕組み・サービスとして提供 AI実装によるDXのステップを一気通貫で実現する、様々な機能群を整備・統合したソフトウェア群 技術パートナー企業: Horizontal レコメンデーションシステム 修理部品特定システム 需要予測システム Vertical 小売 流通 不動産 etc. etc.
  3. Confidential 野球界でのデータ活用の歴史 • MLBでは財力のある球団による主力選手の引き抜きが多発 • アスレチックスの当時 GMビリー・ビーン氏がデータを活用して、 低年俸でも勝てるチームづくりを目指した ※1   

    セイバーメトリクス(統計学的アプローチ) 2000年代 • スタットキャストの登場により、選手の動きなど取得できるデータ が広大化 (スイング速度、打球速度・角度、回転数、走行速度など )    スタットキャスト(データ解析ツール) 2010年代 財力の時代から、強くなるためのデータ活用へ  多様なデータに基づく、戦略の変化        ※1 早川書房 マネー・ボール マイケル・ルイス著 • 打率が高く、本塁打の多いスター選手は高年俸で手が出せないため、多 少打率が低くても出塁率が高い (アウトになりにくい)選手を集める • バント・盗塁をむやみにやらない 当時の方針 • スタットキャストのデータから打球速度 158km/h以上、打球角度 30度前後 が本塁打になりやすいと判明 • 三振数は激増するなどの結果にも フライボール革命
  4. Confidential 今日のテーマ やったこと 1. 投球の結果が、カウント、イニング、投手、打者によってどうなるかを予測 2. 特定の状況で、どんな球種を投げるか、どこに投げるのかも分析 たとえば、9回裏2アウト満塁フルカウントで、山本由伸選手が柳田悠岐選手に投じた 1 球の行方は?

    使用したデータ • Probspace様の野球コンペのデータ( 2020年の1球単位での投球結果データ) • 使用許可ありがとうございます! データの詳細 • 訓練データ :2020年6月下旬のデータ(20,400件) • テストデータ:2020年7月~11月のデータ(33,808件) ◦ 投球後にわかる情報(球速,球種)などは訓練データのみに含まれている ◦ 投球結果はストライク,ボール,ファール,アウト,ヒット,2塁打,3塁打,ホームラン の8パターン
  5. Confidential 今回使用するデータについて カラム名 例 説明 totalPitchingCount 1 各打席の投球が何球目か B 0

    ボールカウント S 1 ストライクカウント O 0 アウトカウント b1 FALSE 1塁にランナーがいるか b2 TRUE 2塁にランナーがいるか b3 TRUE 3塁にランナーがいるか pitcher - ピッチャー名(NaNを含む) pitcherHand L 右投げか左投げか batter - バッター名(NaNを含む) batterHand R 右打ちか左打ちか inning 1回表 イニング startDayTime 2020-06-19 18:00:00 試合開始日時 カラム名 例 説明 pitchType ストレート 球種 speed 149km/h 投球速度 ballPositionLabel 内角低め 投球位置 ballX 17 投球のX座標(1-21) ballY J 投球のY座標(A-K) dir S 打球方向(A-Z) dist 38.3 打球距離 battingType ゴロ 打球種類(バント, ゴロ, ポップフライ, フライ, ライ ナー) y ヒット 投球結果(ボール, ストライク, ファウル, アウト, シ ングルヒット, 二塁打, 三塁打, ホームラン) 投球前から取得できるデータ 投球後に取得できるデータ
  6. EDA

  7. ボールカウントに対する結果を可視化 ➢ 0ボール ◦ ストライクorボールが約8割 ➢ 2ボール ◦ アウトの割合が一番多い →3ボールになるとピッチャー不利のため、勝負

    になることが多いカウント? ➢ 3ボール ◦ ヒットの割合が増える ◦ ボールの割合も意外と多い ボールカウント数
  8. • B + Sのカラムを作成 • 0_0〜3_2の12種類 • 学習時にはB + S

    + Oの特徴量も作成して いるが、B + Sのみ掲載 ストライクカウントとボールカウントから特徴量作成
  9. 今回の振り返り/今後に向けて • 今後予測精度を上げるには ? ◦ 学習用に使えたのが、およそ 1週分のデータのみなので選手の調子の影響とか強いか も。。 ◦ 選手の走力,守備力の情報がほしい。

    ◦ 点差の情報もあるといい?接戦だと敬遠したりバントが増えるはず ◦ 投球の回転数とかのデータもほしい。遅くても空振りとれるストレートなどもある ◦ パラメータチューニング ,集約特徴量を色々追加などテクニカルな部分で工夫する • 今後やりたいこと ◦ サッカー、バスケなど他のスポーツでも分析してみたい・・! ◦ こんなテーマ面白いのではなどあれば、ぜひアンケートに記入お願いします!!
  10. Confidential ABEJAでは一緒に働く仲間を募集しています! ・フレックスタイム制 ・リモートワーク  (全国のWeWorkオフィスを自由に活用できます) ・兼業可能(許可制) ・ABECON(毎週金曜日に開催する社内勉強会) ABEJAでの働き方 社内メンバー による発表

    テーマ データサイエンス、 IoT、ディープラーニング、芸術、音楽、社会学、 リベラルアーツ、法務、数学的な折り紙の話、 Art x Technology、 ロジカルライティング 社外講師に よる発表テー マ 数学講座、ビジネスで使える SQL講座、スタートアップ経営者が抱える課題の解 決策、成功までの過程で起こる試練、トポロジー 面談でもう少し詳しく話を聞きたい方は こちら 新しく出る求人やイベントの案内を希望され る方はこちら 募集中ポジション カジュアル面談 採用情報のご案内 募集中のポジションはこちら