対比較法を用いたパークファクター評価の改善 / Park factor improvment using pairwise comparison method

対比較法を用いたパークファクター評価の改善 / Park factor improvment using pairwise comparison method

デファクトスタンダードとなっている現行のパークファクターの問題点を指摘し,改善手法を提案する.MLB8年間155万打席の結果を利用し,提案手法の有効性を確認する.

(電子情報通信学会MSS研究会(2019年7月29日ー30日)で発表予定のスライドです.発表日までは随時変更の可能性があります.また本発表は査読を経ていないものです.)

204f36383109212baaedfabb8abcfc9e?s=128

konakalab

July 23, 2019
Tweet

Transcript

  1. 対比較法を用いた パークファクター評価の 改善 小中英嗣(名城大学) IEICE-MSS(2019/7/31)@MORIOKA 1

  2. 背景:野球場の設計 IEICE-MSS(2019/7/31)@MORIOKA 2 (https://www.google.com/maps/?hl=ja)

  3. IEICE-MSS(2019/7/31)@MORIOKA 3 (https://www.google.com/maps/?hl=ja)

  4. IEICE-MSS(2019/7/31)@MORIOKA 4 甲子園球場: 両翼95m. 中堅118m 神宮球場: 両翼97.5m. 中堅120m (https://www.google.com/maps/?hl=ja)

  5. IEICE-MSS(2019/7/31)@MORIOKA 5 甲子園球場: 両翼95m. 中堅118m フェンウェイパーク(ボストン) 左右非対称 (https://www.google.com/maps/?hl=ja)

  6. “Green monster” in Fenway park stadium IEICE-MSS(2019/7/31)@MORIOKA 6 (https://www.ballparksofbaseball.com/ballparks/fenway-park/)

  7. 背景:野球場の設計 公認野球規則 各塁およびピッチャーマウンドの位置は厳密に規定 外野フェンスの位置および高さは「望ましい(preferable)」距離のみ 規定 Baseball official rule, 2.01 “Layout

    of the Field” The distance from home base to the nearest fence, stand or other obstruction on fair territory shall be 250 feet or more. A distance of 320 feet or more along the foul lines, and 400 feet or more to center field is preferable. IEICE-MSS(2019/7/31)@MORIOKA 7
  8. 背景:野球場の設計 野球:打球の到達地点と,そこに守備の選手がいつ到達 できるかどうかが重要⇒球場の設計は結果に影響を与え るのでは? 顕著な例:クアーズフィールド(コロラド州デンバー) MLBコロラド・ロッキーズの本拠地 別名”Mile-high stadium.” 標高1マイル(≒1600m)に位置することに由来. 「海抜0

    メートルで400 フィート(121.92 メートル) 飛ぶ打球は,デンバーでは 440 フィート(約134.11 メートル) 飛ぶ」(ロッキーズ公式サイトより) IEICE-MSS(2019/7/31)@MORIOKA 8
  9. 背景:野球場の 形状と結果 左図:MLB2017年シーズン,1打 席当たりの塁数.上位および下位 3球場 クアーズフィールド 打球が速いため安打が多い 球場を大きめに作っているので本 塁打数はそこまででもない(が,多 い).

    気温,湿度,風向きなども打球に 影響. IEICE-MSS(2019/7/31)@MORIOKA 9
  10. 背景: 球場の特性を定量化したい 球場の特性を定量化したい! パークファクター(park factor, PF)が提案される 打者・投手のどちらに有利な球場か? ESPNなどのサイトで公開され,デファクトスタンダード 学術論文の文脈ではほとんど議論が見当たらない. 本研究の目的と結果

    パークファクターの新しい算出方法を提案 ESPNのものと比較 提案手法がよりよい評価指標となっている事を定量的に示す IEICE-MSS(2019/7/31)@MORIOKA 10
  11. 発表の構成 背景 パークファクター 現行(ESPN PF)の定義 提案手法 対比較法による算出 算出と評価 155万打席の結果に基づく評価 IEICE-MSS(2019/7/31)@MORIOKA

    11
  12. パークファクター (park factor, PF) 球場の特性を定量化したい! パークファクター(park factor, PF) 打者・投手のどちらに有利な球場か? ESPNなどのサイトで公開され,デファクトスタンダード

    定義(ESPN PF) IEICE-MSS(2019/7/31)@MORIOKA 12
  13. パークファクター 定義(ESPN PF) 球場aを本拠地とする球団Aの試合での,(ホーム1試合当たりの生起数)/(ロー ド1試合当たりの生起数) 本塁打(HR)に関するPF , , :ホームラン数,被ホームラン数,試合数 添字

    ℎ, : ホーム,ロードの試合 IEICE-MSS(2019/7/31)@MORIOKA 13
  14. ESPN PFに対する批判 学術的文脈での批判はあまり見当たらない 試合数の不均衡は影響を与えていないのか? MLBは地区内/地区間/リーグ間それぞれでの対戦試合数が異なる 選手の能力もPF算出に含まれているのは適切なのか? 「平均化できているから良い」らしいが,本当? ESPN PFで結果の予測精度が改善するのかどうか? 検証した結果が見当たらない

    四球の出やすさが球場ごとに異なるとは信じがたい. IEICE-MSS(2019/7/31)@MORIOKA 14
  15. 発表の構成 背景 パークファクター 現行(ESPN PF)の定義 提案手法 対比較法による算出 算出と評価 155万打席の結果に基づく評価 IEICE-MSS(2019/7/31)@MORIOKA

    15
  16. ESPN PFに対する批判に対す る回答 学術的文脈での批判はあまり見当たらない ⇒ここでやる. 試合数の不均衡は影響を与えていないのか? MLBは地区内/地区間/リーグ間それぞれでの対戦試合数が異なる ⇒打席単位の評価手法を提案する 選手の能力もPF算出に含まれているのは適切なのか? 「平均化できているから良い」らしいが,本当?

    ⇒打席を[攻撃]対[守備+球場]の対戦と考える ESPN PFで結果の予測精度が改善するのかどうか? ⇒単打と四球ではESPN PFを用いると予測性能が悪化する(後述) ⇒提案手法ではおおむねESPN PFより予測性能が改善される(後述) IEICE-MSS(2019/7/31)@MORIOKA 16
  17. 提案手法 打席を[攻撃]対[守備+球場]の対戦と考える:対比較法 打席: 攻撃チーム 対 守備チーム + 球場 評価関数: 打席の結果

    ∈ {0,1}との誤差の二乗和 勾配法で各パラメータを更新 IEICE-MSS(2019/7/31)@MORIOKA 17
  18. 既存PF形式への変換 「平均的な打者と平均的な投手が球場kで対戦したときの事象の生起 確率を,平均的な打者と平均的な投手が平均的な球場で対戦したとき の事象の生起確率で正規化」する. IEICE-MSS(2019/7/31)@MORIOKA 18

  19. 発表の構成 背景 パークファクター 現行(ESPN PF)の定義 提案手法 対比較法による算出 算出と評価 155万打席の結果に基づく評価 IEICE-MSS(2019/7/31)@MORIOKA

    19
  20. 算出と評価 データ Baseball Reference 2010年から2017年.約155万打席. 算出項目 本塁打(HR),単打(H),二塁打(2B),三塁打(3B),四球(Walk)それぞれの パークファクター 評価項目 評価指標:対数損失関数

    評価対象:ESPN PF,および提案PF IEICE-MSS(2019/7/31)@MORIOKA 20
  21. 右図:提案PF(横軸)とESPN PF(縦軸) 強い正の相関(R=0.81) ESPN PFの方が幅が広い傾 向 IEICE-MSS(2019/7/31)@MORIOKA 21 算出結果

  22. 評価 評価指標:対数損失関数LogLoss  ∈ : 打席, ∈ 0,1 : 結果

    ∈ 0,1 : 生起確率 例:2017年のホームラン 6105本/191195打席=0.03193 全打席でホームランの確率が一定だと仮定すると,LogLoss=0.20398 これを基準として,PF導入によりどれだけ改善できるか. IEICE-MSS(2019/7/31)@MORIOKA 22
  23. 評価の基準値 評価の基準値 IEICE-MSS(2019/7/31)@MORIOKA 23

  24. 比較 ESPN PF 例:2017年のクアーズ・フィールドの本塁打 = 1.195 予測ホームラン確率:1.195 × 0.03193 =

    0.03816 提案手法 次式で打席ごとに予測確率を算出 結論 提案手法:おおむねESPN PFよりも改善度合いが大きい ESPN PF:単打と四球でPF導入により性能が悪化している IEICE-MSS(2019/7/31)@MORIOKA 24 = 1 1 + exp − − − ()
  25. 評価指標の改善量(本塁打) IEICE-MSS(2019/7/31)@MORIOKA 25 改善←→悪化 提案手法は対数損失を改善

  26. 評価指標の改善量(単打) IEICE-MSS(2019/7/31)@MORIOKA 26 改善←→悪化 提案手法は対数損失を改善

  27. 評価指標の改善量(単打) IEICE-MSS(2019/7/31)@MORIOKA 27 改善←→悪化 ESPN PF導入により予測精度が悪化

  28. 評価指標の改善量(二塁打) IEICE-MSS(2019/7/31)@MORIOKA 28 改善←→悪化 提案手法は対数損失を改善

  29. 評価指標の改善量(三塁打) IEICE-MSS(2019/7/31)@MORIOKA 29 改善←→悪化 提案手法は対数損失を改善

  30. 評価指標の改善量(四球) IEICE-MSS(2019/7/31)@MORIOKA 30 改善←→悪化 四球は本来球場の影響が小さい

  31. 評価指標の改善量(四球) IEICE-MSS(2019/7/31)@MORIOKA 31 改善←→悪化 提案手法は対数損失を改善 ESPN PF導入により予測精度が悪化

  32. 考察と結論 ESPN PF: 導入すると四球と単打で予測精度が悪化 各チームの能力が分離できていない 球場の大きさからの影響が小さいはずの事象(例:単打および四球)の要因 を全て球場に押し付けている 打席の結果の原因は[選手]+[球場]+[誤差]としてモデル化すべき 提案手法:おおむねESPN PFよりも評価を改善

    打席の結果の原因を[選手]+[球場]+[誤差]としてモデル化し,誤差と選手の 影響を取り除いたものを適切にパークファクターとして算出 IEICE-MSS(2019/7/31)@MORIOKA 32