Slide 1

Slide 1 text

対比較法を用いた パークファクター評価の 改善 小中英嗣(名城大学) IEICE-MSS(2019/7/31)@MORIOKA 1

Slide 2

Slide 2 text

背景:野球場の設計 IEICE-MSS(2019/7/31)@MORIOKA 2 (https://www.google.com/maps/?hl=ja)

Slide 3

Slide 3 text

IEICE-MSS(2019/7/31)@MORIOKA 3 (https://www.google.com/maps/?hl=ja)

Slide 4

Slide 4 text

IEICE-MSS(2019/7/31)@MORIOKA 4 甲子園球場: 両翼95m. 中堅118m 神宮球場: 両翼97.5m. 中堅120m (https://www.google.com/maps/?hl=ja)

Slide 5

Slide 5 text

IEICE-MSS(2019/7/31)@MORIOKA 5 甲子園球場: 両翼95m. 中堅118m フェンウェイパーク(ボストン) 左右非対称 (https://www.google.com/maps/?hl=ja)

Slide 6

Slide 6 text

“Green monster” in Fenway park stadium IEICE-MSS(2019/7/31)@MORIOKA 6 (https://www.ballparksofbaseball.com/ballparks/fenway-park/)

Slide 7

Slide 7 text

背景:野球場の設計 公認野球規則 各塁およびピッチャーマウンドの位置は厳密に規定 外野フェンスの位置および高さは「望ましい(preferable)」距離のみ 規定 Baseball official rule, 2.01 “Layout of the Field” The distance from home base to the nearest fence, stand or other obstruction on fair territory shall be 250 feet or more. A distance of 320 feet or more along the foul lines, and 400 feet or more to center field is preferable. IEICE-MSS(2019/7/31)@MORIOKA 7

Slide 8

Slide 8 text

背景:野球場の設計 野球:打球の到達地点と,そこに守備の選手がいつ到達 できるかどうかが重要⇒球場の設計は結果に影響を与え るのでは? 顕著な例:クアーズフィールド(コロラド州デンバー) MLBコロラド・ロッキーズの本拠地 別名”Mile-high stadium.” 標高1マイル(≒1600m)に位置することに由来. 「海抜0 メートルで400 フィート(121.92 メートル) 飛ぶ打球は,デンバーでは 440 フィート(約134.11 メートル) 飛ぶ」(ロッキーズ公式サイトより) IEICE-MSS(2019/7/31)@MORIOKA 8

Slide 9

Slide 9 text

背景:野球場の 形状と結果 左図:MLB2017年シーズン,1打 席当たりの塁数.上位および下位 3球場 クアーズフィールド 打球が速いため安打が多い 球場を大きめに作っているので本 塁打数はそこまででもない(が,多 い). 気温,湿度,風向きなども打球に 影響. IEICE-MSS(2019/7/31)@MORIOKA 9

Slide 10

Slide 10 text

背景: 球場の特性を定量化したい 球場の特性を定量化したい! パークファクター(park factor, PF)が提案される 打者・投手のどちらに有利な球場か? ESPNなどのサイトで公開され,デファクトスタンダード 学術論文の文脈ではほとんど議論が見当たらない. 本研究の目的と結果 パークファクターの新しい算出方法を提案 ESPNのものと比較 提案手法がよりよい評価指標となっている事を定量的に示す IEICE-MSS(2019/7/31)@MORIOKA 10

Slide 11

Slide 11 text

発表の構成 背景 パークファクター 現行(ESPN PF)の定義 提案手法 対比較法による算出 算出と評価 155万打席の結果に基づく評価 IEICE-MSS(2019/7/31)@MORIOKA 11

Slide 12

Slide 12 text

パークファクター (park factor, PF) 球場の特性を定量化したい! パークファクター(park factor, PF) 打者・投手のどちらに有利な球場か? ESPNなどのサイトで公開され,デファクトスタンダード 定義(ESPN PF) IEICE-MSS(2019/7/31)@MORIOKA 12

Slide 13

Slide 13 text

パークファクター 定義(ESPN PF) 球場aを本拠地とする球団Aの試合での,(ホーム1試合当たりの生起数)/(ロー ド1試合当たりの生起数) 本塁打(HR)に関するPF , , :ホームラン数,被ホームラン数,試合数 添字 ℎ, : ホーム,ロードの試合 IEICE-MSS(2019/7/31)@MORIOKA 13

Slide 14

Slide 14 text

ESPN PFに対する批判 学術的文脈での批判はあまり見当たらない 試合数の不均衡は影響を与えていないのか? MLBは地区内/地区間/リーグ間それぞれでの対戦試合数が異なる 選手の能力もPF算出に含まれているのは適切なのか? 「平均化できているから良い」らしいが,本当? ESPN PFで結果の予測精度が改善するのかどうか? 検証した結果が見当たらない 四球の出やすさが球場ごとに異なるとは信じがたい. IEICE-MSS(2019/7/31)@MORIOKA 14

Slide 15

Slide 15 text

発表の構成 背景 パークファクター 現行(ESPN PF)の定義 提案手法 対比較法による算出 算出と評価 155万打席の結果に基づく評価 IEICE-MSS(2019/7/31)@MORIOKA 15

Slide 16

Slide 16 text

ESPN PFに対する批判に対す る回答 学術的文脈での批判はあまり見当たらない ⇒ここでやる. 試合数の不均衡は影響を与えていないのか? MLBは地区内/地区間/リーグ間それぞれでの対戦試合数が異なる ⇒打席単位の評価手法を提案する 選手の能力もPF算出に含まれているのは適切なのか? 「平均化できているから良い」らしいが,本当? ⇒打席を[攻撃]対[守備+球場]の対戦と考える ESPN PFで結果の予測精度が改善するのかどうか? ⇒単打と四球ではESPN PFを用いると予測性能が悪化する(後述) ⇒提案手法ではおおむねESPN PFより予測性能が改善される(後述) IEICE-MSS(2019/7/31)@MORIOKA 16

Slide 17

Slide 17 text

提案手法 打席を[攻撃]対[守備+球場]の対戦と考える:対比較法 打席: 攻撃チーム 対 守備チーム + 球場 評価関数: 打席の結果 ∈ {0,1}との誤差の二乗和 勾配法で各パラメータを更新 IEICE-MSS(2019/7/31)@MORIOKA 17

Slide 18

Slide 18 text

既存PF形式への変換 「平均的な打者と平均的な投手が球場kで対戦したときの事象の生起 確率を,平均的な打者と平均的な投手が平均的な球場で対戦したとき の事象の生起確率で正規化」する. IEICE-MSS(2019/7/31)@MORIOKA 18

Slide 19

Slide 19 text

発表の構成 背景 パークファクター 現行(ESPN PF)の定義 提案手法 対比較法による算出 算出と評価 155万打席の結果に基づく評価 IEICE-MSS(2019/7/31)@MORIOKA 19

Slide 20

Slide 20 text

算出と評価 データ Baseball Reference 2010年から2017年.約155万打席. 算出項目 本塁打(HR),単打(H),二塁打(2B),三塁打(3B),四球(Walk)それぞれの パークファクター 評価項目 評価指標:対数損失関数 評価対象:ESPN PF,および提案PF IEICE-MSS(2019/7/31)@MORIOKA 20

Slide 21

Slide 21 text

右図:提案PF(横軸)とESPN PF(縦軸) 強い正の相関(R=0.81) ESPN PFの方が幅が広い傾 向 IEICE-MSS(2019/7/31)@MORIOKA 21 算出結果

Slide 22

Slide 22 text

評価 評価指標:対数損失関数LogLoss  ∈ : 打席, ∈ 0,1 : 結果 ∈ 0,1 : 生起確率 例:2017年のホームラン 6105本/191195打席=0.03193 全打席でホームランの確率が一定だと仮定すると,LogLoss=0.20398 これを基準として,PF導入によりどれだけ改善できるか. IEICE-MSS(2019/7/31)@MORIOKA 22

Slide 23

Slide 23 text

評価の基準値 評価の基準値 IEICE-MSS(2019/7/31)@MORIOKA 23

Slide 24

Slide 24 text

比較 ESPN PF 例:2017年のクアーズ・フィールドの本塁打 = 1.195 予測ホームラン確率:1.195 × 0.03193 = 0.03816 提案手法 次式で打席ごとに予測確率を算出 結論 提案手法:おおむねESPN PFよりも改善度合いが大きい ESPN PF:単打と四球でPF導入により性能が悪化している IEICE-MSS(2019/7/31)@MORIOKA 24 = 1 1 + exp − − − ()

Slide 25

Slide 25 text

評価指標の改善量(本塁打) IEICE-MSS(2019/7/31)@MORIOKA 25 改善←→悪化 提案手法は対数損失を改善

Slide 26

Slide 26 text

評価指標の改善量(単打) IEICE-MSS(2019/7/31)@MORIOKA 26 改善←→悪化 提案手法は対数損失を改善

Slide 27

Slide 27 text

評価指標の改善量(単打) IEICE-MSS(2019/7/31)@MORIOKA 27 改善←→悪化 ESPN PF導入により予測精度が悪化

Slide 28

Slide 28 text

評価指標の改善量(二塁打) IEICE-MSS(2019/7/31)@MORIOKA 28 改善←→悪化 提案手法は対数損失を改善

Slide 29

Slide 29 text

評価指標の改善量(三塁打) IEICE-MSS(2019/7/31)@MORIOKA 29 改善←→悪化 提案手法は対数損失を改善

Slide 30

Slide 30 text

評価指標の改善量(四球) IEICE-MSS(2019/7/31)@MORIOKA 30 改善←→悪化 四球は本来球場の影響が小さい

Slide 31

Slide 31 text

評価指標の改善量(四球) IEICE-MSS(2019/7/31)@MORIOKA 31 改善←→悪化 提案手法は対数損失を改善 ESPN PF導入により予測精度が悪化

Slide 32

Slide 32 text

考察と結論 ESPN PF: 導入すると四球と単打で予測精度が悪化 各チームの能力が分離できていない 球場の大きさからの影響が小さいはずの事象(例:単打および四球)の要因 を全て球場に押し付けている 打席の結果の原因は[選手]+[球場]+[誤差]としてモデル化すべき 提案手法:おおむねESPN PFよりも評価を改善 打席の結果の原因を[選手]+[球場]+[誤差]としてモデル化し,誤差と選手の 影響を取り除いたものを適切にパークファクターとして算出 IEICE-MSS(2019/7/31)@MORIOKA 32