HOME > コラム一覧 > コラム

コラム

野球における不確実性を考える “被BABIPについて”

Student [ 著者コラム一覧 ]

投稿日時:2011/08/15(月) 10:00rss

1.はじめに
 
  前回は野球における“運”の指標としてBABIP(Batting Average on Balls In Play)について解説と分析をしてみました。結果は,データを見る限り運の性質を反映しているとは言い難いものでした。
 
  今回は投手のBABIPである被BABIPを同様に分析してみたいと思います。基本的な算出方法はそんなに変わらないので大きく結果が異なるとは思えませんが,ひとつやってみたいと思います。
 
  とはいえ,打者のBABIPと投手の被BABIPにも違いがあります。打者の場合は打球の処理をするのは相手チームの守備陣です。交流戦も含めると,打者は11チームの守備陣が打球の処理をすることになります。一方,投手の場合は自軍の守備陣が打球を処理します。したがって,被BABIPの方が打球を処理するメンバーがBABIPと比較して固定的になっていることは一応考慮しておいた方が良いかもしれません。
 
  では,今回も被BABIPが運の要素を反映した指標であれば,データにはこのような傾向が現れるだろうという形式で分析して行きたいと思います。
 
 
2.データ分析
 
 分析対象者は2006~2010年までのNPB12球団の野手で年間投球回数が10回以上の記録がある選手1195名です。
 
 まずはこの選手たちの投球回数と被BABIPのデータに着目して行きたいと思います。
 
 以下の表1は各選手の投球回数を25回ずつ区切ったもので,各投球回数に該当する選手数を示したものです。
 

 
 次に,同じように被BABIPの成績を区切って分類したものを表2に示します。
 

 
この表1と表2を掛け合わせたデータを表3-1に示します。
 

 
 この表より投球回別に被BABIPがどの程度の選手が何人いるかがわかります。
 
 さて,「被BABIPが運の要素を反映した指標である」という前提が正しいのであれば,このデータには以下のような特徴が見られるはずです。
 
 ・投球回数の少ない選手は,被BABIPが平均 .300より極端に高いか低い選手が多い
 ・投球回数の多い選手は,被BABIPが平均である .300前後の選手が多い
 
 表3-1のデータでは投球回数ごとに選手数が違うので割合で示したものを表3-2に示します。
 

 
 表中の赤枠で囲った部分が平均 .300前後の成績を示しており,水色で囲った部分は被BABIPが極端に高いか低い成績であることを示しています。つまり,水色の枠で囲った部分では投球回数が多いほど選手の割合が少なくなり,赤枠で囲った部分では,投球回数が増えるほど選手の割合が増えることになります。
 
 表3-2の中で選手の割合が10%を越えた箇所に色をつけたものを表3-3に示します。
 

 
   このデータを見るに,選手の分布が被BABIPの平均 .300を中心に均等になっていないことが目立ちます。全体的に被BABIPの平均 .300以下の選手の割合が多くなっています。また,投球回数が増えるほど平均前後の選手が増えるというよりは,投球回数が100回を越えると被BABIPの平均 .300以下の選手の割合が多くなっています。
 
  以上の結果より,被BABIPもBABIP同様に運の性質を反映した指標とはいえない結果となっています。といった感じで結論を出してしまいましたが,もう少し被BABIPの特徴について分析してみたいと思います。
 

・被BABIPDERDefense Efficacy Ratio)の関係
 
  被BABIPの性質を見ていく上で,DERとの関係を無視することはできません。蛭川氏も指摘されていますが,この2つの指標は非常に似た性質を持っています。
 
以下の図1に2006年から2010年までのNPB12球団の各チーム,計60チーム分の被BABIPとDERの関係を示します。
 

 
 この2つの指標の類似性は非常に高く,図中に示した相関係数は -.967となっています。この値は非常に相関性で,野球のデータを分析していてこのレベルの相関は,OPSと得点の関係以外に見たことはありません。
 
 これくらい強い相関関係があるということは,同じものを前から見たものをDERと呼んで,後ろから見たものを被BABIPと呼んでいるようなものです。同じものを一方は「守備力」と見なし,一方は「運」とみなすというのはおかしな話であって,どちらかが間違っている可能性が考えられます。
 

・個人の被BABIPとチームの被BABIPの関係
 
 さらに,被BABIPにはもう一つ特徴があります。投手個人の被BABIPがチーム全体の被BABIPと相関するという性質です。
 
 本来,投手個人に影響した“運”の善し悪しと,チーム全体の“運”の善し悪しとは無関係になるはずです。チーム全体の成績には,他の投手の運の善し悪しも加味されるからです。
 
  ただし,年間の投球回数が増えれば増えるほど,チーム全体にその個人の運が占める割合は増えるわけですが,2006年から2010年までに最も多い投球回数で200回超になります。これだけ投げて,だいたいチームの約1割ですので,やはり個人の運はチーム全体には反映されにくくなっているといって良いと思います。
 
  分析対象の選手の個人の被BABIPと所属チームの被BABIPとの相関を求めると,相関係数は .213になります。これは相関関係としては弱いレベルです。しかし,投球回数別に選手を分類して,それぞれ個人の被BABIPと所属チームの被BABIPとの相関を求めたものを表4に示します。
 

 
 投球回数が増えるほど,個人の被BABIPと所属チームの被BABIPとの相関関係が強くなっていくのがわかると思います。ここで,チームの被BABIPとDERがほとんど同じ意味を持つことを考えれば,このデータは,投球回数が増えれば増えるほど,投手個人の被BABIPはチームの守備力によって左右されると解釈しても良いのかもしれません。
 
 
3.まとめ
 
 以上,BABIPに続いて被BABIPについても分析してみました。被BABIPについても運を反映した指標とはいえない結果であると思います。前回のコラムとあわせて個人的な見解をまとめれば以下のようになります。
 
  BABIPはある程度の運を測定している(全く的外れな指標ではないと思う)。しかし,不純物としての「運以外の要素」が大きいので「運の指標」として信頼できるレベルには達していない。今後は,BABIPの改良,または別のアプローチから運を評価する指標が必要だと思う。
 
 
4.セイバーメトリクスとのつきあい方
 
 以上,2度に渡ってBABIPに関する分析と考察をしてきましたが,これを通じてセイバーメトリクス自体の持つ性質が見えてきます。それは何かというと,「セイバーメトリクスは更新し得る」ということです。極端なことをいえば,今日の是が明日は非になり,今日の非が明日の是になることだってあり得ます。
 
 ですから,新しいセイバーメトリクスの指標が開発されても,それは絶対のものではありません。「便利なものができたものだ」と感心しつつも「本当にこれで完璧だろうか?もっと良いものにすることはできないだろうか?」という批判的な目も同時に持つことが,セイバーメトリクスとの上手なつきあい方だと思います。

 
 
参考コラム
 
BASEBALL LABより,蛭川皓平氏のコラム
 
BATTING AVERAGE ON BALLS IN PLAY ~Part 1
BATTING AVERAGE ON BALLS IN PLAY ~Part 2

コメント


度々コメント失礼いたします。BABIP関連は興味のつきないところですね。
BABIPについてのさまざまな議論を見ることができるのは、興味深く思います。

さて、はじめに出ている分布のデータについてですが、これは前回の記事と同様に
被BABIPが運かどうかに関して特定の結論をもたらすデータではないと思います。
被BABIPが運に支配されていると仮定しても結果と矛盾しないからです。

また、DERとの関連についても、適用する対象を混同しない限り「おかしな話」ではないので気にする必要はないかと。
DERを守備力の指標であると言うときにはチームの守備全体について適用したもの、被BABIPを運の要素の大きい指標であると言うときには投手個人について適用したものであることが通常だと思います。対象が違えば数値の意味は違います。

例としては極端かもしれませんが、ある投手の登板時に限った味方打線の平均得点の高低は、その投手にとっては実質的に運(少なくとも統計的に一貫した傾向はない)ですが、そのチームのシーズンを通じた平均得点は、チームの攻撃力を評価する指標(打線の評価)としては使用できますよね。ある数値がどういう意味を持つかは、評価の対象によるということです。
これを「平均得点という同じものをあるところでは攻撃力といい、あるところでは運というのはおかしい」とは言いません。
投手個別の被BABIPとチームのDERについても同じことが言えるのではないでしょうか。

同じ対象についてBABIPとDERを算出すれば(向きが逆の)同じ数字になるのは指標の性格上当然ですが
それは対象を分けて「投手個別の被BABIPを運の要素の大きい指標と考え、チームのDERを守備力の指標として考える」ことに対しては何ら支障にならないと思います。
もちろん被BABIPにバックの守備力などの影響が多少含まれていたり、またDERに運の影響が大きく含まれていたりとそれぞれの指標がキレイに意味の異なる独立のものになるわけではないことは確かですが。
被BABIPに守備が与える影響の程度などはTangotigerらによる『Solving DIPS』で議論されていますね。

Posted by 蛭川皓平 at 2011/08/16 13:19:12 PASS:

蛭川皓平様

 今回もコメントいただきありがとうございます。
 こうした議論を通じて、今後良いものが生まれるきっかけになればと思います。

>さて、はじめに出ている分布のデータについてですが、これは前回の記事と同様に
>被BABIPが運かどうかに関して特定の結論をもたらすデータではないと思います。
>被BABIPが運に支配されていると仮定しても結果と矛盾しないからです。

 これも結局は前回と同じで、被BABIPは守備力の影響と運の影響が両方盛り込まれており、
 被BABIPのデータだけでは、どちらが優勢なのかは判断ができないといったところでしょうか。


>DERとの関連についても、適用する対象を混同しない限り「おかしな話」ではないので気にする必要はないかと。

>同じ対象についてBABIPとDERを算出すれば(向きが逆の)同じ数字になるのは指標の性格上当然ですが
>それは対象を分けて「投手個別の被BABIPを運の要素の大きい指標と考え、チームのDERを守備力の指標として考える」ことに対しては何ら支障にならないと思います。

 確かにそうなのですが、自然科学のデータでもないのに相関係数が0.900を越えてくるとちょっと違和感を感じてしまうのが正直なところです。


>被BABIPに守備が与える影響の程度などはTangotigerらによる『Solving DIPS』で議論されていますね。

 ご紹介いただいた文献を読んでみたいのですが、これはすぐに手に入る資料でしょうか?

Posted by student at 2011/08/16 22:57:51 PASS:

私もこの検証を読みながら、少し疑問に思いましたが
蛭川さんの言われる「被BABIPが運に支配されていると仮定しても結果と矛盾しないからです」
というのにとても納得しました

正直、実力でBABIPを低くできる選手もいるでしょうし
運よくBABIPが低くできている選手がいる可能性もあるのではないかと思います
ただ今回の検証はとても興味深かったです!

Posted by you2000 at 2011/08/17 16:47:38 PASS:

>自然科学のデータでもないのに相関係数が0.900を越えてくるとちょっと違和感を感じてしまうのが正直なところです。

説明するまでもないかもしれませんが
「安打/打数」で「打数のうち安打になった割合」を計算しても「(打数-安打)/打数」で「打数のうち安打にならなかった割合」を計算しても高低が逆になるだけで全く同じ解析ができるように、BABIPとDERは失策項目の有無など細かい計算上の相違を別にして「同じ指標」ですので、相関というか一致して当然です。「別の指標とされているのに相関している」わけではありません。
したがって同じ対象について計算したBABIPとDERを比較しても当たり前に一致した結果が出るだけで、そのことに何も不思議はありませんし、そこから何がわかるというものでもないです。
「チームのBABIPとチームのBABIPが一致している」とわかっても当然だし意味がないのと同じです。

>ご紹介いただいた文献を読んでみたいのですが、これはすぐに手に入る資料でしょうか?

引用していただいた私のBABIPの記事(part1)で紹介しているうちの一本でして、フリーのPDF文書です。
http://www.tangotiger.net/solvingdips.pdf
結構言及されることの多い文書で、面白いです。特に新しい部類ではないのですが、さすがに米国は進んでいるんですよね。

Posted by 蛭川皓平 at 2011/08/17 17:48:47 PASS:

you2000様

 コメントありがとうございます

>正直、実力でBABIPを低くできる選手もいるでしょうし
>運よくBABIPが低くできている選手がいる可能性もあるのではないかと思います

 私としてもその考え方に同意します。
 
 しかしながら、このように実力と運の両方によって値が左右されてしまっては、
 ある選手の運の良し悪しを知りたい時に、BABIPという指標がどれくらい信用できるか?といわれると苦しいところがあります。

 そのため、運の良し悪しをより正確に測定するためには、BABIPの改良、または新しい指標の開発が必要なのではないか?
 というのが私の意見です。


蛭川皓平様

 コメントありがとうございます。

 BABIPとDERは計算の過程でほとんど同じデータを用いているので相関が高くなるのは当たり前というのはわかります。
 しかし、構成要素がほとんど同じなのであれば、ひとつの指標に統合できないものか?と素朴に考えてしまいます。


>引用していただいた私のBABIPの記事(part1)で紹介しているうちの一本でして、フリーのPDF文書です。

 ありがとうございました。英語は苦手なのですが読めないことはないので読んでみます。 
 研究内容が進んでいることだけでなく、こういう資料がポンとフリーで手に入るところも流石米国は進んでいるなと感じさせられてしまいます。

Posted by student at 2011/08/17 22:30:53 PASS:

今回見えた機会が多い選手でのばらつきの大きさが、
BABIPの中の運で説明できない要素、
あるいは選手起用からくるバイアス、
どちらが原因かわからないという話ですが、
かなりめんどくさいことをやれば分離できそうな気がします。

Chris Duttonがやった回帰分析だと、
結構な種類のパラメータがBABIPに影響するという結果が出ています。
http://tangotiger.net/tufts/understandingBABIP.pdf
要はそれらのパラメータによって説明される部分は、
BABIPの中で運とは言い切れない部分だと言えると思います。

それらのパラメータについて、期待されるBABIP(今回一律で.300を用いたもの)を補正して、
同様に現実に計測されたBABIPとの差をみてやった時に、
打席数、あるいは投球回が多い選手で分散が小さくなっていけば、
今回見えた、機会が多い選手でばらつきが多いという現象の原因の多くは、
それらのパラメータに由来するということぐらいは言えそうな気がします。
(うーん、日本語が分かりにくいですかね。)

正直現実には難しいとは思いますが。
日本でここまで細かいデータはないでしょうし、
MLBでやった回帰分析の結果をそのまんまNPBに持ってくるわけにもいかないですしね。。

Posted by tt at 2011/08/22 03:08:54 PASS:

tt様

コメントありがとうございます。

>かなりめんどくさいことをやれば分離できそうな気がします。

 以前、投手の被本塁打へのパークファクターの影響を補正した方法を用いれば、理論的には可能であると思います。
 ただ、ご紹介いただいた文献にもあるように、様々な指標がBABIPに影響するのであればなかなか簡単にはできないなぁという印象です。

 ざっと手順をイメージするに、

 1. 関連する指標が多いのであれば、それらの指標間の相関関係から整理する必要があります。

 2. 指標の吟味ができれば補正はできますが、補正値は相対的な値になので一般化して全ての選手に適用ができません。
 
 3. 補正が終わったらその値を参考に、そこから全ての選手に適用可能になるように公式化する作業に移らないといけません。

 このような感じでしょうか。もちろんデータはMLBとNPBでやって比較する必要があると思います。
 結構面倒な手順を踏まなければなりませんが、やってやれないことはないですね。

 あまり数学的に数値をいじくりまわすのは好きではないのですが、試しにやってみる価値はありそうですね。
 ちょっと作業手順が大変ですぐにはできなそうですが……。

Posted by Student at 2011/08/22 22:40:39 PASS:
名前:
メールアドレス:
コメント:
評価:
star2.gif star2.gif star2.gif star2.gif star2.gif
3b00d1d625f26e113bce2c62184bdae2.png?1503134206
画像の英字5文字を入力して下さい。:

トラックバック一覧

Baseball Lab「Archives」とは?
 
Baseball Lab「Archives」では2010~2011年にかけてラボ内で行われた「セイバーメトリクス」のコンテンツを公開しております。

野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。