得点の重み
蛭川皓平 [ 著者コラム一覧 ]
1.RPWとは
今回のテーマはRPW(Runs Per Win)である。Runs Per Win。日本語にすれば「一勝あたりの得点数」といったところだろうか。セイバーメトリクスでは一般に、シーズンレベルで勝利をひとつ増やすのに値する得失点差の意味で使用される用語である。
野球の構造上、総得点が総失点に比べて多いほど勝利が敗北に比べて多くなるのが自然である。以前のコラム「得点と勝利の関連付け」では、その関係はおおよそ「10点で1勝」だということを書いた。統計上の傾向として、得失点差が10あるチームは、勝利が平均に比べて1多い。得失点差が20になれば、勝利の上積みは2になる。ここで得点の利得を割り算して勝利の利得に変換する数字すなわち10が、一般的なRPWである。
RPWの意義は端的に言って、得点数と勝利数の関係を明らかにすることにある。それにより得点と失点からチームの妥当な勝率を導き出すことや、得点数で表される選手評価を最終的に重要な単位である勝利数に変換することが可能となる。
2. RPWと得点環境
前述した「10点で1勝」は、プロ野球全体を概観した場合の一般論としてそうだということにすぎない。シーズンによって投高打低だったり打高投低だったりと絶対的な得点の多さは異なり、その場合得点と勝利の対応関係も変わってくる可能性がある。また同じリーグ内で考えても、守りを中心として少ない点数で争うスタイルのチームと打ち合いを好むスタイルのチームとでは相対的に得点の価値は異なるかもしれない。
MLB系の解析ではこのような要素は得点環境(Run Environment)などと表現され、選手の評価に影響を与える変数となる。平均得点・平均失点が3.5・3.0の場合と5.5・5.0の場合では得失点差は同一だがその得失点差が持つ意味は異なるということである。
つまり得点環境を考慮に入れると、絶対的な得点数・失点数が違えば同じ「1点」でも価値が異なると考えられるから、いつでも単純に「10点で1勝」と考えるのは正確ではない。同じ1万円でもインフレ時とデフレ時では価値が異なるのと同じ現象と言えるかもしれない。
もちろんこのような点は先達にはとっくに認識されており、LWTSシステム(選手の総合的評価システム)を完成させたセイバーメトリクスの大家であるピート・パーマーは得点環境に応じて変化するRPWモデルを提唱している(というより、RPWとは狭い意味ではパーマーが作った式のことを指す)。
RPW=10×SQRT(両チームのイニングあたり得点)
SQRTは平方根の意味。つまり、イニングあたりの得点+失点の平方根をとり10倍したものがRPWになる。平均得点が4.5の場合で考えるとイニングあたりの得点は9で割って0.5、両チームの分を合わせるため2倍して1、最後に10倍して10。当然ながら一般的な得点環境で考えると「10点で1勝」になる。得点が多くなればRPWが大きくなる、すなわちインフレ下では勝利をもぎとるのに多くの得点が必要になることも明確に表れた式の組成となっている。
このパーマーのモデルは計算も比較的容易であり実際にチームの勝率を予測した場合当てはまりもいいようであるが、私は不勉強のため式の組成の根拠を知らない。またいずれにせよMLBのデータを基にしているはずである。そこで以下では、日本で解析を行うには自前のロジックとデータによる日本用の式が必要だと考え、試論のレベルではあるが日本版RPWを考えてみる。
3.日本プロ野球の場合
前掲のコラムでは、回帰分析を用いて得失点差を勝利に対応させた。用いたデータは2リーグ以降の全チームのデータであり、そこにはさまざまな得点環境が混在していた。RPW=約10はその結果の一般的な結論である。
それに対して得点環境が異なればRPWがどう変化するのかについては、手法としてはいささか強引であると思われるが、得点環境でグループ分けをしてみればわかる。人為的な区切りではあるが今回は1950年から2010年までの全チームのデータ(747サンプル)を試合あたり平均得失点(平均得点+平均失点)で降順に並べ、20のグループに分けてみた。各グループには38(余りの関係で最後の最も得点レベルの低いグループだけ25)のデータが含まれる。それぞれのグループについて回帰分析でRPWを計算した。
各グループの平均得失点の平均値とRPWは以下の通りである。


基本的には得点と失点が多い環境ほど追加的な勝利を得るのに多くの得点数が必要であることを示す結果となった。自軍も相手も多くの点をとる場合にはそうでない場合に比べて「1点」がチームに与えるアドバンテージが小さいのは感覚に適う自然なことである。平均得失点からその環境におけるRPWを計算できるように一次式で近似してみると次の式が得られる。
RPW=0.89×平均得失点+2.35
これがとりあえずの日本版RPW式ということになる。おそらくパーマーも意味としては似たような作業をしたのではないかと想像するが、当然結果は多少異なるものとなっている。
4.現実データとの当てはまり
今回作成したRPWがどれだけ現実のデータに当てはまるものなのか、データを使用して検証してみる。方法は、1950~2010年の期間の各年度・各チームの得点数および失点数をRPWにより予測勝率に変換、その予測値と実際の勝率の差を二乗し全てのデータについて平均した後平方根をとる。この誤差の数値は二乗平均平方根誤差といい、低いほど現実のデータと予測値の当てはまりがいいことになる。
得点環境に対応することにどれだけ意味があるのか、パーマーのモデルと比較してどうかなどを明らかにするため複数の勝率予測モデルを用いて誤差を比較する。
回帰:勝率=(平均得点-平均失点)/9.54+0.5
得失点を単純に一定の数字で割って予測勝率を計算する式。全体のデータで回帰分析を行った場合に日本で最も当てはまりの良い係数9.54を採用している。得点環境の変化には対応しないことになる。
ピタゴラス:勝率=得点^1.72/(得点^1.72+失点^1.72)
ビル・ジェイムズ考案のピタゴラス勝率式。日本に合わせて指数は1.72に改変している。得失点比を重視するモデルであり、比が同じなら得点環境が異なっても同じ評価となる。
パーマー:勝率=(平均得点-平均失点)/RPW+0.5
前述したピート・パーマーのRPWを使用した予測勝率。この場合RPWは「10×SQRT(両チームのイニングあたり得点)」。
日本版RPW:勝率=(平均得点-平均失点)/RPW+0.5
今回作成した日本版RPWを使用した予測勝率。この場合RPWは「0.89×平均得失点+2.35」。

「全体」は対象期間の全747チームのデータをもとにした結果であり、「打高投低」は最も平均得失点の高い50チーム、「投高打低」は逆に最も低い50チームを対象とした場合の数値である。極端な場合への対応がどれだけ改善するものかを見るために用意した。
結果としては、誤差が最も小さいのは一応日本版RPW方式ではあるが、いずれの予測方式もほぼ差がないものとなった。あえて言えば単純な割り算モデル(回帰)は一段劣るように見えるが決定的な差ではないし、日本版RPWが良い結果を出すのはそもそも検証の対象となるデータを使用して作成した「後出しじゃんけん」なのだから当然である。むしろ日本用の調整なしでほとんど同等の結果を出すパーマー・モデルの有効性を証明した形かもしれない。
5.まとめ
日本における得点環境とRPWの関係を調査し日本版RPWを作成した。しかし、チームの得失点から勝率を予測するという意味では過去にMLBの研究で示されているジェイムズのピタゴラス勝率やパーマーのRPWと比べて特に精度の向上は見られなかった。勝率の予測や選手の評価において、あまりこのあたりのモデル選びに神経質になる必要はなさそうである。
となると今回の試み自体に何の意味があったのか、ということにもなってくるが、そのあたりは漠然と「アメリカでこのような式があるから使えばいいだろう」とするのと日本のデータで改善を試みた結果として差異が認められず可とするのとでは筋が違うということが言える。結果がどうあれとりあえず日本のデータにあたって定量的な分析が示せたのは意味があるのではないかと考えている。
ところで、今季2011年は統一球の導入により得点環境がこれまでとかなり変化している。6月8日の時点で両リーグ合わせて平均得点は3.29であり、日本式RPWに当てはめると8.21となる。RPWの逆数として「1得点あたりの勝利数」を求めると0.122で、「10点で1勝」の場合の0.1と比べると1.22倍。RPWの観点から見れば、今季は例年に比べて1点の価値が1.22倍「重い」シーズンであると表現することができる。
今回のテーマはRPW(Runs Per Win)である。Runs Per Win。日本語にすれば「一勝あたりの得点数」といったところだろうか。セイバーメトリクスでは一般に、シーズンレベルで勝利をひとつ増やすのに値する得失点差の意味で使用される用語である。
野球の構造上、総得点が総失点に比べて多いほど勝利が敗北に比べて多くなるのが自然である。以前のコラム「得点と勝利の関連付け」では、その関係はおおよそ「10点で1勝」だということを書いた。統計上の傾向として、得失点差が10あるチームは、勝利が平均に比べて1多い。得失点差が20になれば、勝利の上積みは2になる。ここで得点の利得を割り算して勝利の利得に変換する数字すなわち10が、一般的なRPWである。
RPWの意義は端的に言って、得点数と勝利数の関係を明らかにすることにある。それにより得点と失点からチームの妥当な勝率を導き出すことや、得点数で表される選手評価を最終的に重要な単位である勝利数に変換することが可能となる。
2. RPWと得点環境
前述した「10点で1勝」は、プロ野球全体を概観した場合の一般論としてそうだということにすぎない。シーズンによって投高打低だったり打高投低だったりと絶対的な得点の多さは異なり、その場合得点と勝利の対応関係も変わってくる可能性がある。また同じリーグ内で考えても、守りを中心として少ない点数で争うスタイルのチームと打ち合いを好むスタイルのチームとでは相対的に得点の価値は異なるかもしれない。
MLB系の解析ではこのような要素は得点環境(Run Environment)などと表現され、選手の評価に影響を与える変数となる。平均得点・平均失点が3.5・3.0の場合と5.5・5.0の場合では得失点差は同一だがその得失点差が持つ意味は異なるということである。
つまり得点環境を考慮に入れると、絶対的な得点数・失点数が違えば同じ「1点」でも価値が異なると考えられるから、いつでも単純に「10点で1勝」と考えるのは正確ではない。同じ1万円でもインフレ時とデフレ時では価値が異なるのと同じ現象と言えるかもしれない。
もちろんこのような点は先達にはとっくに認識されており、LWTSシステム(選手の総合的評価システム)を完成させたセイバーメトリクスの大家であるピート・パーマーは得点環境に応じて変化するRPWモデルを提唱している(というより、RPWとは狭い意味ではパーマーが作った式のことを指す)。
RPW=10×SQRT(両チームのイニングあたり得点)
SQRTは平方根の意味。つまり、イニングあたりの得点+失点の平方根をとり10倍したものがRPWになる。平均得点が4.5の場合で考えるとイニングあたりの得点は9で割って0.5、両チームの分を合わせるため2倍して1、最後に10倍して10。当然ながら一般的な得点環境で考えると「10点で1勝」になる。得点が多くなればRPWが大きくなる、すなわちインフレ下では勝利をもぎとるのに多くの得点が必要になることも明確に表れた式の組成となっている。
このパーマーのモデルは計算も比較的容易であり実際にチームの勝率を予測した場合当てはまりもいいようであるが、私は不勉強のため式の組成の根拠を知らない。またいずれにせよMLBのデータを基にしているはずである。そこで以下では、日本で解析を行うには自前のロジックとデータによる日本用の式が必要だと考え、試論のレベルではあるが日本版RPWを考えてみる。
3.日本プロ野球の場合
前掲のコラムでは、回帰分析を用いて得失点差を勝利に対応させた。用いたデータは2リーグ以降の全チームのデータであり、そこにはさまざまな得点環境が混在していた。RPW=約10はその結果の一般的な結論である。
それに対して得点環境が異なればRPWがどう変化するのかについては、手法としてはいささか強引であると思われるが、得点環境でグループ分けをしてみればわかる。人為的な区切りではあるが今回は1950年から2010年までの全チームのデータ(747サンプル)を試合あたり平均得失点(平均得点+平均失点)で降順に並べ、20のグループに分けてみた。各グループには38(余りの関係で最後の最も得点レベルの低いグループだけ25)のデータが含まれる。それぞれのグループについて回帰分析でRPWを計算した。
各グループの平均得失点の平均値とRPWは以下の通りである。


基本的には得点と失点が多い環境ほど追加的な勝利を得るのに多くの得点数が必要であることを示す結果となった。自軍も相手も多くの点をとる場合にはそうでない場合に比べて「1点」がチームに与えるアドバンテージが小さいのは感覚に適う自然なことである。平均得失点からその環境におけるRPWを計算できるように一次式で近似してみると次の式が得られる。
RPW=0.89×平均得失点+2.35
これがとりあえずの日本版RPW式ということになる。おそらくパーマーも意味としては似たような作業をしたのではないかと想像するが、当然結果は多少異なるものとなっている。
4.現実データとの当てはまり
今回作成したRPWがどれだけ現実のデータに当てはまるものなのか、データを使用して検証してみる。方法は、1950~2010年の期間の各年度・各チームの得点数および失点数をRPWにより予測勝率に変換、その予測値と実際の勝率の差を二乗し全てのデータについて平均した後平方根をとる。この誤差の数値は二乗平均平方根誤差といい、低いほど現実のデータと予測値の当てはまりがいいことになる。
得点環境に対応することにどれだけ意味があるのか、パーマーのモデルと比較してどうかなどを明らかにするため複数の勝率予測モデルを用いて誤差を比較する。
回帰:勝率=(平均得点-平均失点)/9.54+0.5
得失点を単純に一定の数字で割って予測勝率を計算する式。全体のデータで回帰分析を行った場合に日本で最も当てはまりの良い係数9.54を採用している。得点環境の変化には対応しないことになる。
ピタゴラス:勝率=得点^1.72/(得点^1.72+失点^1.72)
ビル・ジェイムズ考案のピタゴラス勝率式。日本に合わせて指数は1.72に改変している。得失点比を重視するモデルであり、比が同じなら得点環境が異なっても同じ評価となる。
パーマー:勝率=(平均得点-平均失点)/RPW+0.5
前述したピート・パーマーのRPWを使用した予測勝率。この場合RPWは「10×SQRT(両チームのイニングあたり得点)」。
日本版RPW:勝率=(平均得点-平均失点)/RPW+0.5
今回作成した日本版RPWを使用した予測勝率。この場合RPWは「0.89×平均得失点+2.35」。

「全体」は対象期間の全747チームのデータをもとにした結果であり、「打高投低」は最も平均得失点の高い50チーム、「投高打低」は逆に最も低い50チームを対象とした場合の数値である。極端な場合への対応がどれだけ改善するものかを見るために用意した。
結果としては、誤差が最も小さいのは一応日本版RPW方式ではあるが、いずれの予測方式もほぼ差がないものとなった。あえて言えば単純な割り算モデル(回帰)は一段劣るように見えるが決定的な差ではないし、日本版RPWが良い結果を出すのはそもそも検証の対象となるデータを使用して作成した「後出しじゃんけん」なのだから当然である。むしろ日本用の調整なしでほとんど同等の結果を出すパーマー・モデルの有効性を証明した形かもしれない。
5.まとめ
日本における得点環境とRPWの関係を調査し日本版RPWを作成した。しかし、チームの得失点から勝率を予測するという意味では過去にMLBの研究で示されているジェイムズのピタゴラス勝率やパーマーのRPWと比べて特に精度の向上は見られなかった。勝率の予測や選手の評価において、あまりこのあたりのモデル選びに神経質になる必要はなさそうである。
となると今回の試み自体に何の意味があったのか、ということにもなってくるが、そのあたりは漠然と「アメリカでこのような式があるから使えばいいだろう」とするのと日本のデータで改善を試みた結果として差異が認められず可とするのとでは筋が違うということが言える。結果がどうあれとりあえず日本のデータにあたって定量的な分析が示せたのは意味があるのではないかと考えている。
ところで、今季2011年は統一球の導入により得点環境がこれまでとかなり変化している。6月8日の時点で両リーグ合わせて平均得点は3.29であり、日本式RPWに当てはめると8.21となる。RPWの逆数として「1得点あたりの勝利数」を求めると0.122で、「10点で1勝」の場合の0.1と比べると1.22倍。RPWの観点から見れば、今季は例年に比べて1点の価値が1.22倍「重い」シーズンであると表現することができる。
Baseball Lab「Archives」とは?
Baseball Lab「Archives」では2010~2011年にかけてラボ内で行われた「セイバーメトリクス」のコンテンツを公開しております。
野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。
野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。
月別著者コラム
最新コラムコメント
|
|
|
|
|
コメント