プロジェクション(成績予測)の考え方
三宅博人 [ 著者コラム一覧 ]
1.予測に適した打撃イベント
前回のコラムで四球は計算できると書きました。その根拠の一つとしてピザ・カッター氏のリポートを引用し、四球率(四球÷打席数)はより少ない打席数で安打率(安打÷打席数)よりも早く安定した数字に到達するであろうことを紹介しました。他にどんな数字が四球と同様かそれ以上にこのような性格を持っているか?それを紹介することを含めて別表を作成しました。
今回取り上げた項目の基準は、打席での結果の内訳となるものを選びました。データ対象は前回と同じく2年連続で500打席以上立った打者、期間も同じく2005年から2010年です。該当した選手は61選手、延べ人数で128名でした。
打席に対する占有率とは、打席数に対してある結果がどの程度の割合を占めていたかというもので、別表の”参考”より上の項目の合計はほぼ100%となります。実際には100.2%となってしまっていますが、数字を丸めた際の誤差です。相関係数とは二つの関連性を表していて、二つの関係が完全に比例するとき最大値1を取る。相関係数の対象は、連続したシーズンのみで、例えば2005年と2008年での比較は行っておりません。説明率とは相関係数を二乗したもので、相関係数ではイメージしづらい方のために追加しました。説明率とは何かについては、誤解を避けるためここでは説明しません。”相関 説明率”等のキーワードにて検索していただくことをお勧め致します。
最後のXR指数は参考のために載せました。引用はWIKIPEDIAからで、2010年10月30日現在(日本時間)のものです。”参考”は既にお分かりだと思いますが、安打の内訳での結果となります。
取りあえず”参考”の部分は置いておきまして、四球と同等かそれ以上に少ない打席数で、安定した数字に落ち着きそうなものは、表中の相関係数を基準に考えますと、三振、犠打、三振以外のアウトが挙げられそうです。しかし犠打の場合、打席数に対しての占有率が低い上、XR指数もかなり低く、トータルでの選手評価への影響度はあまりないと考えて良いでしょう。また、過去の成績からその選手の将来を予測する際、ピンポイントでの予測はほぼ不可能で、そのピンポイントを中心としてある程度の範囲を持って予測するのが現実的だと思います。その場合、犠打程度の影響度ですと、他の数字の予測範囲に飲み込まれてしまいそうでもあります。もちろん、少ない影響度であっても、予測する価値がまったくないわけではありませんが、重要度はかなり落ちると思われます。従って、打席に対する占有率を考慮した上で重要度が高いと考えられ、かつ少ないデータから信頼ある数字を得られそうなのは、打席以外のアウト、三振、四球と考えられます。
2.成績予測の必要性
ここでなぜプロジェクション(予測)が必要なのかについて少し考えて見ましょう。まず、もしあなたがある野球チームのGMであるなら、選手編成の際に必要な材料となります。自チームの現有戦力を把握しないことには、どこをどのように補強すべきか作戦を立てることはできません。また、あなたがファンタジーゲームのあるチームのオーナーである場合、ドラフトの資料としてに大いに役立てることができるでしょう。プロジェクションに有効である独自な公式を見つけることにより、ドラフト下位の有力な選手を発見できるかもしれません。
実際にMLBのチームのフロントで仕事をしたわけではありませんから、実情は不明ですが、かなりのチームが選手の評価に統計的手法を取り入れていることは間違いないと思われます。オークランドの成功が大きいとも思いますが、野球をビジネスとしてとらえ、そこから確実に利益を得ようとするスタンスをどのチームも持っていますので、合理的な選手評価を採用することは当然の帰結と言えるのかもしれません。
またチームだけではなく、ファンやメディアの間でもプロジェクションデータは普及しています。普及の要因としましては、やはりファンタジーゲームの存在が考えられます。このゲームについての詳細は省きますが、一部では現金を賭けて楽しんでいるファンも存在し、かなり真剣に取り組む人も少なくはありません。そんなファンのために、さまざまな形態がありますが、いくつかのウエブサイトではプロジェクションデータを公開しています。ピザ・カッター氏のリポートの目的も、それ自体はプロジェクションではありませんが、ファンタジーゲームを楽しむ人のヒントとして発表されたものでした。
ファンタジーゲームに利用するだけではなく、セイバーメトリクスの魅力に取り付かれてしまったファンにとっては、プロジェクションはかっこうの実験発表の場とも言えるかもしれません。もともとセイバーメトリクスは正当な選手評価を追い求めているわけですから、それを究極的に表現できる一つの手法になります。しかし、同時に数字での選手評価について限界を感じるのもプロジェクションであったりするわけで、これからそれについて書き進めて行きたいと思います。
3.予測の実施
話を四球に戻すと同時に、ある仮説をいくつか立てたいと思います。仮説①ある選手は、それぞれの打撃成績項目について、それぞれのレベルを持っている。※例えば打率なら2割8分程度などの。仮説②そのレベルは不変なものではなく、技術革新等を含んだレベルアップ等により、変化する場合がある。仮説③実際の結果の数字とその選手が持つレベルとは必ずしも一致しない。仮説④”仮説③”の差は、運や誤差によるものである。
仮説②については、後日別な機会で触れます。①③④についてこの仮説を立てた根拠について説明します。最初にこちらのグラフをご覧ください。

このグラフは先の表の元データを使い、四球率の変化をそれぞれ計算し、ヒストグラムにしたものです。そして、計算された結果から標準偏差を求め、平均0としてそれから計算される正規分布曲線を重ねました。実際の平均値は0.00421・・・、中央値は0.0025、ちなみに標準偏差は0.0242・・・。この元データは過去1シーズン分のみが基準となっていますが、過去3シーズンの平均と比較した場合は以下の通りとなりました。平均値0.0014・・・、中央値-0.003、標準偏差0.0229・・・。※1データ対象は連続した3年間の平均打席数が500以上、かつ翌年の打席が500以上だった選手。※2比較は、連続した3年間の結果とその翌年分となる。※3対象選手は44名で延べ人数は85人。

二つのサイコロを何度も転がし、その二つの目の結果をヒストグラムにすると、平均7を中心とした正規分布曲線に近づいていくことは、よく知られています。としますと、示した二つのグラフを見る限り、私が立てた仮説③と④はリーズナブルな感じもします。またサンプルが多いほど平均値が0にも近づいているようですので①についても、表現の方法は別として、何か基準となりそうな数字はあるかもしれません。仮説についての信ぴょう性はこれ以上追及しませんが、仮にこれらの仮説が正解であったとしましょう。
つまりある打者の四球率(四球÷打席数)に於(お)ける能力がXだとすると、あるシーズンのその打者の実際の四球率はプラスマイナス2.42%(仮に上のグラフの標準偏差を採用した場合)に収まるケースは7割弱(68.26%)あるということになります。※”7割弱”の記述についてはWIKIPEDIAの”偏差値”の正規分布曲線を参考としてください。2.42%を500打席換算にしますと12.1となります。これがプラスマイナス両側に振れますので、予測の幅は倍の24.2個になります。
4.予測の効能と限界
09年のロッテの西岡は67個四球を選びましたので10年は55個弱~79個強の間に収まると予想されます(注:これは西岡が両シーズン共に500打席であった場合です。実際には西岡は両シーズン共に500打席以上立っていますのでこの計算は成り立ちません)。しかしこの予想は先ほども書いた通り7割弱正解になるだろうということで、3割強はこの枠外に出る可能性が残されているということになります。正直拍子抜けの感もありますが、これが数字の限界と言えるのかもしれません。またご存じの通り、野球の場合に限らず、不測の事態は”よく起こる”もので、例えば選手のけがなどがその一つでしょう。先ほどの”7割予想”も、過去と同等の打席数を期待してのもので、それと率を掛け算することによって量(四球数等)が得られ、それがチーム編成などにおいて重要なものになるわけです。打席数が少なくなれば当然期待分は得られない上、また少ない打席数では信頼できる”率”も得られないことはピザ・カッター氏のリポート通り。つまり、その選手の結果という面においてプロジェクションはまったく役に立たなかったということになります。
しかし同時にプロジェクションをしていなければ、けがによって選手を失った時に、チームとして”何”を失ったのかが把握できないことにもなります。仮に西岡を失ったとすると、彼に替わる選手はそうそういませんので高い外国人でも補強するか?なんてことにもなりかねません。しかし、チームの戦力分析がしっかりできていれば、補強もミニマムで抑えることが可能でしょう。それは必ずしも西岡と同タイプでレベルダウンの選手を充てるという補強ではなく、複数の選手あるいは別の観点でのプロダクションアップを狙い、西岡レベルを目指すという選択肢が増えるということです。
もっとも目指した補強ができたとして、結果がそれに伴うかは運次第という部分は少なからずあります。それが野球の面白いとこでもあるんですけどね。野球チームのマネジメントは結果ビジネスという側面があり、また結果が収益にも影響しますから、それについて責任を取ることは致し方がないのかもしれません。しかし個人で過去に何度かチームのプロジェクションをして来ましたが、その経験から考えますと、1シーズンのみで結果を出すということは神業です。願わくば、野球チーム経営陣にはそんな事情も理解し、長期的視点に立ってもらいたいものです。
前回のコラムで四球は計算できると書きました。その根拠の一つとしてピザ・カッター氏のリポートを引用し、四球率(四球÷打席数)はより少ない打席数で安打率(安打÷打席数)よりも早く安定した数字に到達するであろうことを紹介しました。他にどんな数字が四球と同様かそれ以上にこのような性格を持っているか?それを紹介することを含めて別表を作成しました。
打席に対する占有率 | 相関係数 | 説明率 | XR指数(MLB Version) | ||
安打 | 25.9% | 0.3252 | 10.6% | N/A | |
三振 | 15.3% | 0.8143 | 66.3% | -0.98 | |
四球(敬遠含む) | 9.1% | 0.7166 | 51.4% | 0.34 | ※左の数字は四死球合計から敬遠を引いた場合でのXR指数である。 |
死球 | 1.0% | 0.5871 | 34.5% | 0.34 | ※左の数字は四死球合計から敬遠を引いた場合でのXR指数である。 |
犠打 | 1.1% | 0.7465 | 55.7% | 0.04 | |
犠飛 | 0.7% | 0.2067 | 4.3% | 0.37 | |
三振以外のアウト (打数マイナス安打、除く;犠打・犠飛) | 47.1% | 0.7952 | 63.2% | -0.90 | |
参考 | |||||
本塁打 | 3.2% | 0.8424 | 71.0% | 1.44 | |
1塁打 | 17.8% | 0.5899 | 34.8% | 0.50 | |
2塁打 | 4.5% | 0.3112 | 9.7% | 0.72 | |
3塁打 | 0.4% | 0.5289 | 28.0% | 1.04 | |
本塁打以外の安打 | 22.7% | 0.5075 | 25.8% | N/A |
今回取り上げた項目の基準は、打席での結果の内訳となるものを選びました。データ対象は前回と同じく2年連続で500打席以上立った打者、期間も同じく2005年から2010年です。該当した選手は61選手、延べ人数で128名でした。
打席に対する占有率とは、打席数に対してある結果がどの程度の割合を占めていたかというもので、別表の”参考”より上の項目の合計はほぼ100%となります。実際には100.2%となってしまっていますが、数字を丸めた際の誤差です。相関係数とは二つの関連性を表していて、二つの関係が完全に比例するとき最大値1を取る。相関係数の対象は、連続したシーズンのみで、例えば2005年と2008年での比較は行っておりません。説明率とは相関係数を二乗したもので、相関係数ではイメージしづらい方のために追加しました。説明率とは何かについては、誤解を避けるためここでは説明しません。”相関 説明率”等のキーワードにて検索していただくことをお勧め致します。
最後のXR指数は参考のために載せました。引用はWIKIPEDIAからで、2010年10月30日現在(日本時間)のものです。”参考”は既にお分かりだと思いますが、安打の内訳での結果となります。
取りあえず”参考”の部分は置いておきまして、四球と同等かそれ以上に少ない打席数で、安定した数字に落ち着きそうなものは、表中の相関係数を基準に考えますと、三振、犠打、三振以外のアウトが挙げられそうです。しかし犠打の場合、打席数に対しての占有率が低い上、XR指数もかなり低く、トータルでの選手評価への影響度はあまりないと考えて良いでしょう。また、過去の成績からその選手の将来を予測する際、ピンポイントでの予測はほぼ不可能で、そのピンポイントを中心としてある程度の範囲を持って予測するのが現実的だと思います。その場合、犠打程度の影響度ですと、他の数字の予測範囲に飲み込まれてしまいそうでもあります。もちろん、少ない影響度であっても、予測する価値がまったくないわけではありませんが、重要度はかなり落ちると思われます。従って、打席に対する占有率を考慮した上で重要度が高いと考えられ、かつ少ないデータから信頼ある数字を得られそうなのは、打席以外のアウト、三振、四球と考えられます。
2.成績予測の必要性
ここでなぜプロジェクション(予測)が必要なのかについて少し考えて見ましょう。まず、もしあなたがある野球チームのGMであるなら、選手編成の際に必要な材料となります。自チームの現有戦力を把握しないことには、どこをどのように補強すべきか作戦を立てることはできません。また、あなたがファンタジーゲームのあるチームのオーナーである場合、ドラフトの資料としてに大いに役立てることができるでしょう。プロジェクションに有効である独自な公式を見つけることにより、ドラフト下位の有力な選手を発見できるかもしれません。
実際にMLBのチームのフロントで仕事をしたわけではありませんから、実情は不明ですが、かなりのチームが選手の評価に統計的手法を取り入れていることは間違いないと思われます。オークランドの成功が大きいとも思いますが、野球をビジネスとしてとらえ、そこから確実に利益を得ようとするスタンスをどのチームも持っていますので、合理的な選手評価を採用することは当然の帰結と言えるのかもしれません。
またチームだけではなく、ファンやメディアの間でもプロジェクションデータは普及しています。普及の要因としましては、やはりファンタジーゲームの存在が考えられます。このゲームについての詳細は省きますが、一部では現金を賭けて楽しんでいるファンも存在し、かなり真剣に取り組む人も少なくはありません。そんなファンのために、さまざまな形態がありますが、いくつかのウエブサイトではプロジェクションデータを公開しています。ピザ・カッター氏のリポートの目的も、それ自体はプロジェクションではありませんが、ファンタジーゲームを楽しむ人のヒントとして発表されたものでした。
ファンタジーゲームに利用するだけではなく、セイバーメトリクスの魅力に取り付かれてしまったファンにとっては、プロジェクションはかっこうの実験発表の場とも言えるかもしれません。もともとセイバーメトリクスは正当な選手評価を追い求めているわけですから、それを究極的に表現できる一つの手法になります。しかし、同時に数字での選手評価について限界を感じるのもプロジェクションであったりするわけで、これからそれについて書き進めて行きたいと思います。
3.予測の実施
話を四球に戻すと同時に、ある仮説をいくつか立てたいと思います。仮説①ある選手は、それぞれの打撃成績項目について、それぞれのレベルを持っている。※例えば打率なら2割8分程度などの。仮説②そのレベルは不変なものではなく、技術革新等を含んだレベルアップ等により、変化する場合がある。仮説③実際の結果の数字とその選手が持つレベルとは必ずしも一致しない。仮説④”仮説③”の差は、運や誤差によるものである。
仮説②については、後日別な機会で触れます。①③④についてこの仮説を立てた根拠について説明します。最初にこちらのグラフをご覧ください。

このグラフは先の表の元データを使い、四球率の変化をそれぞれ計算し、ヒストグラムにしたものです。そして、計算された結果から標準偏差を求め、平均0としてそれから計算される正規分布曲線を重ねました。実際の平均値は0.00421・・・、中央値は0.0025、ちなみに標準偏差は0.0242・・・。この元データは過去1シーズン分のみが基準となっていますが、過去3シーズンの平均と比較した場合は以下の通りとなりました。平均値0.0014・・・、中央値-0.003、標準偏差0.0229・・・。※1データ対象は連続した3年間の平均打席数が500以上、かつ翌年の打席が500以上だった選手。※2比較は、連続した3年間の結果とその翌年分となる。※3対象選手は44名で延べ人数は85人。

二つのサイコロを何度も転がし、その二つの目の結果をヒストグラムにすると、平均7を中心とした正規分布曲線に近づいていくことは、よく知られています。としますと、示した二つのグラフを見る限り、私が立てた仮説③と④はリーズナブルな感じもします。またサンプルが多いほど平均値が0にも近づいているようですので①についても、表現の方法は別として、何か基準となりそうな数字はあるかもしれません。仮説についての信ぴょう性はこれ以上追及しませんが、仮にこれらの仮説が正解であったとしましょう。
つまりある打者の四球率(四球÷打席数)に於(お)ける能力がXだとすると、あるシーズンのその打者の実際の四球率はプラスマイナス2.42%(仮に上のグラフの標準偏差を採用した場合)に収まるケースは7割弱(68.26%)あるということになります。※”7割弱”の記述についてはWIKIPEDIAの”偏差値”の正規分布曲線を参考としてください。2.42%を500打席換算にしますと12.1となります。これがプラスマイナス両側に振れますので、予測の幅は倍の24.2個になります。
4.予測の効能と限界
09年のロッテの西岡は67個四球を選びましたので10年は55個弱~79個強の間に収まると予想されます(注:これは西岡が両シーズン共に500打席であった場合です。実際には西岡は両シーズン共に500打席以上立っていますのでこの計算は成り立ちません)。しかしこの予想は先ほども書いた通り7割弱正解になるだろうということで、3割強はこの枠外に出る可能性が残されているということになります。正直拍子抜けの感もありますが、これが数字の限界と言えるのかもしれません。またご存じの通り、野球の場合に限らず、不測の事態は”よく起こる”もので、例えば選手のけがなどがその一つでしょう。先ほどの”7割予想”も、過去と同等の打席数を期待してのもので、それと率を掛け算することによって量(四球数等)が得られ、それがチーム編成などにおいて重要なものになるわけです。打席数が少なくなれば当然期待分は得られない上、また少ない打席数では信頼できる”率”も得られないことはピザ・カッター氏のリポート通り。つまり、その選手の結果という面においてプロジェクションはまったく役に立たなかったということになります。
しかし同時にプロジェクションをしていなければ、けがによって選手を失った時に、チームとして”何”を失ったのかが把握できないことにもなります。仮に西岡を失ったとすると、彼に替わる選手はそうそういませんので高い外国人でも補強するか?なんてことにもなりかねません。しかし、チームの戦力分析がしっかりできていれば、補強もミニマムで抑えることが可能でしょう。それは必ずしも西岡と同タイプでレベルダウンの選手を充てるという補強ではなく、複数の選手あるいは別の観点でのプロダクションアップを狙い、西岡レベルを目指すという選択肢が増えるということです。
もっとも目指した補強ができたとして、結果がそれに伴うかは運次第という部分は少なからずあります。それが野球の面白いとこでもあるんですけどね。野球チームのマネジメントは結果ビジネスという側面があり、また結果が収益にも影響しますから、それについて責任を取ることは致し方がないのかもしれません。しかし個人で過去に何度かチームのプロジェクションをして来ましたが、その経験から考えますと、1シーズンのみで結果を出すということは神業です。願わくば、野球チーム経営陣にはそんな事情も理解し、長期的視点に立ってもらいたいものです。
Baseball Lab「Archives」とは?
Baseball Lab「Archives」では2010~2011年にかけてラボ内で行われた「セイバーメトリクス」のコンテンツを公開しております。
野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。
野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。
月別著者コラム
最新コラムコメント
|
|
|
|
|
コメント