HOME > コラム一覧 > コラム

コラム

信用できるデータと信用できないデータ

Student [ 著者コラム一覧 ]

投稿日時:2011/07/04(月) 10:00rss

1.はじめに
 
 今回は,データの性質について解説をしたいと思います。
 
どこの球団でも良いので,プロ野球チームの監督になったつもりで想像してください。
 
 ある年の開幕前,レギュラーとして信頼していた選手が怪我をしてしまいました。診断の結果,来るシーズンは絶望でポジションにひとつ穴ができてしまいました。二軍から若手を抜擢したいところですが,残念ながら1軍で使えるレベルにある選手はいません。どうやら新しい外国人選手と契約しなくてはいけないことになりました。
 
 リストアップされた選手は2人(仮にAとBとします),同じポジションを守り,守備力に大きな差はないようです。そして,要求している年俸はほぼ同額で手頃なものです。外国人枠の関係上契約できるのはいずれか1人だけです。AとBの前年の打撃成績は,以下のようになっています。もし,あなたが監督だったらどちらの選手を獲得しますか?
 
A:4打数2安打,打率 .500
B:600打数200安打,打率 .333
 
 おそらく,ほぼ全員がBを選ぶと思います。しかし,単純に打率だけを比較したならば,Aの方が高い成績を残しています。けれども,私たちはほとんど考えることなくAよりもBの実力が高いと判断します。出塁率やOPSなどのデータを見なければわからないというほどのことでもないと思います。
 
 では,このA選手の“打率 .500”というデータではなぜ,Bの方が実力があると判断されないのでしょうか?
 
 それは,このデータがタイトルにもあるように「信用できない」データであるからです。野球はデータで語られることが多いスポーツですが,実はデータの中には「信用できる」データと,「信用できない」データがあるというのが今回のテーマです。
 
 
2.信用できないデータとは?
 
なぜA選手の打率 .500は信用できないのでしょうか?
 
 おおよその方には察しがついているとは思いますが,答えは打数が少ないからです。以下の図1に2010年の巨人のラミレス選手と坂本選手の144試合の打率の推移を示します。
 

 
 開幕戦の打率は,ラミレス選手が .500で,坂本選手が .000でした。最終的には,2人とも3割前後の成績に落ちつくのですが,開幕戦の成績を2人の実力であると判断する人は少ないと思います。
 
 図を見てもらうとわかるように,図の左側の開幕直後の成績は,極端に高くなったり低くなったりしています。これはこの2人にだけ見られる現象ではなく,他の選手でも見られる現象です。要するに,消化試合が少ない(=打数が少ない)と成績が不安定になりやすいため,そのデータは選手の実力を反映しておらず,信用できないということです。
 
 野球におけるこのような「信用できない」データに対しては,既に対策が講じられています。規定打席や規定投球回数などがそれにあたります。しかし,この規定数はあくまで首位打者や最優秀防御率を受賞するに値するかどうかの資格であって,データとして信用できるかどうかの基準ではないことには注意してください。
 
 こうしたデータの見方は,わざわざ個々で解説するまでもなく自然に判断できる方も多いと思います。しかし,開幕して間もないのに成績が悪いと「この選手は不調だ」と取り上げられることが多いのも事実です。期待もあるのでしょうか,優れた選手ほどこの傾向が強いように感じます。
 
 しかしながら,開幕早々「不調」と取り上げられる選手の成績は,まだまだ「信用できない」データであることが多いです。そうした選手が本当に調子が悪いのか,それとも打席数が少ないだけなのかという判断は,単純に成績(データ)だけを見てもわからないので注意が必要です。
 
 では,どれくらいのデータ数があれば「信用できる」データなのか?ということが気になるのですが,この基準はケースバイケースなので申し訳ありませんが示すことができません。目安としてはFAN GRAPHSというサイトに「When Samples Become Reliable」というコラムがあるので,そちらを参照してもらえると助かります。
 
 結論としては,データが示されていても,それが「信用できる」データかどうか,元となる数も同時に注意しなくてはならないということです。
 
 
3.データはどれくらい未来を予測するか?
 
 さて,ここまでは過去のデータがどれくらい信用できるかという話でしたが,これは「データで未来がどれくらい予測可能か?」というテーマにもそのまま応用可能です。
 
 過去のデータの場合は,短い期間,少ないデータが信用できませんでしたが,これが未来の予測になると,短い期間,近い将来の予測したデータは信用できない,つまり,近い将来に起こることを予想できないことになります。一方,ある程度の長い期間の予想をしたデータは比較的信用できます。
 
 簡単にいえば,イチロー選手は年間だいだい200本ヒットを打つことは予想可能ですが,明日の試合で何本ヒットを打つかということは,わからないということです。
 
 元野球選手が書いた様々な書籍にも,データを用いることの有効性と,データを信用しすぎることの危険性を指摘していますが,そういった危険性の指摘は主に短い期間,近い将来の予測はできないことを指摘していることが多いです。
 
 いくら配球のデータを集めても,今この打席で次に何を投げてくるかを100%の精度で予想することはできません。そういう時にできるのは,データを元に取るべき行動の優先順位を自分の中で設けておくことくらいでしょうか。
 
 データを扱うものの常として,最終的にはゲームで起こる全てのことを予想できるようになりたいと考えるのが常ですが,残念ながらそう上手くはいかないところが難しいところであり,野球の面白いところでもあります。
 
 以上のように,いくらデータを用いても短い期間,近い将来の予測は信用できませんが,その反面,長期間であれば比較的高い精度を持って予測ができることも忘れてはいけません。自分が知りたいこと,予想したいことに対してデータがどれだけ使えるかということはよく考えておかなければいけない問題です。
 
 
4.まとめ
 
 以上,信用できるデータと信用できないデータの解説をしてみました。最初にあげた,AとB選手の成績のように,特に意識せずに信用できないデータを除くことができていることもありますが,開幕直後に成績の悪い選手を不調と判断してしまうようなこともあり,油断できないテーマです。これからは,データが示された場合はその値をそのまま鵜呑みにするのではなく,まずはそのデータを信用して良いかどうか考えるようにすると,野球の見方が変わって面白くなるかもしれません。
 
 次回は未定ですが,次はデータ数が少ないとなぜ成績が不安定になるのかについて解説使用と考えています。
 
 引用サイト
 ・FAN GRAPHS: When Samples Become Reliable

コメント

名前:
メールアドレス:
コメント:
評価:
star2.gif star2.gif star2.gif star2.gif star2.gif
405af9b2989a117c603982abaf3ccbc8.png?1490228361
画像の英字5文字を入力して下さい。:

トラックバック一覧

  • » CHEAP LOUIS VUITTON BAGS from CHEAP LOUIS VUITTON BAGS
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » Cheap Ray Ban Sunglasses,Fake Ray Ban Sunglasses,Replica Ray Ban Sunglasses from Cheap Ray Ban Sunglasses,Fake Ray Ban Sunglasses,Replica Ray Ban Sunglasses
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » NIKE PAS CHER from NIKE PAS CHER
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » chanel outlet from chanel outlet
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » louis vuitton bags from louis vuitton bags
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » michael kors bags from michael kors bags
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » mulberry outlet from mulberry outlet
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » coach bags from coach bags
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » mulberry bags from mulberry bags
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » cheap jordans from cheap jordans
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » nike lebron 10 from nike lebron 10
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » search engine optimization from search engine optimization
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » VClxcakF from VClxcakF
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » ZsRUqltj from ZsRUqltj
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
  • » クロエバッグ from クロエバッグ
    信用できるデータと信用できないデータ - Baseball LAB「Archives」
Baseball Lab「Archives」とは?
 
Baseball Lab「Archives」では2010~2011年にかけてラボ内で行われた「セイバーメトリクス」のコンテンツを公開しております。

野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。