野球のデータを分析してみませんか Part.1~データって何だ?
Student [ 著者コラム一覧 ]
1.はじめに
セイバーメトリクスと聞いたら何をイメージするでしょうか?出塁率やOPS,FIPやDER,UZRなどでしょうか?
挙げればきりがありませんが,一般にセイバーメトリクスというとこれらの指標をさしていうことが多いようです。これらの指標は,野球をより実態に即した,勝つために有効な評価基準を見いだすことを目標に作られたものであります。
この「より実態に即した,勝つために有効な」ということを客観的に証明するためには数学,特に統計学的な方法論の理解が必要となります。
統計学の手法が理解できれば,今後も続々と開発されるであろう様々な指標を理解しやすくなります。また,自分でデータが分析できるようになれば,今まで誰も気がついていない野球の真理を最初に発見できるようになるかもしれません。
とはいっても,数学・統計学と聞くと反射的に敬遠したくなる人が多いのも事実です。また,私も統計を利用はしますが,専攻しているわけではないので,どちらかというとかみ砕いて理解しているレベルです。しかし,最初から専門的で詳細な解説をして頭をパンクさせるくらいならば,かみ砕いたレベルの解説から入門してみるのも1つの方法です。
というわけで,野球におけるデータ分析の方法やデータを扱っていく上での約束事について,ごくごくかみ砕いた解説をやってみようというのが今回のテーマになります。統計学入門のための入門編といったところです。
自動車でたとえるならば,車が動く仕組みの理解はさておき,ハンドルの切り方とアクセル・ブレーキの踏み方,方向指示器の出し方を解説して運転に出発する感じです。統計の先生が読んだら味噌汁を吹き出してしまうような内容かもしれませんが,入門の入門レベルですのでご了承ください。
解説をしていく上での心得を明言しておきます。
・野球のデータを用いながら解説する
・難しい数式は使わない(+,-,×,÷の使用に留める)
・高校生でもわかる内容を目指す
できることならば,この解説によって野球のデータの理解が進み,自分でも分析してみようという人が増えてくれたらありがたいです。未来を担うセイバーメトリシャンが読んでくれていればこれ以上嬉しいことはありません。
ただし,生兵法は怪我のもとです。そして,私の解説ほど生兵法なものはないと思って間違いありません。この解説を読んで自分でも分析してみようと思った方がいらしたら,改めてきちんと統計学を勉強するか,分析のできる人に相談することを勧めます。
2.データって何だ?
以上が企画趣旨というか理念の話で,ここからが解説になります。車の操作方法だけ解説して,さっさと運転すると豪語しましたが,やはりある程度交通ルールの理解が必要なように,分析方法を解説する前にデータを扱う上での約束事を解説していきたいと思います。
まずは「データって何だ?」という,当たり前のようでいてあまり議論されることのないテーマです。
セイバーメトリクスに対するアンチテーゼとして「野球はデータで割り切れない」という主張があります。ですが,そもそも野球におけるデータとはいったい何なのでしょうか?
答えは「記録と記録をまとめたもの」です。何回打席に立ったか,何本ヒットを打ったか,何球投げたか,何点取ったか取られたか等々,野球は記録で溢れています。これらの記録1つ1つがデータとなります。そして,これらの記録は多すぎるので記録をまとめる必要が出てきます。記録のまとめ方には2種類あります。1つは「数値を要約する」ことで,もう1つは「視覚的に整理する」ことです。
数値を要約する
数値を要約するとはどういうことでしょうか。それにはまず以下の表1を見てください。

この表は,巨人のラミレス選手の2010年に出場した144試合での安打数です。数値は144個あるはずです。この表をパッと見ただけでラミレス選手がどれくらいヒットを打ったかを理解できる人はなかなかいないはずです。データ(記録)が増えすぎると,それを一望しただけでは理解ができなくなることが伝わったでしょうか。この問題を解決するためには,データ(記録)を要約する,つまり「打率」を出してやれば済むわけです。打率を出せば144個あったデータを1つの値で示すことができますし,その値を見ればどの程度の成績かも理解できます。
冒頭に例としてあげた様々な指標も基本的にはこの「要約されたデータ(記録)」に該当します。計算方法こそ違えども,基本的には多くのデータを要約したものであるという点では共通しています。
視覚的に整理する
視覚的に整理するというのは,文字通り図や表にして整理することです。人間は視覚に依存して生きているので,データが視覚的に整理されれば,直感的にそれを理解することができます。図1に2010年のラミレス選手と坂本選手の打率の推移を示します。

このようにグラフ化すれば,詳しい数値はわかりませんが,年間通しての打率の変化を見て取ることができます。全く新しい分析をするときには,まずはこのように視覚的に整理することで,データの傾向を理解しておくと,後々の分析が楽になることがあります。
以上が,野球におけるデータです。要するに,球場で起こっていることが全てデータ(記録)となりうるということです。ということは,「野球はデータで割り切れない」という言葉はナンセンスになってしまいます。大体特定の選手やチームを,スコアブックに掲載されている記録だけでも除けて説明するのは至難の業です。「野球はデータで割り切れない」が信条の人でも「あの選手はどれくらいヒットや本塁打を打った」という説明はするはずですから……。
3.まとめ
以上,野球におけるデータの解説でした。数値の要約と視覚的な整理はどちらが優れているというものではないので,できれば両方併記してある方が望ましいです。当たり前だけど,あまり話題にならないデータの話でした。今後は,データ分析のコラムの合間に時々挟んでいきたいと考えています。
セイバーメトリクスと聞いたら何をイメージするでしょうか?出塁率やOPS,FIPやDER,UZRなどでしょうか?
挙げればきりがありませんが,一般にセイバーメトリクスというとこれらの指標をさしていうことが多いようです。これらの指標は,野球をより実態に即した,勝つために有効な評価基準を見いだすことを目標に作られたものであります。
この「より実態に即した,勝つために有効な」ということを客観的に証明するためには数学,特に統計学的な方法論の理解が必要となります。
統計学の手法が理解できれば,今後も続々と開発されるであろう様々な指標を理解しやすくなります。また,自分でデータが分析できるようになれば,今まで誰も気がついていない野球の真理を最初に発見できるようになるかもしれません。
とはいっても,数学・統計学と聞くと反射的に敬遠したくなる人が多いのも事実です。また,私も統計を利用はしますが,専攻しているわけではないので,どちらかというとかみ砕いて理解しているレベルです。しかし,最初から専門的で詳細な解説をして頭をパンクさせるくらいならば,かみ砕いたレベルの解説から入門してみるのも1つの方法です。
というわけで,野球におけるデータ分析の方法やデータを扱っていく上での約束事について,ごくごくかみ砕いた解説をやってみようというのが今回のテーマになります。統計学入門のための入門編といったところです。
自動車でたとえるならば,車が動く仕組みの理解はさておき,ハンドルの切り方とアクセル・ブレーキの踏み方,方向指示器の出し方を解説して運転に出発する感じです。統計の先生が読んだら味噌汁を吹き出してしまうような内容かもしれませんが,入門の入門レベルですのでご了承ください。
解説をしていく上での心得を明言しておきます。
・野球のデータを用いながら解説する
・難しい数式は使わない(+,-,×,÷の使用に留める)
・高校生でもわかる内容を目指す
できることならば,この解説によって野球のデータの理解が進み,自分でも分析してみようという人が増えてくれたらありがたいです。未来を担うセイバーメトリシャンが読んでくれていればこれ以上嬉しいことはありません。
ただし,生兵法は怪我のもとです。そして,私の解説ほど生兵法なものはないと思って間違いありません。この解説を読んで自分でも分析してみようと思った方がいらしたら,改めてきちんと統計学を勉強するか,分析のできる人に相談することを勧めます。
2.データって何だ?
以上が企画趣旨というか理念の話で,ここからが解説になります。車の操作方法だけ解説して,さっさと運転すると豪語しましたが,やはりある程度交通ルールの理解が必要なように,分析方法を解説する前にデータを扱う上での約束事を解説していきたいと思います。
まずは「データって何だ?」という,当たり前のようでいてあまり議論されることのないテーマです。
セイバーメトリクスに対するアンチテーゼとして「野球はデータで割り切れない」という主張があります。ですが,そもそも野球におけるデータとはいったい何なのでしょうか?
答えは「記録と記録をまとめたもの」です。何回打席に立ったか,何本ヒットを打ったか,何球投げたか,何点取ったか取られたか等々,野球は記録で溢れています。これらの記録1つ1つがデータとなります。そして,これらの記録は多すぎるので記録をまとめる必要が出てきます。記録のまとめ方には2種類あります。1つは「数値を要約する」ことで,もう1つは「視覚的に整理する」ことです。
数値を要約する
数値を要約するとはどういうことでしょうか。それにはまず以下の表1を見てください。

この表は,巨人のラミレス選手の2010年に出場した144試合での安打数です。数値は144個あるはずです。この表をパッと見ただけでラミレス選手がどれくらいヒットを打ったかを理解できる人はなかなかいないはずです。データ(記録)が増えすぎると,それを一望しただけでは理解ができなくなることが伝わったでしょうか。この問題を解決するためには,データ(記録)を要約する,つまり「打率」を出してやれば済むわけです。打率を出せば144個あったデータを1つの値で示すことができますし,その値を見ればどの程度の成績かも理解できます。
冒頭に例としてあげた様々な指標も基本的にはこの「要約されたデータ(記録)」に該当します。計算方法こそ違えども,基本的には多くのデータを要約したものであるという点では共通しています。
視覚的に整理する
視覚的に整理するというのは,文字通り図や表にして整理することです。人間は視覚に依存して生きているので,データが視覚的に整理されれば,直感的にそれを理解することができます。図1に2010年のラミレス選手と坂本選手の打率の推移を示します。

このようにグラフ化すれば,詳しい数値はわかりませんが,年間通しての打率の変化を見て取ることができます。全く新しい分析をするときには,まずはこのように視覚的に整理することで,データの傾向を理解しておくと,後々の分析が楽になることがあります。
以上が,野球におけるデータです。要するに,球場で起こっていることが全てデータ(記録)となりうるということです。ということは,「野球はデータで割り切れない」という言葉はナンセンスになってしまいます。大体特定の選手やチームを,スコアブックに掲載されている記録だけでも除けて説明するのは至難の業です。「野球はデータで割り切れない」が信条の人でも「あの選手はどれくらいヒットや本塁打を打った」という説明はするはずですから……。
3.まとめ
以上,野球におけるデータの解説でした。数値の要約と視覚的な整理はどちらが優れているというものではないので,できれば両方併記してある方が望ましいです。当たり前だけど,あまり話題にならないデータの話でした。今後は,データ分析のコラムの合間に時々挟んでいきたいと考えています。
Baseball Lab「Archives」とは?
Baseball Lab「Archives」では2010~2011年にかけてラボ内で行われた「セイバーメトリクス」のコンテンツを公開しております。
野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。
野球を客観視した独自の論評、分析、および研究を特徴として、野球に関するさまざまな考察をしています。
月別著者コラム
最新コラムコメント
|
|
|
|
|
コメント