亀田式スピード指数(βversion)

スピード指数の統計学的解釈 

1.スピード指数とは?

まず最初に断っておきますが、実は亀田自身はスピード指数系予想理論と言うものに対して懐疑的です。大体、全ての馬が『毎レース全力で疾走する』と言う構造そのものがあり得ない仮定だと思っているからです。そう言うワケで、スピード指数理論と言うものをどう捉えるのか、と言う事に関しては、長い間悩んでいた経緯があります。

ただし、視点を変えてみたら、『パフォーマンス評価』のモノサシとしては悪くはないんじゃなかろうか、と言う事にも気づいたんです。と言うのも、スピード指数『だけ』で馬券を取ろうとするのにそもそもムリがあるワケで、一方、同じ馬の調子を測ったり、どの程度最高の指数を叩き出した実績があるのか、または同じコンディションにもかかわらず、どの競馬場でスピード指数が高めになるのか(つまりいわゆる適性、ですね)、そう言った判断材料としては、『全ての馬が同コンディションで走ると仮定する』スピード指数は悪くはないんじゃなかろうか、と思うようになったんです。

例えて言うとこう言う事です。例えば、大学入試ってのがありますよね?当然大学を受ける前に模試を受けたりするワケです。さて、模試の成績だけで大学に入れるかどうかを判定するのは正直ムリがあります。ただし、客観的に自分の模試での偏差値を見て、例えばどの科目が他人に比べて得意なのか?どこに弱点があるのか?どこを重点的に勉強すれば大学に入れるだろうか?調べる為には模試は有効でしょう。模試だけで大学に入れるかどうか判断するのは正直バカバカしいですが(どう見てもバカバカしい限りです)、確かに自分の実力を客観的に判断するにはある程度役に立ってはいるのです。(大体模試だけで大学に入れるかどうか判断できるんだったら、最初から模試を入試にしてしまえばいい、と言うようなおかしなロジックが出てきちゃうんです)

同様の理屈はいわゆるスピード指数にも適用できます。そもそもスピード指数は本来、『客観評価の為のモノサシ』以上でも以下でもありません。前走を鑑みて指数上位から馬券を購入しよう、と言う辺りにムリがあるんです。奇しくもスピード指数の概念を広く紹介したアンドリュー・ベイヤーは自身の著書(これが歴史的に初めてスピード指数に付いて書かれた本です)にこう書いています。ちょっと長いですけど引用してみましょう。

こうして指数をつくれるようになると、自分が全能の科学者であると思いこむようになる。普通ならまごついてしまうようなことでも、いとも簡単にわかってしまうからだ。

四歳馬(注:現三歳馬)が古馬に勝てるのか。3000ドル級のクレーミングレースで際立った勝ち方をした馬が5000ドル級に昇級しても勝てるのか。こんな問いにも、調教師よりずっと正確に答えられるだろう。指数が一番だというだけで、機械的にその馬に賭けても、大勝利を収めるかもしれない。だが一つ、大切なことをわかっていないと落とし穴にはまってしまう。

スピードハンディキャッピング(注:スピード指数を使った予想)に目覚めた人がほとんどそうであるように、僕もその落とし穴にはまってしまった。自分のはじき出した指数にうっとりしてしまい、根本的にふまえておくべきことを無視してしまったのだ。指数を“福音”として考え、今までどのようなレースをしたかを知るためではなく、今回どんなレースをするかを指数に決めさせてしまったのだった。道具として使わないで、決定権を与えたのだ。指数は魔法でも、絶対確実なものでもない。どのレースでも、前走高い指数だったという理由だけで馬に賭けるなら、トータルでは賭け金の三十%ぐらいしか戻ってこないし、結局、細々と稼ぐことになるだろう。

~『勝ち馬を探せ!!』●アンドリュー・ベイヤー/著●山本尊/訳(メタモル出版)より抜粋

僕自身この本に出会えたのは非常に大きかったです。これで取り合えず、一旦スピード指数に対する疑念を横に置いておけるようになった。

そうなんです。良く『スピード指数のべイヤー』と紹介されますが、実際ベイヤー自身は『スピード指数を利用してより良い予想を』とは語っていますが、反面『スピード指数どおりに馬券を買いなさい』とは一切言ってません。言ってないのです。

この『スピード指数上位をとにかく買う』方法論は一種『出目買い』なんですが、日本のスピード指数系予想理論と言うのは、この『出目買い』ばっかなんです。ベイヤーが既に『それはアブないよ』と『スピード指数の本(では無いんですが、実際は。)』で警告してるにも関わらず、です。

それなのに、やれ『スピード指数理論はアメリカ競馬向き』だとか、『スピード指数理論はもう終わった』とか『スローペースの競馬が台頭した』とか、いい加減な批判ばっか出て来て、お前ら全員日本語が読めないのか(笑)。もう日本の馬券本作家はサイテーです(笑)。なんせ読解力がまるっきり無いんですね(笑)。しゃらくさい、ったらありゃしない(笑)。デタラメここに極まれり、だと思っています。

まあ、ハッキリ言いますが、少なくとも知ってる限り、ベイヤーを『正しく読んでる』人は、あとはヒテさんくらいしかいないんじゃないか、と思います。他は殆ど誤読ばっかです。情けない限りです。

ベイヤーの言うとおり、あくまでスピード指数は様々な競馬場/コースを走った個々の馬の過去のバラバラのパフォーマンスを同じ土台に乗せて『論評する為のモノ』であって、決して指数上位から馬券を買う為のものではありません。スピード指数は『目的』ではなくって、あくまで『手段』なんです。少なくとも日本のスピード指数系理論の殆どは『目的』と『手段』を取り違えています。スピード指数は最終地点なんではなくって、あくまで『スタート地点』なんです。ここから予想がスタートするんであって、ここで予想が終わりなんじゃない。

どうも出目系予想が日本では人気があるみたいですが、チャート式馬券術が良かったらそう言う出目本を買って馬券を楽しむべきでしょう。それはハッキリ言うと『勝ち馬予想』ではないんですが、そう言う馬券の楽しみ方もあるでしょうし、別段亀田は否定しません。そしてもっと言っちゃうと、『スピード指数』なんてわざわざ手間かけて計算する必要性なんて無いと思います。

ただし、競馬予想にまじめに取り組んで、『競馬予想をどこからスタートさせようか?』と言う『最初の着眼点』を提供する為には依然とスピード指数は有効なんじゃないか、と思っています。

2.亀田式スピード指数とは?

以上より、亀田式スピード指数と言うのは、あくまで『ベイヤーの思想に則り』作成したものです。これは、あくまで『パフォーマンス』を評価する為のものであって、未来を予測する為のものではありません。お間違いなきよう。

ただし、統計学的観点に従い、なるべくギリギリまで馬のパフォーマンスを正確に評価できるように作ったつもりです。手法は『多変量解析』と言われる統計手法を用いました。

そして、スピード指数の式としては、日本ではいまだポピュラーな『西田式スピード指数』を模して作っています。ある意味古典的な西田式スピード指数の改良版とも取れるとは思いますが、これを採用した理由は、他のスピード指数系理論の作者には悪いんですが、あまりネームヴァリューが無いマイナーなスピード指数の式を改良されてもブログの読者が戸惑うだけだろう、と言う理由が一つ。そして、他の理由も色々あるんですが、それに関しては後述します。

では、亀田式スピード指数の式を紹介させて頂きます。

スピード指数=(基準タイム-走破タイム)×距離指数+80+馬場指数+斤量指数

多分、西田式スピード指数を良く知っている人の中には、

『何じゃコリャ?西田式スピード指数と同じじゃないか!!!』

と思う人もいるとは思います。そうです。殆ど変わりません。と言うか、わざと殆ど変わらない式にしてるんです。亀田的にはオリジナリティを出す為だけに数式をワザと使いにくいように作り直すなんてバカげた事だと思っていますし、そもそも数学的には式なんて如何様にも改変できるんです。そんなどーとでもなる部分に『オリジナルな』労力を割きたくないです。むしろ見慣れた数式の方が扱いやすいでしょうし、『扱いやすさ』と言う意味では、西田式はなかなか良く考えられていると思ってます。

むしろ、亀田式スピード指数の本懐は『式のスタイル』にあるんではなくって、極めてオーソドックスな統計手法、『多変量解析』を用いて基準タイム、距離指数、馬場指数、斤量指数をはじき出した事の方にあるんです。ある意味これら『基準タイム』そして『補正タイム項』と一般的に呼ばれる指数群がスピード指数系理論の命なんですが、亀田式スピード指数はそこに付いては立派なオリジナリティがあると思っています。

何故なら、通常のスピード指数系理論と言うのは、基準タイムを『走破タイムを全部足し合わせてデータ総数で割って』と言ったような算数で作り、その他の補正タイム項を『職人的な勘で』もっと平たく言えば『やや主観を交えつつ』微調整していくらしいんですが、亀田式スピード指数での基準タイムや補正項はそのテの作業を一切行っていません。単純に走破タイムとその他のファクターとの間係を『多変量解析』を使って評価していく、と言う非常に直球的な方法論を用いています。

以下はなるべく数式を用いず、亀田式スピード指数の背景にある考え方を説明して行こうと思います。

3.亀田式スピード指数の母集団

スピード指数の基準タイムを求める際、統計データの母集団をどうするか、と言う問題があり、これに付いても様々な流儀が存在します。

例えば簡単なトコで言うと、過去1年間のデータ、2年間のデータ、3年間のデータ、どれにするか?とかですね。他にも2~3歳戦は省いて古馬のデータだけに絞る、とか1~3着馬だけに絞る、とか色々なやり方があります。

必ずしも統計学的な意味ではないですけれども、通常こう言ったデータを作為的にカットしていく作業をデータクレンジングと呼びます。何故なら、任意の法則性を取り出すために、なるべく『異常値になりやすいと思われる』範囲を『洗ってキレイにしていく』作業だからです。

しかしながら、統計学的に見た場合、では例えば2~3歳馬をカットしたデータで得た基準タイムを用いて果たして2~3歳戦を評価してもいいのか?と言うとかなり疑問に感じます。原理的に基準タイムが『平均走破タイム』である以上、余計な操作をするべきではないんじゃないか、と考えます。また、1~3着馬だけに絞ったデータで他の着順の馬を評価していいのか?と言うのも謎です。原理的にはどうにもおかしな話になってくるのではないか。

以上を鑑みて、亀田式スピード指数では西田式の流儀に従い、『過去3年の走破データを用いる』と言うところだけ継承しました。ただし、亀田式スピード指数で行ったデータクレンジングは、あくまで『競走中止』等の計算の邪魔になる明らかな異常データだけ、です。その他全てに対しては作為的に排除する、などという事は一切行っておりません。

結果亀田式スピード指数の利用した統計データはこの3年間(2004~2006年)で

13万8845件

にものぼります。

恐らくこれだけの大規模な統計データを扱って導き出したスピード指数は史上初なんじゃないか、とか思っています。

4.スピード指数は残差の理論

単純に言うと、スピード指数系理論の根底は、

馬の能力(パフォーマンス)∝走破タイム-基準タイム

と言う大変単純な、かつ分かりやすい仮定が基盤となっています(∝は比例、と言う意味の数学記号)。

そうすると、如何にして基準タイムを求めるのか、と言うのが非常に重要な焦点となり、また、どうして基準タイムを求めるのにスピードハンディキャッパーが命を賭けるのか(と言うと大げさに聞こえますが)、と言う理由にもなっているのです。

一方、多変量解析は、『基準タイムを求める為』にある手法ではありません。当たり前ですが。多変量解析と言うのは、本来は、例えばこの場合ですが、『与えられたファクター(亀田式スピード指数に於いては、競馬場、距離、コース、クラス、馬場状態、斤量の6つ)に従って走破タイムを予測する』と言うのが本懐です。あくまで理論的には、と言う意味ですがね。

しかしながら、『多変量解析』は原理的には『予測の為の手法』ではありますが、ある実値、例えばこの場合走破タイムですが、これをピッタリ当てる事は出来ません。必ず『誤差項』または『残差』と言うモノが出来るんです。つまり、言い方を変えると、『競馬場、距離、コース、クラス、馬場、斤量の6つのファクターによって予測可能な走破タイム』+『残差』と言う形でしか実際の走破タイムを説明できません。そして、『残差』と言うのは、『与えられた6つのファクター以外で走破タイムに影響を与えたもの』として解釈する。まずここまでは宜しいでしょうか?
そして、残差と言うのは例に従えば通常次のように表現されます。

残差=走破タイム-予測走破タイム

これは前出の式と非常に良く似ています。

従って、ここで馬の能力(パフォーマンス)≒残差、と解釈すると、多変量解析で求めた予測走破タイムを数学的には『基準タイム』として解釈して構わない、と言った意味になります。また実際、多変量解析で求まる予測走破タイムは高度な意味での『平均である』と言うのは間違ってはいないワケです。

加えて、もうちょっと統計学で言う『残差』とはどう言う意味なのか、例に従って解説すると、『枠順、馬番、展開、上がりタイム、コーナー通過位置、発馬状態、有利/不利、ジョッキーパフォーマンス』等々々、解析対象としなかった予想ファクター諸々の走破タイムへの影響を全てひっくるめて誤差項とする』、と言うような意味です。これは額面通りスピード指数系理論で言うところの『馬の能力です』と断定しなくても、当面、西田式スピード指数型理論で『求めたい』部分と殆どは一致はするんです。何故なら、西田式スピード指数理論でさえ、表面上はどうあれ、全ての競走結果が大まかに『斤量と馬場状態だけで』説明できるとは考えていないでしょう(もし考えてたとしたらコッチがビックリしてしまいます)。つまり『その他』を全てひっくるめて取り合えずは『馬の力』なり『馬のパフォーマンス』として評価する。そして『定義』とはそう言うものであくまで人間が決めるもの。少なくとも亀田式スピード指数では『その他諸々』と全て合わせて『馬の能力(パフォーマンス)』として評価します。

また、通常、多変量解析の文脈ではもっと予測ファクター数を多くして、あくまで『予測走破タイムの精度』を上げて残差は『誤差として処理する』だけですが、これは理論上の話であって、競馬のように予想ファクターの数が多い問題や、また、現実世界への具体的な適用に関して言うと、実は非常に難しい面を多く抱えています(まさしく机上の理論とも言えます)。従って、必ずしも統計学的な意味ではありませんが、当面の問題、すなわち『競馬場、距離、コース、クラス、馬場、斤量の6つの予想ファクターだけで説明できる予測走破タイム』だけを手に入れて、積極的に残差を『馬の力(パフォーマンス)』として解釈する余地を残しておく方が扱いやすいと思うのです。その辺りでは統計学より『競馬予想』の文脈を重視しました。

以上を鑑みて、あとは多変量解析で要求される統計学的な仮定を満たせばいいだけ、です。その仮定とは、

残差は正規分布する

と言う部分です。

あるいは、スピード指数理論的な文脈で言うと、

馬の能力(パフォーマンス)は正規分布する

と言ってもいいでしょうし、直接、

スピード指数は正規分布する

と言ってもいいでしょう。
正規分布に付いては競馬@Wikiを見てもらうとして、単純に解釈すると、

普通の能力として走った馬が一番多いし、より速く走った馬(優秀な馬)はより数が少なく、またヒドイ走りの馬もより数が少なくなっていく。

と言うような意味です。これは仮定としてそんなに悪くないでしょう。『フツーが一番多い』と言う事で、また、これが成り立たないと『平均』の意味もあまり無くなって来ますし、そうなると『基準タイムを利用して馬のパフォーマンスを評価しよう』と言った作業自体が非常に難しくなってくるんです。

では、実際この仮定が満たされているのか、と言うと、数学的な話をするのが難しいので、以下のグラフをご覧下さい。これが過去3年間の亀田式スピード指数の頻度分布となります。

亀田式スピード指数ヒストグラム

ワリと正規分布として考えても良い分布だと思います。つまり、亀田式スピード指数は理論的には『まあまあだ』と言う事です。

なお、亀田式スピード指数は偏差値の考え方を利用しており、平均を80として分布するように調整している事を申し添えておきます(そして偏差値自体も正規分布するのが前提です)。

5.何故西田式スピード指数を基にしたのか?

以上の議論を鑑みると、ちょっと不思議に思う事があるかもしれません。

それは恐らく次のような事です。

『もっと多変量解析を駆使して“真の馬の力”を取り出すべきではないか?』

とか、もしくは、

『別に西田式スピード指数に合わせなくても良かろう。他にも色々タイム系理論はあるんだろうし。』

等と言うことです。

亀田式スピード指数を使用して受けたいかなる損害についても当サイトで責任を負う事はできません。あくまで自己責任でご利用下さい。 また、亀田式スピード指数に関しては著作権を放棄しません。亀田式スピード指数は亀田馬志に著作権があります。個人の楽しみの為に亀田式スピード指数を利用するのはまったく構いませんが、第3者に提供したり、これを使用して対価を得るなどの行為は禁止させていただきます。

基準タイムへ進む