先行偏差値をPythonのLightGBMで予測した結果RMSEが8.65まで下がった。
つまり精度があがりました。
前走の先行偏差値の一変数だけで予測したRMSEは11.52。
そしてLightGBMの学習スピードがRのランダムフォレストと比較して滅茶苦茶速い。
LightGBMを使う利点が良く分かりました。
グラフは縦軸(予測偏差値) 横軸(結果偏差値)です。
なんとなく相関が見られますが、赤の直線上に並ぶのが理想的なので、
少しズレが見られます。バラつきがまだ大きいということが分かります。
出遅れのデータは削除して学習しました。
そして、Rで出力したランダムフォレストの各変数の影響度を
↓に出力しました。先行偏差値に関する影響度です。
各変数の意味は
mae:先行偏差値
ato:追い込み偏差値
kmae:前走の先行偏差値
kato:前走の追い込み偏差値
uchi:内枠の隣の馬
soto:外枠の隣の馬
z_*_mean:前5走の平均偏差値
「外枠の隣の馬の先行偏差値 soto_mae」の影響度が高い
というのが新しく分かった事です。
soto_mae>uchi_mae なんです。
つまり先行争いの時に
外側の隣の馬がスタートが良ければ、負けじと追いかけるが
内側の隣の馬のスタートが良ければ、追いかけるが、外側の馬ほど追いかけない
という傾向があることが分かりました。
もっと具体的に言うと
馬番2番の馬の気持ちになって考えると
外の3番馬のスタートが良ければ、2番の馬は外から被せられないようにスタートが早目になる。
内の1番馬のスタートが良ければ、2番の馬は被せられないので1番の後ろを追いかける。
みたいな感じかもしれません。
展開図では追い込み馬なのに隣の馬番の馬につられて先行する馬が出てくるという
仮説が少し証明されたと思います。