競馬予想に機械学習を用いているのだが
競馬サイトから38万件のデータを取得
18項目の特徴量を抽出してデータクレンジングを行った
ターゲットとなる順位(1-3位を0、それ以外は1)、過去3走のスピード指数(西田式)、斤量、騎手名(ダミー変数化)、過去3走の平均順位、過去の総賞金額
距離、芝/ダ、馬場、性別、馬齢、馬体重、体重増減など
k近傍法で機械学習させたら
正答率57%になった
1/2はランダムで50%だから当てずっぽうにやった場合より7%程度精度が上がってる計算
だが、そこらの競馬好きのおっさんでもこれぐらいは当てれそう
スクレイピングして大量データを機械学習に掛けましたってだけではそんなに精度上がらんのね
ある程度まとまった量のデータがあるならディープラーニング等で教師なし学習した方がいいんかな
それから一括でfitさせるよりはループ処理を用いてレースごとにfitさせた方がいい気がするんだが
モデルによりfitが初期化されたりされなかったりするらしいので仕様を知っておく必要がある