clew

どっかの誰かの役にたてばうれしい。

第688回トトくじ13枠の結果について反省する。。

第688回トトくじ13枠の正解率は?・・・6/13

悪すぎ。。しかもマルチ・・・W2T1 でこの成績です。
情けない。。

ある程度は正解率に振れ幅があるのは想定していましたが、ここまで悪くなるとは思わなかったです。
データ構成やアルゴリズムのチューニングをした直後でしたのでショックも大きいですよ。。

間違い探しはどうだったのか?

さて、今回試してみた ”自分の予測を判定する” は・・・

13枠中 7箇所 がクロ判定でした。
その結果をもう一度アップしてみますね。

f:id:swat777:20140420193223j:plain

まあ見ての通りですが・・・

7枠中 4つも正解してしまいました。
こんなもの当ててもしょうがないんですけどね。。

予測ミス判定について

今回試したこのミス判定について少し書いてみます。

全体を見て、まず alg1~alg3 はあまり精度がよろしくない。
alg4 と alg5 を合成したものが良い予測をしていますね。

2枠の 清水ハズシ はちょっと買いにくいですが、あとは本命残しの ”どちらか” をプラスしてダブルで買うという選択をすることはできる。

ややマルチが多くなって買いにくくはなりますが、絶対無理という範疇でもない。
まあ、そこまでしても ノーマーク・・・ たとえば ガンバ とか 広島 なんかも外していますから入賞は無理でしたけどね。。(あと 松本ー京都 ですね。。)

仮想購入ということだったら面目は保てたかもしれません。

機械判定による”ミス判定”の方法

さて、直接の予想とはあまり関係がなさそうなので、その方法を少し解説しておきます。
ほとんど需要はないと思われますが・・・

まずデータは予測に使用したものを、そのまま使います。
最後の列に予想結果をマルチ、もしくはシングルでもいいので混在させた形にはなると思いますが付け加えます。
これらがすべて説明変数となります。

目的変数として 最後の列にもう一度、これまでの成績を 2分類・・・たとえば yes no とか
その他なんでもいいので 2値 で記入します。
判定させるところは ? としておきます。データ記入の際は 半角英数 が基本です。
WEKAだと文字化けして判読不能になりますので。

アルゴリズムは何を使ったのか?

さて肝心のアルゴリズム・・・

今回の alg4, alg5 は 基本的に naive bayes です。

その設定は以下の2種類を使用しています。

kernel Estimator

supervised discretization

結果を見ても分かるとおり完璧ではありませんが、試した中では優秀な方じゃないかと思います。
予測精度はアルゴリズムだけの問題じゃなくて、 ”データ依存” ということもあるので難しいですね。

(データの質にもよるということ)

とにかく今回は完敗でした。ブログ村のほうで予想の評価をお願いした直後のこの惨敗ですからね。。
非常に恥ずかしい。

また出直します。じゃ。