clew

どっかの誰かの役にたてばうれしい。

第646回トトくじ 13枠予測の結果検証から その2。 直近データの方が予測精度が高い場合がある。

予測精度の高い手法とは?

さて、第646回トトくじについて、しつこく検証を繰り返しているわけですが、予測結果の傾向について自分なりの知見が見えてきたようなので、すこし記録に残しておこうと思います。

累積データで正しく予測することは不可能なのか?

”おそらく、累積タイプのデータではパーフェクト予測は不可能ではないが、かなり精度は落ちるのでマルチ買いを多用しなければならなくなる”

これがまず第一の知見。(知見というのも変だが)

おおよそではありますが、累積タイプのデータによる予測ですと、だいたい50%ぐらいの正解率だと思っていいです。
いくつかのメジャーな分類器、回帰アルゴリズムを使っても正解率は大きく変動したりはしない。
おそらく人力予想で考えても平均すれば、それぐらいの正解率に落ち着くはず。
トトワン予想陣の平均正解率とそんなに大きく乖離しません。

枠数で言うと 7枠ぐらいが平均的な正解率です。

どれくらいの直近データで予測するのが望ましいのか?

今回バックテストにおいて、いくつかパターンを試してみました。
その結果・・・

データ数(行数、インスタンス)を増やすと予測精度が落ちていく、減衰する傾向が見られた。

これはちょっと意外でしたね。。
理由はよく分からないけれども、確かにデータ数を増やしていくと明らかに精度が落ちるんです。
一般的なイメージとしては・・・

データが充実していれば、それに比例して予測精度が上がるはず・・と思われるでしょう。

しかし事実は違う。
ことサッカーのトトくじ予想に関してはそうです。
直前の13枠試合結果をトレーニングデータとして予測させたものが一番予測精度が高かった。
以下にその例を挙げておきます。

f:id:swat777:20130820195410j:plain

上の画像の説明

これは WEKA を用いて予測させた画像です。
赤丸で囲ったところが今回646の予測結果です。右から2列目・・”:”印で区切ったところの数値が試合結果を表しています。

赤丸・・チョンと打ってあるところが間違えた箇所。
2枠と3枠が間違えてますね。。それ以外はすべて正解しているのが確認できるはずです。

シングル予想で 11/13 という正解率です。
ここまで予測できればかなり凄いと思うのですが・・・いかがでしょうか。

同じ予測手法でも開催回によって予測精度にはムラがでる。。

さて、WEKA というフリーソフトを使って色々試行してきたわけですが・・・
今回の予測に関しては、かなり良いところまで予測できています。

しかし他の開催回に対しては同じような予測精度を保つことはできません。
他の手法と比べるとかなり良いけれど、少しブレが生じます。勝敗にはさまざまな要因が絡んでくるので、同じような条件設定でも結果が変わってくるんですね。

しかし、そういう部分を加味して考えてみても、この直近データのみによる予測のほうが精度が高いのではないか?
現状ではそういうふうに考えています。

あとは、やはり ”結果にブレが生じる可能性が高い枠” をどうやって推測するのか?
ってところが課題になってくるんじゃないかと思います。

現状の予測レベルは”そこそこの水準”には達していると自負しています。
極限までマルチを減らして、ピンポイントでマルチを使う枠を正解させることができれば1等当選は現実のものになる。

毎回、同じような事を書いていますけれども、現状ではこの方法、手法が分からない。。
どういうふうに考えてデータを作ればいいのか、そこをまず考えなくてはなりません。

まだまだ予測性能については検証が必要だが・・・方法はあるはずだ。。

しばらく真剣に?考えて試行してみた結果・・・(ひょっとした思い付きだったが・・)

マルチ買いで押さえる枠が増えるものの、646回限定でいえば完璧に正解を予測することができました。これまでは諦めていたのですがね。。
もうアイデア勝負です。手法についてはまだ公開するつもりはありませんが予測結果について記録しておきます。

f:id:swat777:20130820224854j:plain

手法2 というのが今回、はじめて試した予測手法による予測結果。

上の方で紹介した画像の直近データによる予測で外した 2枠、3枠 ともに正解しています。
全体で見れば 4枠 外していてダメな予測なわけですが、手法1 とは若干異なる傾向の予測結果が出力されていることが分かります。

これら2タイプの予測結果をマルチで合体させると、ダブル6 ・・・6400円 で 3200万!!が手に入ったというわけですね。。

まあ、終わった後に言ってもしょうがないことですけれども、上で述べてきた予測手法と、その結果というのは無理やり引っ張り出してきたものではありません。

(無理やり・・というのは正解が出るまでやみくもに色んな手法を試す事)

そうではなくて、ちゃんと理屈に則っている、適っているはず。(少なくとも自分のなかではそう考えています。)
今回の手法や考え方については詳しくは書けませんが、考え方の基本は ”直近データに基づいて推測する”ということ。
そこから大きく逸脱した手法による予測ではないことは確かです。

この結果を次回に生かしてまたチャレンジですね。