clew

どっかの誰かの役にたてばうれしい。

第646回トトくじ 本トト13枠の予測結果の検証から見えてきたもの。ベストなデータの与え方について考えてみる。

データの与え方とは?

まずはじめに 第646回トトくじ 13枠の結果予測について・・・

「どんなデータの与え方をしたのか?」

について、詳細を書いてみます。
与え方というのは、実際にWEKAに読み込ませるデータ形式のことを指しています。

これまでのデータの与え方

従来は 今季に開催された13枠対象試合のみを時系列で並べたものを与えていました。
開催回順に上から下へ順に新しいデータを付け加えた形ですね。

んで、一番下に ”予測しようとしている開催回の試合前データ”をくっつけるわけです。
こういうフォームにしたのには、特に理由はありません。
どうしても、これでなくてはならないといった明確な理由はありませんでした。

今回は、そこのところをもう少し考えてみたわけです。

「累積タイプのデータではなぜ上手く予測させることができないのか?」

ここがひとつの問題点でした。
確かに、こういった累積タイプのデータから次回の結果を予測する行為というのは、人力予想と比べてみると 思考回路?といっていいのか、そういうのが似ていると思います。

したがって、そこから出力される結果も非常に似てくるといった側面が強い。

今回646の結果でいえば・・・

神戸、京都、千葉 の勝ち といったところがほぼ鉄板のように出力されてくるわけです。
実際の結果は、いずれもハズレであり、予想外の結果が出た・・・と感じている方は大勢いるはず。。

「こういった部分をもっと的確に予測できないものか?」

そういった欲求からあらためてデータ形式について考えてみたわけです。

累積データと直近データという二極化された考え方

ここで思いついたのが・・・データを累積と直近で分けて考えてみる・・ということでした。
この考えは、ずーっと以前から持っていたものでしたが、どれくらいの期間が適当、適切であるとか、あと適切なアルゴリズムが分からないといった問題もあり、あまり試すことはしないまま時間だけが過ぎていました。

累積データというのは、やはり総合的な強さ、あるいは弱さ?といっていいのか、そういったチーム特色というのはよく表しています。

いっぽうの直近データは、ごく最近の調子を端的に表現しているはずです。
ですから、両方の予測を試してみて、それらを合体させてみれば、(マルチ予測になってしまう弱点はあるけれども・・・)かなり精度が改善されるのではないか?という期待がありました。

以下に、後出しのバックテストではあるけれども、646の予測結果について表にまとめてみました。

第646回 本トト13枠予測結果表

f:id:swat777:20130818225540j:plain

表の見方から

数値と名義 というのは”目的変数”の属性について表しています。

数値は、ゴール数をそのまま数値として比較して勝敗を予測したもの。いっぽう名義とはゴール数値を名義属性として分類予測したものです。

直近2 とは・・・

前回と前々回、の直近2回分をデータとして与えたということです。
そして累積とは、従来どおりの今季の本トト13枠分のデータをすべて与えた予測であるという意味です。

総合は、すべての出力を合体させたマルチ予測のことです。
今回はすべてあわせると ダブル8 という大きな買い目となります。

これで 12/13 という正解率になります。
まあ、すべての正解を含むことはできていませんので、失敗ということにはなりますが、かなり正解率は向上していると思います。

まとめ・・・ 直近データによる予測はかなり使えるかもしれない・・・

さて、結果を見て自分なりの感想を書いてみます。

まず、それぞれの予測手法についての比較から。。

従来の累積タイプデータでは 7/13 の正解。(この従来手法では、これぐらいの正解率が標準ですね。)
直近2の数値比較タイプ予測は 8/13 の正解、ただし J1においては正解率が低いのが気になります。
直近2の名義属性タイプの予測 9/13 の正解。引き分け予測を2枠正解させているのが目を引きます。

それぞれに特色が出ていて、個々を見れば完璧ではありませんがもう一工夫すればかなり使えるのでは?という感触がある。

特筆すべきは・・・直近2タイプ両方を合体させれば、ダブル4 で10枠を捉えているということ。(もちろん開催回による正解率のムラは考慮する必要があるが・・・)

人によっては評価は割れるところでしょうが、ダブルを4個使って10枠を正解させることはかなり難しい部類に入ると思います。

したがって直近データを使った予測はかなり有効だと思います。
このままではまだまだ実用的ではありませんが、もう一ひねりすれば突破口になる可能性はあると思います。