clew

どっかの誰かの役にたてばうれしい。

第645回トトくじ データから岐阜を買うのは無理。つーか機械判定じゃ不可能だ。

現在の予測レベルの限界

興味があれば以下のリンクを参考にして現在の私の予測レベルを確認して欲しい。

http://clew.hatenablog.com/entry/2013/08/08/044856

まあ、この辺のレベルが標準的な感じがしますね。
7/13 8/13 の正解率で非常に平凡です。(単純に数値比較で見た場合)

一応、比較のために”トトワン予想陣 岩本編集長”の今回の成績と比べてみると・・・
(個人的にはかなり良い予想をする方だと思っている。)

岩本氏・・・ダブル5、トリプル1 9/13 の正解。
私・・・  シングル13     7/13 8/13

まあ、単純比較をするのも何ですが・・・マルチを多用しても思ったほど正解率はアップしていないと思いますね。。

この予測においては、リーグ順位という属性は使用していません。
開催回にもよりますが、順位要素をいれて計算し直せばもう少し成果率がアップする可能性はありますが、いずれにしてもびっくりするような結果は得られそうにもないです。

現段階でベストだと思えるデータ構成

現段階でベストだと思えるデータ構成は以下の通り。

home(チーム名)
away
ホームランク(リーグ順位)
アウエイランク
h(支持率)
d(支持率)
a(支持率)
st
hg(目的変数)ag

これは、パーフェクト予想をしたときのデータ構成です。
Jリーグ公式サイトの順位表から得られるデータによる予測はイマイチでしたので、今後使うかどうか?は微妙なところ。
ちなみにデータ構成は以下のよう。

順位 チーム 勝点 試合 勝 引分 敗 得点 失点 得失点差

これを対戦形式で横に並べたもの。

過去記事をみればわかりますが、このデータ形式による予測は、上に挙げた順位なしデータによるゴール数数値比較よりも精度は低い。

もっと検証が必要なのかもしれませんが、今のところ良い感触はないですね。

ゴール数予測での数値比較の弱点とは?

ゴール数値比較予測で、はずした枠をみてみると、引き分けという結果をはずしているのが目立ちます。
これは予測数値の比較という性格上、ある程度は仕方がないところ。
単純に数値の大小を比較して勝敗をみるわけですから、数値の開き具合から引き分けを推測するしかしかない。
(予測結果を見る限り、かなり無理っぽいのは承知しているが・・)

今回のケースでは、予測数値をひっくり返して勝利した枠は・・・13枠 岐阜ー神戸のみ。
これ以外はありません。

言い換えれば・・・予測数値が外れるケースでは引き分けになる可能性が高いと言える。

どの枠が外れる可能性が高いのか?

こればっかりは、今のところ方法が思いつきません。。
統計的?手段である程度はクリアできるのかなと。。まだ検証結果をまとめてみるまでは手が回っていません。
今後の課題ですね。

岐阜ー神戸 の結果をデータから予測することは可能なのか?

はっきりいって、それは無理。
おそらくどんなデータを使っても、アルゴリズムを変えても不可能だと思います。
過去の試合結果というデータを使う限り、機械判定では無理です。
サポの方には悪いですが、過去の試合結果履歴を見てみてください。
あの一覧(ファンサカ研究室なんかで簡単にチェックできるが)を見て”岐阜勝利”を確信できる人は一人もいないと思う。

キャリーオーバーは当然の結果ですね。。

アホな話ですが、人間の思い付きというか勘でしか予測できません。予測というより”勝って欲しい”という願いですね。そうとしか言いようが無い。
くどいですが、今回のようなケースで岐阜勝利をマークする事は不可能です。

まとめ

さて、deep learning によるトト予想もじつは密かに試行をしているわけですが、まだまだクリアしなければならないことがありまして、実用段階にはほど遠いという現実があります。

しばらくはWEKAを用いて”数値によるゴール予測”をメインにやっていくつもり。
自分では、ある程度の精度は保てていると感じています。

あとは引き分けの傾向さえ何とか掴めればもっと上にいけるんじゃないか?なんて思ってるんですけどね。
おわり。