第610回トトくじ予測 試行 1回目。
まず、”機械的予測 試行 1回目” を一覧にまとめましたので公開しておきます。
ベージュと薄いブルーで色付けしたところが今回の予想母体。
ピンクは”属性情報”です。
Attributes: 12 の意味は・・
全部で12個の属性を使用。
だいたい見て頂ければ分かると思いますが、一部の表記はローマ字で書いてあります。
WEKAでは半角英数しか認識されませんから、日本語だと文字化けします。
(文字化け対策もあるようですが、なぜか上手く機能しないので現在はデフォルトで使用中。情報は検索でヒットするはずです。)
なので分かりやすくローマ字上記にしました。
この属性で4種類のアルゴリズムを使用して予測させたわけです。
その合計がベージュの母体となります。
同じように属性を12から8に削減したデータで予測を行ったものがブルーです。
こちらはアルゴリズムを2種類だけ試行しました。
選んだアルゴリズムについて:
MLP:マルチレイヤーパーセプトロン
NB:ナイーブベイズ
LOG:ロジスティック
RF:ランダムフォレスト
KSTAR:K近傍法?(たぶんそうだと思います)・・事例ベース推論とはちょっと違うのかも?
一番右端は・・支持率です。参考に載せただけです。
この試行においては、今季のデータのみ使用しました。
選手名をズラーッと並べたデータも作成したのですが、ハード的に問題が発生したために使用を断念しました。
ちょこっと説明しますと・・
属性が増えると計算量が比例?して増大します。
これは色々調べると分かるのですが、属性が増える=”次元”が増えるとも言うようですね。
ひとつ次元が増えるだけで、計算量は急激に増加するみたいです。
アルゴリズムによっては、まったく問題なく動くものもあるのですが・・
とくに”関数型”・・MLPとかSVM は、途中で警告メッセージが出て動かなくなります。
もっとスペックの高いPCなら、おそらく問題はないと思われます。
さて、例によって支持率と比較してみます。
理由は分かりませんが似通っている部分はありますね?
これは前にも書きましたが”プログラムが人間と同じような推測をすることもある”ということを示唆しています。
細かく見れば・・「えっ?!」みたいな枠もある。
とくに6枠、それからJ2かな。
とりあえず記録ということで出してみました。この予測に”思い入れ”なんてものはありません。
あとで検証するためです。
ちなみに・・
過去、幾度かに渡ってこのような機械的予測をトトくじについて行ってきました。
正確な予測履歴とか、それに関する資料もすでに失っているものも多く、ざっくりとした経験則のようなものしか言えませんが・・
MLP に関しては、最低で5枠、最高で10枠か?
シングル予測で平均して7枠ぐらいは正解を含んでいると思います。
ただ評価が難しいのは・・データ量の部分です。つまり”どれくらいの過去データまでさかのぼってトレーニングデータとするのか?”
ここが過去に徹底してやれなかった部分なんです。
”おなじ属性でデータをつくり、過去何回分までさかのぼってデータを与えるか?”
全体としては似ているんだけれど、微妙に変わるんですね。
あくまで私の勘?なんですけど、MLPは短期のデータ予測に向いていると思っています。
与えるデータは過去1回から3回ぐらいまで。
局所的に”とんがった予測”に向いているんじゃないかと思う。
あくまで勘ですからね・・試してみたい方はご自分でやってみてください。
データ整備の面でかなり根気が必要ですけど。
こういったアルゴリズムに関する情報ってのは、日本語ではやっぱりお金を出さないと入手しずらい部分があるのかなと思います。
(たとえば日本語訳の統計に関する本とか、有料のカスタマイズされた統計ソフトとかね)
いろいろ検索すると情報がヒットしますが、イマイチ理解しづらい部分がありまして・・
たいていは海外の論文・・もちろん英語なんですが、そういうページへのリンクとなっていますね。。
まあ、私の場合はすべて実践でやっていこうというスタンスです。
つまりブラックボックスのまま使ってみて、結果と照合して自分なりに使いこなそうという姿勢ですね。
んー原始的?ですけど先駆者(トトの予測ということでの)がほとんど見られないので仕方がありません。
(知らないだけかも?。。)
もしも、「オレもやってるぜ?」という方がいらっしゃいましたら、いろいろ教えて欲しいです。。
じゃ。