clew

どっかの誰かの役にたてばうれしい。

トトくじの予想プロセスについて 考察その1。

波乱枠を見切るためには?

さて、トト予想の最大の難関・・・波乱についていろいろ考えを整理するために記事を書きます。
 
そもそも ”波乱枠を特定する” という文、言葉自体に矛盾を感じますね。
なぜなら ”誰も予想できないからこそ波乱” であるから。

その事象が起こること自体すら想像できないのですから ”波乱” であり、”想定外” なんです。
そうすると、波乱をデータ分析して導き出すということがとても妙なことだと思えてくる。

のっけから変なことを書きますけれども、想定外ということはそういうことだと思うのですよ。
んで、「それじゃあ話にならん・・・屁理屈はいいから見切る方法を・・・」ということに。。

結論から言いますと・・・”過去データからは導かれません”
しかしアプローチを変えると見切る方法があるかもしれないと。。

それは”確率”です。

「なんだ!そんなもん当たり前じゃないか?!」

と、思われるかもしれませんね。
確率についてそれほど知識があるわけじゃないですが、少し考えを書いてみます。
間違って理解している箇所などがあれば、暇な方?はいろいろツッコミ入れてください。
そのほうがみなさんの為になるでしょうから歓迎しますよ。

コインの裏表とサッカーの勝敗

ベイジアン”という言葉を聞いたことがあると思います。
これは統計について少し調べればすぐに出てくる言葉ですね。
ベイズとかで検索すれば情報がワンサカ得られますから興味がある人は調べてみてください。

これが意味するところは”確率には主観的確率と客観的確率がある”ということ。
ベイジアンは主観的確率です。説明は後ほど。。

まずはコインをポイっと投げて表裏が出る確率についてです。
これは客観的確率で 1/2 ですね。だれが見てもそう。誰が投げても大数の法則に従えば、試行回数を増やせば限りなく  1/2 に近づきます。
試行のある一部分を切り抜けばどちらかに偏った部分はあるかもしれないけれども、全体的には限りなく1:1です。

つぎにサッカーの勝敗・・・

例として J1のどこかのチームと、そこらへんの草サッカーチームの対戦です。
これは明らかにJ1チームが勝ちます。誰もがそう予想するはずです。

現実的に限りなく対戦することは不可能ですけれども、仮に10回勝負したとしましょう。
しかし1回だけ草チームが勝った。。何が起こったのかはよく分からないけれども、とにかく勝ってしまった。
これが波乱ですよね、想定外というやつ。

んで、草チームの勝率は?・・・ 1/10 で 勝率10%となります。
これがベイズでいうところの確率10%というやつです。過去事例 事後確立をもとにした主観的確率ですね。

この例と同じようにトトくじの各対象試合の入賞枠確率は 1/3 ではありません。
当たり前のことを書いていますけれども”強いチームの勝つ確率はとても高い”というのが真です。

しかし、やっぱり負けたり引き分けたりすることもあるわけで、過去データを引っ張り出してきて

「過去対戦では勝ち越している・・」だの 「引き分けが多い・・」

などと予想するのは実は”事後確率”をもとにして、今後起こるであろう事象を推定しているわけです。
これがベイズ的アプローチと理屈ではまったく同じだと思うんですよね。
だから予想手法としては全然間違ってるとは思わないし、アリだと思います。
おそらく過去対戦の勝敗データを作って、私が今現在行っている機械判定を行えば・・・

皆さんが想定している波乱枠とかなり似通った結果が出力されるはずだと思います。
ちなみにアルゴリズムは naive bayes が良いかと思います。

しかし、過去がそうだからといって必ずしも期待したようにそうなるかといったら?・・・

いや、そうはならない事例の方が多いと思います。残念ながら。
ではなぜそう思うのか?

それは結果が証明している。

つまり・・・上で述べたような予想手法を駆使して何千人か何万人か知らないけれども、数多くの予想師が総力を挙げて予想しても”全ての枠を正解させる人は圧倒的に少ない”という事実が目の前にあるからです。。

たとえマルチマークで全ての波乱可能性を押さえたとしても”予算の都合”で購入を諦めざるを得ないという事情も多くあるでしょう。

だからといって諦めるわけにはいかんのですが。。

具体的に推定してみる。

自分なりに”人力”を使って少し波乱可能性を推定してみますね。
下の表は J1 7節 の一部です。

f:id:swat777:20140410222400j:plain

実際に機械判定させる場合は、もっとデータ配置や構成を考えなくてはなりません。

表の見方なんですが・・・

ブルーが 川崎ー柏 ピンクは 横浜M-仙台 となっています。
チーム名の下の数字は 6節終了時点・・つまり現在のリーグ順位です。
その横の数字は”過去対戦チームの現在時点でのリーグ順位”です。

つまり表は”現在時点の順位から過去対戦結果を評価する”という構成になっています。

まず分かりやすいのは 川崎と仙台ですね。

川崎は 上位チームには ドローか負けている。そして下位チームにはしっかり勝ちきっています。川崎側からみれば今回686(対象外ですが・・・)の相手 柏は下位チームとなりますからおそらく勝ちきってくれるだろうという推定がされます。(柏側からみれば、また違った見方もできるが)

次に仙台。
仙台は上位チームにはしっかり負けています。
しかし順位が接近している場合は上位であってもドローに持ち込んで勝ち点1を持ち帰っていますね。
今回686の相手はマリノスで順位も上の方ですからおそらく負けるであろうことが推定されます。

しかし、いま少し表をみて考えてみたのですが、これで波乱を見切るのは相当難しいですね。。
なぜかというと、ホームとアウエイ両方からの見方があるからです。

たとえば 柏 とか・・・まったくわからん。。相当出来具合にムラがありそうです。
またマリノスなんかも下位チームに負けちゃったりしていて評価が難しいと感じます。

この表のようなデータ構成だけで推定するには無理がありそうですね。

今回はここまで。
なにも結論らしきものは得られませんでしたがまた考えた事を書いてみようと思います。

では。