何票まで開票したら当選確実といえるのか


招き猫

招き猫

 

選挙シーズンですね。

選挙といえばお馴染みのテレビの開票速報。20時を過ぎた瞬間から「ほんとに確実なのかよ、というか1票でも確認したのかよ」と言いたくなるペースで大物政治家の当確報道が流れていくのが恒例行事です。

まあそう言って報道につっかかるのも野暮というもので、単に確実という言葉が100%でなくだいたい正しいという意味で使われているだけですね。(個人的には票を見ずに結果を宣言するのはなんとなく投票という行為自体を軽く扱っている気がするのですが、それはまた別の話。)

結局のところ、どういう理屈で当確が出ているのかは視聴者にはわからずじまいなわけです。出口調査や前回までの結果など複雑なノウハウが詰まったものだし簡単に教えてくれるものではないでしょうが、このご時世、「なんかいろいろやってるんだよ、まあ信じておきな」ではどうにもしっくりこないところがあります。

そこで今回は視点を変えて、「逆に票だけを見て確率的に『確実』というためには、全体のうちのはじめの何票くらいを集計すればいいのか」というのを試しに計算してみたいと思います。

やっていることは二項分布のベイズ推定をしているのみで、数学的にはゆったりした話かと思います。

(以下、なるべく政治的な話にならないよう、具体例では実名を挙げないように気をつけます。)


 

選挙と開票のモデル

まずは前提条件について。当確が出るのはまず小選挙区からなので、今回は小選挙区をターゲットにします。複数人の候補から1人のみを選ぶ方法ですね。

地域ごとの票の偏りは考えないことにします。偏っている場合にはいくつかの投票所の票を集めて、全体から一様にサンプリングしていけば同じ状態が実現できます。さらに今回は即座に当確が出る選挙区を扱うため、1位の過半数が確実となったところを当確ラインとします。(三つ巴のような微妙な状況でないとします。)

あとは何%の確率で正しければ「確実」と言っていいのかを決める必要があります。これは報道側の姿勢次第なわけですが、結果から見れば当確からの逆転落選ということはたまにあるようです。誤報は2012年衆院選でも2007年参院選でもあったようなのでどこかで毎回1件程度の誤報はあるのかなという雰囲気ですが、まあ推定ミス以外の要因もあるでしょうし、今回はミスが1回1件よりは少なくなる程度で当確扱いにするとします。小選挙区の定数は295人なので、まあ精度3倍をみて正しさは1000人に999人以上、つまり99.9%正しければよしとします。


 

確率の話

ここからは数学の出番です。数学に興味の無い方は次節まで飛ばして下さい。

1位候補をAさんとしましょう。さて、序盤のN票を開票したときに何票がAさんのものになるかを考えます。これは全体の中のAさんの真の得票率(μとする)さえわかっていれば計算できて、二項分布とよばれる分布に従います。

今回知りたいのはこの逆の問題です。つまり、序盤のN票を開票したときにn票がAさんのものであったとき、真のAさんの得票率μはいくつと考えるのが妥当か、という問題です。

一番もっともらしいμの値はシンプルに考えるとn/Nです。しかしこれでは1票を見た瞬間にμ=1(全票がAさん)などというやばい結論にたどり着きます。野球のシーズン始めに1本打っただけの打者を真の10割打者と断言するようなものです。

そこでまずμ自体の確率分布を考え、これが開票作業でどう変化するかを考えます。ベイズ推定ですね。

ここではベイズ推定のなんやかんやはすっ飛ばします。単純に事前分布としてp(μ)=constつまりa=1,b=1のベータ分布をおいて、逐次推定を行います。

結果だけ書くと、n票がAさん、m票がAさん以外であるときのμの確率分布は、ベータ分布

f(\mu|n,m)=\frac{\Gamma(n+m+2)}{\Gamma(n+1)\Gamma(m+1)}\mu^{n}(1-\mu)^{m}

に従います。この分布を0.5から1まで積分した値が「Aさんが全体の過半数票を獲得する確率」に相当するわけです。この値が99.9%以上になるような票数を求めれば良いことになります。


 

計算結果

さて、後は実際に即座に当確の出そうな選挙区の票数を考えるだけです。過去の選挙の例をもとに考えてみます。

選挙結果のソースはWikipediaの「無風選挙」の項からとさせてもらいます。この10年で最も惜敗率の低かった選挙区は2009年のときにあり、このとき当選者142,482票に対して次点7,024票です。惜敗率は4.93%です。

開票は一様にサンプリングするとしているので、この比率を保って開票されるとしましょう。実際にどの順序になるかは当然確率的なのですが、比較的結果が出にくそうな例として次点1票の後にAさん票が20票出たとしましょう。

この順でまず21票を開票した段階で、全体のAさんの得票率が過半数を超える確率を計算すると:

99.9995%

なんと。21票でも確実すぎるくらいでした。

実際には13票目(Aさん12票、それ以外1票)の時点で過半数超えの確率は99.91%になり、上に書いた当確の条件を満たします。はじめの13票だけ見れば良かったんですね。

これくらい少なければ20時になった瞬間に急いで開票すれば当確が出せそうな気はします。開票以外の時間がボトルネックになるでしょうが。(20時丁度から全地域の投票箱を開けてくれるのか、など。)


 

もう少し極端でない例を見てみましょう。この10年で5番目に差のついた選挙区は2012年のもので、惜敗率16.29%、約6:1の比率で当選しています。

Aさん6票、それ以外1票の段階でAさんの総得票数が過半数を超える確率は:

96.5%

まだ確実というには足りませんね。

もう少し開票しましょう、Aさん12票、それ以外2票:

99.63%

Aさん18票、それ以外3票:

99.96%

というわけで、こちらの例でも21票ほど開票した辺りで当確ラインになります。もちろん開票の順序によってはさらに必要になることもありますが、どちらにせよ非常に速く確率が偏っていくことがわかります。

もし事前の予測や世論調査を完全に無視して黙々と開票したとしても、当確の出るところではすぐ出るんだなというのがわかるかと思います。

ところでこの結果は、サンプリングが一様であるという条件さえ満たせば総投票者数がいくら多くても同じ数字になります。(極端に少ないときには二項分布から外れるため成り立ちません。)

数学的には普通な、しかし身近な話題で計算してみるとそんなに極端な数字になるのか、という話題でした。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です