BeneDict 地球歴史館

BeneDict 地球歴史館
menu

週刊スモールトーク (第350話) 確率のウソ(1)~確率は未来を予測しない~

カテゴリ : 社会科学

2017.02.26

確率のウソ(1)~確率は未来を予測しない~

■コインの表が出る確率

ちまたでいう「確率」にはウソがある。

たとえば・・・コインを投げたとき、「表」がでる確率は?

1/2!

テストなら正解だが、「2回に1回は表が出る」と信じているとしたら・・・間違ってます!

学校で習ったって?

それは、コインを何千回、何万回も投げたときの話。

論より証拠、実験してみよう。

サイフから500円玉をとりだして、2回投げてみる(1円玉でもいいが気が滅入るので)。

もし、「表がでる確率=1/2」なら、

・表→裏

・裏→表

のどちらか。ところが、現実には、

・表→表

・裏→裏

がふつうに出る(たまにならいいのだが)。この場合、表が出る確率はそれぞれ「2/2=1」と「0/2=0」で、「1/2」にはほど遠い。確率「1/2」に一体どんな意味があるのだ?

ところが、コインを2万回投げたら、表がでる回数は1万回・・・だから、表がでる確率=1万/2万=1/2

ん~、だまされたような。

そもそも、2万回投げたら、本当に表が1万回出るの?

出ます。

19世紀末、世界がまだのんびりで、「秒速で○○」なんて、せわしない言葉がなかった時代、統計学者カール・ピアソンがコイン投げの実験を行ったのだ。コインを2万4000回も投げたのである。

その結果・・・

・表が1万2012回

・裏が1万1988回

そのまま計算すると、

表が出る確率=12012/24000=0.5005

これなら、「表が出る確率=1/2」といってもよさそうだ。

これは推定事実だが、実験回数が10万回、100万回、1000万回と増えるほど「1/2」に近づき、無限回なら「1/2」ピッタシカンカン・・・

であれば、「表が出る確率=1/2」でも問題ないのでは?

ノー!

話はそうカンタンではない。

■数学的確率と統計的確率

「話」の前に、確率のおさらいをいしよう。

まずは確率用語から。

実験を行うことを「試行」、その結果を「事象」という。コイン投げなら、「試行」はコインを投げること、「事象」は表か裏である。

また、確率には「数学的確率」と「統計的確率」がある。

数学的確率は理論に従って計算する「理論値」。統計的確率は実験データから計算する「実験値」である。

まずは数学的確率。

もっともカンタンな確率の理論は・・・

事象が起こる確率=事象の場合の数/すべての場合の数・・・①

コイン投げで説明しよう。

コインを投げると、おこりうる事象は「表」と「裏」の2つ。さらに、コインの形状から推測するに、表と裏が出る「確からしさ」は同じにみえる。というのも、表が裏より出やすい、あるいは、出にくい要因はみあたらないから。

これを①式にあてはめると、

事象=表が出る

事象の場合の数=表がでる=1

すべての場合の数=表が出る+裏が出る=2

よって、

表が出る確率=表/(表+裏)=1/2

このように、実験データを一切使わず、理論だけで計算するので、数学的確率とよんでいる。

つぎに、統計学的確率。

まずは、へそ曲がりに登場してもらおう。

「コインを投げたら、『表』と『裏』だけじゃないぞ。『垂直(に立つ)』もある!」

これまでの人生、そんな光景見たことないが、理論的にはありうる。では、コインが「垂直に立つ」確率は?

「垂直に立つ」の確率理論・・・ムリヤリでっちあげることは可能だが、メンドー臭い、ウサン臭い、やるだけムダ。じつは、こんなとき重宝するのが統計的確率なのだ。たとえば、2万回投げて、1回垂直に立ったら、

1/2万=0.00005

これが、「垂直にそそり立つ」確率だ。理論もなにもない。実験結果をそのまま計算しただけ。つまり、

統計的確率=事象が起こった回数/全試行回数

ただし、「垂直」事象がたった1回では、精度に問題がありそうだ。そこで、精度を上げるため、10万回、100万回、試行を繰り返す。このような「ためしてガッテン」手法が統計的確率なのだ。

「統計」ってあやしい数学だなぁ~

あやしいどころではない。じつは、「統計」は「数学」ではないのだ。

高校時代の友人が大学で統計を教えている。彼が九州大学の数学科の教授になったとき、

「おめでとう、お前は高校時代から数学できたからなぁ~」

と持ち上げたら、

「統計は数学じゃないよ。おれは数学で限界を感じたから統計に行ったんだ」

とけんもほろろだった。

じつは、数学と統計は、似て非なるものなのだ。

数学は、水も漏らさぬ論理で畳み込みこんでいく。これを演繹法(えんえきほう)という。一方、統計は、実験結果から相関関係を見つけ結論を導く。これを帰納法(きのうほう)という。

つまり、数学と統計は水と油。ただし、統計は数学を道具として使っている。数学というより算数に近いのだが。

■確率のウソ

話を冒頭のコイン問題にもどそう。

表が出る確率は、「数学的確率=1/2」、「統計的確率=1/2」なので、「1/2」と言ってもよさそうだ。

ところが、一つ問題がある。

実際にコインを投げてみると、

・表→表(表の出る確率=1)

・裏→裏(表の出る確率=0)

がゼンゼン珍しくないこと。このギャップをどう説明するのか?

もったいぶらずに結論・・・

「ん万回」コインを投げれば、表が出る確率は1/2だが、「1回」投げて、次に何が出るかは、サッパリわからない・・・

つまりこういうこと。

ちまたでいう「確率」は、「ん万回」試行したときの「事象の比率」にすぎない。2万回コインを投げたら、表が半分、裏が半分というように。だから、確率は「次の1回で何が起こるか」を予測する指標ではない。

おいおい、じゃあ確率にどんな意味があるのだ?

だって、そうではないか。

賭け事にしろ、地震予知にしろ、「何万回」試してどうなる問題ではなく、次の「1回」が問題なのだ。

ここに、確率のウソがある(正確には「誤解」)。

では、未来予測は妄想!?

そうでもない。

■確率は未来を予測しない

未来予測といえば、最近、「人工知能(AI)」がにぎやかだ。

ビッグデータ、IoT、ディープラーニングなど意味不明の関連ワードを含めると、「人工知能(AI)」がメディアに載らない日はない。

ところが、AIを「オオカミ少年」呼ばわりする向きもある。1950年代から「期待され失望され」を繰り返してきたから。そこが気に入らない訳知りにとって、AIは詐欺、ペテン、バズワード・・・

だが、今回のAIはホンモノだ。論より証拠、すでに実績をあげているから。

たとえば・・・

米国のある都市では、毎日、AIに地域ごとの犯罪発生率を予測させ、警官の配備を決めている。結果、検挙率は大幅に向上したという。

さらに、日本のタクシー会社が面白いAIを開発している。稼ぎのいいタクシー・ドライバーの行動をAIに学習させ、いつどこにいたらお客を拾いやすいか予測させるのである。

ちなみに、このようなAI・予測は、「因果関係」ではなく「相関関係」によっている。

つまり、過去の膨大なデータをAIに学習させ(機械学習という)、相関関係から未来を予測する。このような人工知能を「弱いAI」とよんでいる。過去のデータに頼るという点で、統計的確率のお仲間。

では、AIと統計で何が違うのか?

予測モデル(予測するエンジン)の作り方が違う。

AIの予測モデルは、AIがデータを機械学習して自動生成する。一方、統計の予測モデルは、人間が試行錯誤して作る。AIの方が手間がかからないし、学習データが十分なら、精度でも統計に優る。

というわけで、AIは相関関係から未来を予測する。一方、人間は「因果関係」で未来を予測する。いわゆる「推論」だ。この人工知能版を「強いAI」とよんでいる。因果関係は、原因と結果から理詰めで結論を導くので、数学的確率のお仲間。

ここで、因果関係と相関関係の違いを、コイン投げで説明しよう。

まずは因果関係。

因果関係は「原因が結果が生む」という論理によっている。たとえば、コイン投げなら、「原因」はコインの属性(体積、重量、形状、材質など)。

属性から、表と裏が出る「確からしさ」は同じと考えられる。これを確率論では、「表が出る事象は、他の事象より起こりやすいと期待させない」という。

つまり、特定の事象が起こりやすいという積極的な理由がない限り、事象がおこる確率は同じ、と考えるわけだ。

というわけで、因果関係による表が出る確率は1/2(裏も同じ)。

つぎに相関関係。

先の統計学者カール・ピアソンのコイン投げの実験まんま。コインを2万4000回投げたら、表が1万2012回、裏が1万1988回。ゆえに、表が出る確率は1/2。

つまり、データから得られる相関関係で確率を求めるわけだ。

ということで、未来を予測する方法は2つ・・・

1.原因と結果の因果律で予測する(因果関係)→数学的確率の仲間

2.過去のデータの相関で予測する(相関関係)→統計的確率の仲間

そして、肝心なことは・・・

確率は、「次の1回」を予測する指標にはならないこと。

注目する事象が1000回試して999回起こっても、それは過去の話。次に何が起こるかは別の話なのだ。

《つづく》

by R.B

関連情報