確率のウソ(1)~確率は未来を予測しない~
■コインの表が出る確率
ちまたでいう「確率」にはウソがある。
たとえば・・・コインを投げたとき、「表」がでる確率は?
1/2!
テストなら正解だが、「2回に1回は表が出る」と信じているとしたら・・・間違ってます!
学校で習ったって?
それは、コインを何千回、何万回も投げたときの話。
論より証拠、実験してみよう。
サイフから500円玉をとりだして、2回投げてみる(1円玉でもいいが気が滅入るので)。
もし、「表がでる確率=1/2」なら、
・表→裏
・裏→表
のどちらか。ところが、現実には、
・表→表
・裏→裏
がふつうに出る(たまにならいいのだが)。この場合、表が出る確率はそれぞれ「2/2=1」と「0/2=0」で、「1/2」にはほど遠い。確率「1/2」に一体どんな意味があるのだ?
ところが、コインを2万回投げたら、表がでる回数は1万回・・・だから、表がでる確率=1万/2万=1/2
ん~、だまされたような。
そもそも、2万回投げたら、本当に表が1万回出るの?
出ます。
19世紀末、世界がまだのんびりで、「秒速で○○」なんて、せわしない言葉がなかった時代、統計学者カール・ピアソンがコイン投げの実験を行ったのだ。コインを2万4000回も投げたのである。
その結果・・・
・表が1万2012回
・裏が1万1988回
そのまま計算すると、
表が出る確率=12012/24000=0.5005
これなら、「表が出る確率=1/2」といってもよさそうだ。
これは推定事実だが、実験回数が10万回、100万回、1000万回と増えるほど「1/2」に近づき、無限回なら「1/2」ピッタシカンカン・・・
であれば、「表が出る確率=1/2」でも問題ないのでは?
ノー!
話はそうカンタンではない。
■数学的確率と統計的確率
「話」の前に、確率のおさらいをいしよう。
まずは確率用語から。
実験を行うことを「試行」、その結果を「事象」という。コイン投げなら、「試行」はコインを投げること、「事象」は表か裏である。
また、確率には「数学的確率」と「統計的確率」がある。
数学的確率は理論に従って計算する「理論値」。統計的確率は実験データから計算する「実験値」である。
まずは数学的確率。
もっともカンタンな確率の理論は・・・
事象が起こる確率=事象の場合の数/すべての場合の数・・・①
コイン投げで説明しよう。
コインを投げると、おこりうる事象は「表」と「裏」の2つ。さらに、コインの形状から推測するに、表と裏が出る「確からしさ」は同じにみえる。というのも、表が裏より出やすい、あるいは、出にくい要因はみあたらないから。
これを①式にあてはめると、
事象=表が出る
事象の場合の数=表がでる=1
すべての場合の数=表が出る+裏が出る=2
よって、
表が出る確率=表/(表+裏)=1/2
このように、実験データを一切使わず、理論だけで計算するので、数学的確率とよんでいる。
つぎに、統計学的確率。
まずは、へそ曲がりに登場してもらおう。
「コインを投げたら、『表』と『裏』だけじゃないぞ。『垂直(に立つ)』もある!」
これまでの人生、そんな光景見たことないが、理論的にはありうる。では、コインが「垂直に立つ」確率は?
「垂直に立つ」の確率理論・・・ムリヤリでっちあげることは可能だが、メンドー臭い、ウサン臭い、やるだけムダ。じつは、こんなとき重宝するのが統計的確率なのだ。たとえば、2万回投げて、1回垂直に立ったら、
1/2万=0.00005
これが、「垂直にそそり立つ」確率だ。理論もなにもない。実験結果をそのまま計算しただけ。つまり、
統計的確率=事象が起こった回数/全試行回数
ただし、「垂直」事象がたった1回では、精度に問題がありそうだ。そこで、精度を上げるため、10万回、100万回、試行を繰り返す。このような「ためしてガッテン」手法が統計的確率なのだ。
「統計」ってあやしい数学だなぁ~
あやしいどころではない。じつは、「統計」は「数学」ではないのだ。
高校時代の友人が大学で統計を教えている。彼が九州大学の数学科の教授になったとき、
「おめでとう、お前は高校時代から数学できたからなぁ~」
と持ち上げたら、
「統計は数学じゃないよ。おれは数学で限界を感じたから統計に行ったんだ」
とけんもほろろだった。
じつは、数学と統計は、似て非なるものなのだ。
数学は、水も漏らさぬ論理で畳み込みこんでいく。これを演繹法(えんえきほう)という。一方、統計は、実験結果から相関関係を見つけ結論を導く。これを帰納法(きのうほう)という。
つまり、数学と統計は水と油。ただし、統計は数学を道具として使っている。数学というより算数に近いのだが。
■確率のウソ
話を冒頭のコイン問題にもどそう。
表が出る確率は、「数学的確率=1/2」、「統計的確率=1/2」なので、「1/2」と言ってもよさそうだ。
ところが、一つ問題がある。
実際にコインを投げてみると、
・表→表(表の出る確率=1)
・裏→裏(表の出る確率=0)
がゼンゼン珍しくないこと。このギャップをどう説明するのか?
もったいぶらずに結論・・・
「ん万回」コインを投げれば、表が出る確率は1/2だが、「1回」投げて、次に何が出るかは、サッパリわからない・・・
つまりこういうこと。
ちまたでいう「確率」は、「ん万回」試行したときの「事象の比率」にすぎない。2万回コインを投げたら、表が半分、裏が半分というように。だから、確率は「次の1回で何が起こるか」を予測する指標ではない。
おいおい、じゃあ確率にどんな意味があるのだ?
だって、そうではないか。
賭け事にしろ、地震予知にしろ、「何万回」試してどうなる問題ではなく、次の「1回」が問題なのだ。
ここに、確率のウソがある(正確には「誤解」)。
では、未来予測は妄想!?
そうでもない。
■確率は未来を予測しない
未来予測といえば、最近、「人工知能(AI)」がにぎやかだ。
ビッグデータ、IoT、ディープラーニングなど意味不明の関連ワードを含めると、「人工知能(AI)」がメディアに載らない日はない。
ところが、AIを「オオカミ少年」呼ばわりする向きもある。1950年代から「期待され失望され」を繰り返してきたから。そこが気に入らない訳知りにとって、AIは詐欺、ペテン、バズワード・・・
だが、今回のAIはホンモノだ。論より証拠、すでに実績をあげているから。
たとえば・・・
米国のある都市では、毎日、AIに地域ごとの犯罪発生率を予測させ、警官の配備を決めている。結果、検挙率は大幅に向上したという。
さらに、日本のタクシー会社が面白いAIを開発している。稼ぎのいいタクシー・ドライバーの行動をAIに学習させ、いつどこにいたらお客を拾いやすいか予測させるのである。
ちなみに、このようなAI・予測は、「因果関係」ではなく「相関関係」によっている。
つまり、過去の膨大なデータをAIに学習させ(機械学習という)、相関関係から未来を予測する。このような人工知能を「弱いAI」とよんでいる。過去のデータに頼るという点で、統計的確率のお仲間。
では、AIと統計で何が違うのか?
予測モデル(予測するエンジン)の作り方が違う。
AIの予測モデルは、AIがデータを機械学習して自動生成する。一方、統計の予測モデルは、人間が試行錯誤して作る。AIの方が手間がかからないし、学習データが十分なら、精度でも統計に優る。
というわけで、AIは相関関係から未来を予測する。一方、人間は「因果関係」で未来を予測する。いわゆる「推論」だ。この人工知能版を「強いAI」とよんでいる。因果関係は、原因と結果から理詰めで結論を導くので、数学的確率のお仲間。
ここで、因果関係と相関関係の違いを、コイン投げで説明しよう。
まずは因果関係。
因果関係は「原因が結果が生む」という論理によっている。たとえば、コイン投げなら、「原因」はコインの属性(体積、重量、形状、材質など)。
属性から、表と裏が出る「確からしさ」は同じと考えられる。これを確率論では、「表が出る事象は、他の事象より起こりやすいと期待させない」という。
つまり、特定の事象が起こりやすいという積極的な理由がない限り、事象がおこる確率は同じ、と考えるわけだ。
というわけで、因果関係による表が出る確率は1/2(裏も同じ)。
つぎに相関関係。
先の統計学者カール・ピアソンのコイン投げの実験まんま。コインを2万4000回投げたら、表が1万2012回、裏が1万1988回。ゆえに、表が出る確率は1/2。
つまり、データから得られる相関関係で確率を求めるわけだ。
ということで、未来を予測する方法は2つ・・・
1.原因と結果の因果律で予測する(因果関係)→数学的確率の仲間
2.過去のデータの相関で予測する(相関関係)→統計的確率の仲間
そして、肝心なことは・・・
確率は、「次の1回」を予測する指標にはならないこと。
注目する事象が1000回試して999回起こっても、それは過去の話。次に何が起こるかは別の話なのだ。
by R.B