魔法のコンピュータ(3)～確率的推論で世界創造～

週刊スモールトーク　（第256話）　魔法のコンピュータ(3)～確率的推論で世界創造～

カテゴリ : 歴史科学

2014.06.14

週刊スモールトーク目次

魔法のコンピュータ(3)～確率的推論で世界創造～

■パラレル世界を見る方法

歴史には、無数の分岐点と無数の選択肢が存在する。ゆえに、歴史シナリオも無数存在する。もちろん、理論上の話だが・・・。ところが、パラレル宇宙論によれば、歴史シナリオは実在するという、「パラレル世界」として。

歴史シナリオが実在するって！？

さっそく見つけなくては！

ところが、「パラレル世界」を探知するには「重力コントロール」技術が欠かせない。なぜなら、パラレル世界を行き来できるのは重力だけだから。

現在、人類は電磁気力をコントロールできる。そこで、電磁気力と重力をひも付けすれば、重力もコントロールできるはず。その基礎理論が「統一場理論」なのだが、現状、メドが立っていない。それどころか、人類がそんな魔法を手に入れるには、あと500年はかかるだろう。

それまで人類はもつのかな・・・

そこで、パラレル世界を、手っ取り早くコンピュータで「のぞき見」する方法を考案した。それが「魔法のコンピュータ」なのである（別名「1億円コンピュータ」）。

大げさな・・・タダのシミュレーションやろ。

ノー！

というのも、マサチューセッツ工科大学マックス・テグマーク教授のパラレル宇宙論によれば、

「宇宙は無限に広い、もしくは事実上無限なら、世界も無限に存在する」

つまり、リアル世界（パラレル世界）は無数存在すると言っているわけだ。

であれば・・・

「無数の歴史シナリオ＝無数の分岐点×無数の選択肢」で想定される仮想世界もすべて実在するはず。なぜなら、仮想世界もリアル世界も「無数」だから。

つまり、こういうこと。

もし、無限の演算能力と無限の記憶容量をもつシミュレータがあれば、ホンモノと等価の「歴史のIF」を再現できる。

もちろん、そんな「無限」づくめのシミュレータは現実には存在しない。とはいえ、現在製造可能な「有限」シミュレータでも、パラレル世界の一部なら再現できるだろう。もっとも、仮に、すべて再現できたとしても、「無限」のパラレル世界を見ることはできない。人間の寿命は「有限」だから。だから、「有限」シミュレータで十分なのである。

というわけで、制限付きだが、パラレル世界を再現できそうだ。

ところが、一つ問題がある。まだ、影も形もないこと。

特に、ハードウェアは難儀だ。要求されるスペックは、最新のゲーム専用機、高性能パソコンを凌駕するから。

でも、救いはある。ソフトウェアのメドが立っていること。ただし、設計書のたぐいはない。からみが複雑で、頭の中か、プログラムでしか表せないから。それに、プログラムはどうせ一人で書くのだから、プログラム以外の資料を作ってもしかたがない（あっても見ないから）。

■2つの確率

ところで、この手のシステムに欠かせないのが「モデル」。魔法のコンピュータの場合、「無数の歴史シナリオ＝無数の分岐点×無数の選択肢」を再現する仕掛けを高度に抽象化したもの。複数の理論が補完し合いながら問題解決するエンジンと考えていいだろう。

では、魔法のコンピュータの理論は？

高度な数学でも、融通のきかないルールベースのAI（人工知能）でもなく、高校で習う「確率論」。

じつは、「確率」には「客観確率」と「主観確率」がある（学校で習うのは前者）。

たとえば、コインを投げて表がでる確率は？

考えるまでもなく、「1/2」。

でも、実際に投げてみると・・・表、表、裏、表・・・だったりする。この場合、試技が4回で、表が3回なので、表が出る確率は「3/4」。

どっちが本当なのだ？

どっちも本当。

前者の確率「1/2」は、コインを無限回投げた場合の確率で、「客観確率」とよばれている。もちろん、実際に無限回投げることはできないので「理論値」。

一方、後者の「3/4」は、実際にコインを4回投げた結果で、「主観確率」とよばれている。もちろん、こちらは「実験値」。

普通に考えれば、試技が4回より、無限回の方が精度が高いように思える。

それなら、主観確率などいらないのでは？

それが大ありなのだ。

たとえば、「コインを投げたら表が出る確率」は決定論的に計算できる。出目は、表と裏の「2通り」で、表が出るのは「1通り」なので、

表が出る確率＝1/2（裏が出る確率も同じ）

※表と裏がどちらが出やすいかはっきりしないので、出る頻度は同じと仮定。

このように事象がシンプルで、決定論的に計算できるなら、主観確率は不要だろう。

ところが、現実は複雑だ。確率が決定論的に計算できない事象も存在するのだ。

たとえば、グーグル検索。

■確率的推論

グーグルの検索窓に、「1億円」と入力すると、それに続く候補として、

1．「あったら」

2．「重さ」

3．「運用」

4．「座椅子」

5．「札」

が表示される（「１億円コンピュータ」は番外のようだ）。

つまり、「1億円」の後に、どんな単語が入力されやすいか（確率）、検索エンジンは知っているわけだ。

では、その確率はどうやって求めたのだろう？

コインの裏表のように計算式がある？

あるわけない。

そもそも、確率に影響を与える要素の数が多すぎるし、要素間のからみも複雑怪奇。なので、仮に理論式を立てたとしても、絵に描いた餅だろう。

では、何で計算する？

コイン投げでは無意味だった「主観確率」。

具体的には（グーグルの社員ではないので、あくまで推測）

1．まず、「1億円」のあとに続くワードの候補を、テキトーに順位付けする。

2．世界中で、日々検索される結果を収集・分析し、順位付けを更新する。

これを延々とくりかえせば、限りなく客観確率に近づく。このような手法を「確率的推論」、ピンポイントには「ベイズ理論（ベイズ確率）」とよんでいる。

というわけで、一応「推論」なので、AI（人口知能）と言えないこともない。でも、オツムが弱いので、数（試行錯誤の回数）でこなすようなもの。早い話が力技。

そもそも・・・

「1億円」ときたら、つぎに何が来るでしょう？

を言い当てても、感動する人はいないだろう。だから、AIなんて、おこがましい。まぁ、確率論なんてそんなものだろうが。

しかし・・・

確率的推論を甘く見てはならない。

たとえば、「Google日本語入力」。

■ATOKを超えた日本語入力

「Google日本語入力」は、Freeの仮名漢字変換ソフトだが、これがなかなかの優れもの。長年、ATOKを使ってきたが、変換効率では・・・

Google日本語入力>ATOK>MS-IME（Windows標準）、ことえり（Mac標準）

さらに、サジェスト機能というのがあって、これが非常に強力だ。

たとえば、「ぱられ」と3文字入力するだけで、

1．パラレルズ（MacでWindowsを起動するためのソフト）

2．パラレル

3．パラレル仕様

4．パラレルワールド（今回のテーマ「パラレル世界」のこと）

5．パラレルワールド的

6．パラレル化

7．パラレルポート

・・・
等々、合計「86個」の候補が表示される。

ここで注目すべきは、3文字しか入力していないのに、それを超える文字数の単語がリストアップされること。

つまり、サジェスト機能とは、「入力そのまま変換」ではなく、「入力文字から単語を予測する変換」なのである。

では、サジェスト機能がない場合は？

最新のATOK2014で試してみよう。

「ぱられ」と入力しても、候補は一つも表示されない。

つぎに、「ぱられる」とフル入力すると、候補が「5個」表示される。

1．パラレル

2．ぱられる

3．parallel

4．Parallel

5．PARALLEL

半分が英語じゃん！

というわけで、雲泥の差。

じつは、「Google日本語入力」システムが採用しているのが、前述した確率的推論なのである。

具体的には、仮名が1文字入力されるたびに、その後、どんな文字が入力され、どんな単語が選ばれるかを予測し、リストアップするのである。その予測アルゴリズムは、ルールベースのような古典的AIではない。辞書と入力履歴から、確率の高いものを選択するのである。

つまり、Googleは確率的推論によって、老舗ATOKを超えたのである。

■辞書を自動作成する

一般論として、日本語入力ソフトのキモは「辞書」にある。

では、辞書はどうやって作るのだろう？

ふつうに考えれば、専門家による手作業。ところが、「Google日本語入力」の辞書はすべてコンピュータが自動作成している。

コンピュータがどうやって？

Googleに限らず、検索エンジンは、インターネット上にデータ収集用ロボット「クローラ」を巡回させている。もちろん、機械式ロボットがネット世界をうろついているわけではない。実体はプログラムで、世界中のWebサイトを自社サーバーにコピペして、データベース化しているのである。

ところで、Webページの量はどれくらいあるのだろう？

日本語版で1億ページ、世界で100億ページ超！（正確にはわからない）

古代アレクサンドリア大図書館を超える史上最大の図書館かも・・・。しかも、瞬時性、同時性、更新の容易さで、紙メディアを圧倒する。今後、紙の本は「文学」に特化するしかないだろう。

じつは、Google日本語入力の辞書は、このWeb情報をベースにしている。具体的には、クローラが世界中から集めたWebページのデータベースをもとに、辞書を自動作成しているのだ。だから、変換効率が高い、ボキャブラリーが多いのはあたりまえ。

しかし・・・

ここで、ある疑惑がわく。

Googleは、この辞書を作るために、ユーザーの入力情報を収集しているのではないか？

具体的には・・・

検索窓で入力された仮名と変換された単語をGoogle側に送信している？

もちろん、物理的には可能。

では、本当のところは？

Google側の公式回答によれば・・・

「仮名入力も変換もすべてローカル側（ユーザーの使用する端末）で処理しています。だから、オペレーション情報がGoogle側に送信されることはありません。その証拠に、Google日本語入力はオフラインでも使えます」

たしかに、Google日本語入力はオフラインでも使える。でも、それが「情報をGoogle側に送信していない」証拠にはならない。オンラインに切り替わったタイミングで、ユーザーの入力履歴をまとめて送信すればいいのだから。

それに、もし、自分がやるとしたら・・・

変換前の仮名と変換後の単語をサーバーに送るだろう。そうすれば、どの仮名がどの単語に変換されやすいか、世界規模でデータを収集できる。変換効率は格段に向上するだろう。

一方、Google日本語入力は、変換処理をすべてローカル側で処理するので、「変換履歴」はユーザー固有のものになる。そのぶん、学習（最適化）に時間がかかるだろう。利便性をとるか、個人情報に執着するかである。

■日本語入力の未来

いずれにせよ、ATOKのような有料の日本語入力ソフトは、今後、存在意義を失うだろう。というか、検索エンジン、インターネット広告、仮名漢字変換、自動翻訳など、「言葉」がキモになるサービスは、すべてGoogleの独擅場になる。検索エンジンを制する者が「言葉」を制するから。しかも、Googleはインターネット広告の収入があるので、サービスはすべてFree。だから、何をどうしようが、他社に勝ち目はない。

つまり、こういうこと。

インターネットビジネスで、何をやれば成功するかわからないが、何をやれば失敗するかはわかっている。

話をもどそう。

「1億円」のあとに、何が入力されやすいか？

これがビンゴでも、AI（人工知能）だと思う人はいないだろう。一方、仮名漢字変換をビシバシ的中させれば、「頭いい！」。つまり、確率的推論でも、AIのまねごとができるわけだ。

というわけで、確率的推論はあなどれない。

しかも、この推論の本質は、試行錯誤を繰り返して正解に近づく「近似計算」。これはコンピュータが最も得意とするところ。つまり、オツムは弱いが、計算だけは大得意！だから、確率的推論とコンピュータは相性がいいのである。

そこで・・・

歴史の原因と結果を「確率」でひも付けし、その「確率」を確率的推論を使って最適化する。そうすれば、現実と等価の世界をコンピュータ上で再現できる。つまり、「歴史のIF」をかつてないリアルさで再現できるわけだ。

さて、魔法のコンピュータのアウトラインは固まった。あとは、作るだけ。

ところが・・・

要求されるスペックは「スーパーコンピュータ＋プレステ7（PS4に非ず）」。そんなモンスターをどうやって作るのだ？

by Ｒ．Ｂ

週刊スモールトーク （第256話） 魔法のコンピュータ(3)～確率的推論で世界創造～

魔法のコンピュータ(3)～確率的推論で世界創造～

■パラレル世界を見る方法

■2つの確率

■確率的推論

■ATOKを超えた日本語入力

■辞書を自動作成する

■日本語入力の未来

関連情報

週刊スモールトーク　（第256話）　魔法のコンピュータ(3)～確率的推論で世界創造～