AIは言葉の意味を理解している~ウィトゲンシュタインの言語ゲーム~
■ウィトゲンシュタインの予言
死は人生のできごとではない。
ひとは死を体験しない。
永遠を時間的な永続としてではなく、無時間性と解するならば、現在に生きる者は永遠に生きるのである。
~ルートヴィヒ・ウィトゲンシュタイン「論理哲学論考」6・4311~
おそらく意味はこうだ。
死はフィクションである。
死は三人称なので、自分の死を認知できない。
過去も未来もない、あるのは、永遠に続く現在だけ。
意味深で、不穏な響きがあるが、死の恐怖を和らげる呪文でもある。
ウィトゲンシュタインは、オーストリア生まれのイギリスの哲学者だ。20世紀最大の知の巨人ともくされている。哲学と科学の境界に踏み込み、言語の本質と限界を明らかにした。そのためだろうか、言葉というより記号、哲学というよりブール代数(論理回路理論)の臭いがする(個人的印象です)。
ウィトゲンシュタインの活動時期は、前期と後期にわかれるが、その成果は、それぞれ、「論理哲学論考(※1)」と「青色本(※2)」にまとめられている。
冒頭の一節は「論理哲学論考」にあるのだが、より重要なのは、「青色本」だろう。
そこには、驚くべき予言が記されている。
ウィトゲンシュタインは、1951年に没したが、その70年後の難問を解いていたのだ。
その難問とは?
AI「大規模言語モデル」は「言葉の意味」を理解しているか?
開発した当事者たちも、答えられない難問だが、ウィトゲンシュタインの答えは・・・言葉の意味を理解している。
もちろん、彼が生きた時代、大規模言語モデルは存在しない。
だが、彼の命題を真とすれば、この命題も真なのである。
では、もう一歩踏み込んで、大規模言語モデルは本物の知能か?
ウィトゲンシュタインの答えは・・・イエス。
そこで、大規模言語モデルの正体を明らかにしよう。
言葉の意味を理解しているか?
本物の知能か?
■本物と偽物の違い
AIの進化が加速している。
2022年11月、生成AI「ChatGPT」がリリースされた。自然言語でコミュニケーションできる画期的なAIで、世界中が大騒ぎになった。その後、生成AIは雨後のタケノコの様相で、2025年には、AIエージェントの社会実装が始まった。
AIエージェントは、生成AIより賢い。最終目的を指示するだけで、自分で段取りして、複数のタスクを生成し、実行してくれる。
たとえば、靴の写真をみせて、これを返品して、と指示すれば、一気通貫で処理してくれる。写真からメーカーと品番を特定し、注文メールを探しだし、注文先を特定し、返品処理する。これは未来の話ではない。すでに現実になっているのだ。
現在、AGI(人工汎用知能)がいつ誕生するか、かまびすしいが、ユーザー目線では「AIエージェント=AGI」だろう。今後、AIエージェントは、スマホを超える必須アイテムになるに間違いない。
この生成AIとAIエージェントの基盤となるのが、大規模言語モデルだ。
自然言語を巧みに操るAIで、人工知能の長年の夢だった「チューリングテスト」もあっさり突破した。会話しても人間と区別がつかない機械が誕生したのである。
ところが、大規模言語モデルは本物の知能ではない、と揶揄されている。
根拠はこうだ。
大規模言語モデルは、言葉の次にくる言葉を、統計的に予測し、つないでいるだけ。言葉の意味を理解しているわけではない。よって、似非知能だと。
その是非はさておき、そもそも、本物の知能って?
人間の知能と言いたいのだろう。
でも、これはおかしい。
たとえば、本物の「飛ぶ」とは?
羽で羽ばたく鳥?
プロペラを回転して飛ぶ飛行機は、偽物?
本物の「泳ぐ」とは?
尾ひれで泳ぐ魚?
スクリューで推進する潜水艦は、偽物?
何が言いたいのか?
「飛ぶ」、「泳ぐ」がいろいろなら、「知能」もいろいろ、アウトプットが同じなら、プロセスはどうでもいいではないか。
潜水艦は泳げるか?の議論は、不毛で馬鹿げている。
あ~だこ~だ、話がややこしくなってきたので、一度整理しよう。
初めに結論。
第一に、大規模言語モデルは、言葉の意味を理解している。ただし、人間脳とは違うやり方で。
第二に、大規模言語モデルは、本物の知能である。ただし、人間脳とは異質で異形。
第一と第二の命題は、ウィトゲンシュタインが提唱した「言語ゲーム」が証明している。
さて、この3つを精査していこう。
■大規模言語モデルの仕組み
まず、大規模言語モデルの仕組みをみていこう。
言葉の次にくる言葉を、予測してつなぐ・・・これはまぎれもない事実だ。
じゃあ、やっぱり、マガイモノの知能と、理系の人はガッカリするかもしれない。
マルコフ連鎖を想起させるからだ。
マルコフ連鎖とは「未来は、現在だけで決定され、過去と一切関係ない」という確率過程をいう。大規模言語モデルは、直前の言葉だけで、次の言葉を予測するのだから、まんまマルコフ連鎖ですね。
ノー、さにあらず。
大規模言語モデルは、前の言葉だけみて、次の言葉を決めているわけではない。文脈全体を考慮した高度な予測をしている。しかも、実装はとてつもなく複雑で、お手軽なマルコフ連鎖などではない。
アウトプットをみれば明らかだ。
大規模言語モデルが生成した文章は、因果関係的な推論、詩、論文、散文の使い分け、質問、皮肉、謝罪などの意図を理解しているとしか思えない。
とすれば、大規模言語モデルは、言葉の意味どころか、自然言語を体系的に理解している!?
ところが、話はそうカンタンではない。
大規模言語モデルには、明示的な言語理解の仕組みがないのだ。
基本構造は、人間の脳を真似たニューラルネットワークで、脳の脳細胞にあたるノードが、脳のシナプスにあたるエッジを介してつながっているだけ。それぞれのエッジの重み付けが、学習と推論のカラクリなのだ。
こういうとシンプルに聞こえるが、実際は、様々の工夫がなされている。
まず、ノードとエッジのネットワークは、多階層になっている。
1つの「Transformer層」が、何層も積み重ねられているのだ。GPT-3は、96層あり、その上位バージョン(GPT-4)は、非公開だが100層を超えるだろう。
それが、言語理解の仕組み?
直接的には、ノー。
だが、間接的に言語理解の助けになっている可能性がある。
そのヒントとなるのが「言語マップ」だ。
■言語マップ
大規模言語モデルは、膨大なテキストを学習して「言語マップ」を作る。
そのマップをもとに、文脈を考慮しながら、次に来る適切な言葉を予測し、つないでいる。
では、言語マップとは?
たとえば、地理マップは、地球上の場所とモノが(緯度、経度)の2次元空間にマッピングされる。
一方、言語マップは、言葉が(x0、x1、・・・xn-1)のn次元空間にマッピングされる。GPT-3の場合、n=12288、つまり、12288次元空間。3次元空間をこえると、イメージできないので、言葉が1万個のパラメータで表されると考ればいい。この巨大な言語マップ上に、意味が似た言葉は近くに、異なった言葉は遠くに配置される。
ただし、同じ言葉でも、文脈によって、意味は異なる。
たとえば「細い」という言葉は、「道が細い」と「体が細い」は、細い形状を意味するが、「食が細い」は少食を意味する。
この場合、「道が細い」と「体が細い」は「言語マップ」上の距離は近いが、「食が細い」は距離が遠い。つまり、大規模言語モデルは、同じ言葉でも、文脈によって意味を使い分けているのだ。
これは驚きだ。
文脈依存的に、言葉の類似度を表すマップを作成しただけで、大規模言語モデルは自然言語をマスターした!?
さら踏み込むと・・・
言語マップを作る過程で、より高次の何か・・・言葉の組み合わせの背後に隠れている概念的な何か・・・つまり、本物の知能を獲得した?
あー、やっぱりムリ。
では、こう考えたらどうだろう?
そもそも、「知能」はわれわれが考えているような、ミステリアスな能力ではないのではないか。
われわれが目と脳で理解している世界は、リアルな現実世界ではない。空、大地、海、道、家、猫・・・現実世界は、そんな単純なものではないはずだ。
そこで、脳は、現実世界をモデル化、シンボル化して、脳が認識しやすい、理解しやすいものに再構築しているのはないか。
たとえば、地理マップには、国境線が記されているが、現実の地球にはそんなものはない。地理マップは、人間がわかりやすくモデル化したものにすぎないのだ。
知能も同じ。
知能は、現実世界を、リアルタイムに単純化する一種の世界シミュレーターなのかもしれない。
とすれば、大規模言語モデルでも、人間脳でもない、全く異なったアーキテクチャの人工知能もありうる。なぜなら、世界シュミレーターなんて、無限に考えられるからだ。
さて、準備は整った。
ここで、今回のお題「ウィトゲンシュタインの言語ゲーム」に進もう。
結論はもうすぐだ。
■ウィトゲンシュタインの言語ゲーム
ウィトゲンシュタインの「青色本」には、こう書かれている。
記号の生命であるものを名指せ、と言われれば、それは記号の「使用(use)」であると言うべきであろう(※2)。
「記号の生命であるもの」とは、「言葉で最も重要なもの=言葉の意味」、つきつめれば「知能」だろう。
よって、ウィトゲンシュタインの命題の意味は、こうなる。
「言葉の意味」とは「使い方」である。
言語の意味は、言語の世界と現実世界を関連付ける意味論的な観点から捉えるのではなく、むしろその言葉の使い方として捉えるべきだと。
さらに発展的に解釈すれば、「知能」は明示的に定義するのではなく、日常言語の使われ方で、理解するべきである。
ここで、大規模言語モデルを思い起こそう。
大規模言語モデルは、言葉を巧みに「使う」。
ゆえに、ウィトゲンシュタインの命題を真とすれば、大規模言語モデルは、言葉の意味を理解する、本物の知能なのである。
ウィトゲンシュタインが提唱した「言語ゲーム」によれば、言語の意味は、その言語が使われる場面や文脈、そしてその場でのやり取り(ルール)によって決まる。つまり、言語は抽象的な「道具」としてではなく、日常の様々な言語活動(ゲーム)として捉えるべきなのだ。
最後に面白い実験をしよう。
ChatGPT(無料版)にズバリ問うた。
【プロンプト】
「死は人生のできごとではない。ひとは死を経験しない」とはどういう意味ですか?
【ChatGPT】
死は経験できないので、人生のできごとではありません。人生のできごととは、意識によって経験されます。ところが、「死」は、経験する主体=意識が存在しない状態なので、経験できないからです。たとえるなら、あなたが本を読んでいる間は「物語」が進みますが、本を閉じた瞬間、それ以上の物語は「あなたには」存在しなくなるようなもの。
凄い・・・
最後の喩えは、一体何!?
「死」、「人生」、「できごと」の意味を完全に理解しているようにみえる。ただし、人間脳とは違うやり方で。
ウィトゲンシュタインは、大規模言語モデルの出現は予測できなかったが、「言葉と知能」の本質を見抜いていたのかもしれない。
参考文献:
(※1)論理哲学論考 (岩波文庫) ウィトゲンシュタイン (著), 野矢茂樹 (翻訳) 出版社:岩波書店
(※2)青色本 (ちくま学芸文庫) ウィトゲンシュタイン (著), 野矢茂樹 (解説), 大森 荘蔵 (翻訳) 出版社:筑摩書房
by R.B