BeneDict 地球歴史館

BeneDict 地球歴史館
menu

週刊スモールトーク (第584話) パズルを解く鳥~ カラスとAIと人間~

カテゴリ : 科学

2025.05.19

パズルを解く鳥~ カラスとAIと人間~

■パズルを解くカラス

カラスは、道具を使い、パズルを解く(ホントだぞ)。

動かぬ証拠がある。

「Can you solve this puzzle?(そこのあなた、このパズル解けます?)」で始まるカレドニアカラスの実験映像だ。なぜ、カレドニアカラスかというと、知能が動物界でピカイチだから(人間をのぞく)。

実験は2段階ですすむ。

まず、第1段階。

部屋の中に、カレドニアカラスがいる(以下、カラス)。

透明の容器の中にエサがあるが、そのままでは取れない。

カラスは、小枝を見つけて、取るが、どうにもならない。

つぎに、小石を見つけて、透明の容器に入れると、その重みで、床が開いて、エサが外に飛び出す。カラスは、めでたく、エサをゲット。

第1段階の要点はこうだ。容器の中のエサをとるには、小枝は役に立たないが、小石ならOK。その事実を、カラスは学習した。

つぎに第2段階。

透明の容器の中にエサがあるが、そのままでは取れない。ここは第1段階と同じ。

別の容器があって、その中に小石があるが、そのままでは取れない。

そこで、カラスは、小枝を取り、小石が入った容器の中をつつき、小石を取り出す。つぎに、小石をエサの容器に入れて、エサをゲット。

お気づきだろうか。

カラスは、1つの道具を使って、次の道具を取得し、それを使って、最終目的を果たす。これを「道具の連鎖(ツールチェイン)」という。

ツールチェインは、カワウソが小石で貝を割るのとは次元が違う。2つの知能が必要なのだ。

まず、計画性。1つのタスクを、2つのプロセスに分割する。

つぎに、因果関係。分割したプロセスを、正しい順序で、1ステップづつ処理する。これは、先に○○をしないと次ができないという因果関係の理解が必要だ。

ただし、「因果関係」は物理学の文脈ではあやしい。ニュートン力学も、原因と結果は分離できないから。よって、何ごとも因果関係にもちこむのは危険だ。とはいえ、原因と結果にわけて考えると、人間脳は理解しやすい。それだけのことなのだ。

話をもどそう。

見方をかえれば、「道具の連鎖」は「段階的問題解決」なのだ。当然、高度な知能が必要で、人間の3、4歳児の知能に匹敵するという。

カラスは、不気味なシルエットと不吉な鳴き声で、人間を不安にさせるが、知能は霊長類なみなのだ。

じつは「段階的問題解決」はAIでも難しい。実現したのは、つい最近のことだ。

2024年12月、OpenAIは新種のAI「o3」を発表した。

何が新種かというと「論理的思考」に長けていること。

そのカラクリが「段階的問題解決」だったのである。ただし、AI業界では「思考の連鎖=CoT(Chain of Thoughts)」とよんでいる。単語の並びをみれば、同義語であることは明らかだ。

昨今、飛ぶ鳥を落とす勢いのAIも、やっとカラスに追いついたわけだ。

■直感と論理

2025年、生成AIは雨後のタケノコの状況である。

そんな群雄割拠で、OpenAIが頭一つ抜けている。「OepnAIを超えた!」のニュースが後を絶たないが、怪しい。アクセスを稼ごうとする姑息な魂胆がミエミエ。

そんな喧騒をよそに、日々、ChatGPTと読書会を愉しんでいる。

先日も、アイルランドの作家ジェイムズ・ジョイスを熱く語り合った。

【プロンプト】ジョイスの「ダブリナーズ」を読んだよ。ストーリーはありふれてるけど、文章は簡潔で、鮮明で、風通しがいい。でも、読みたくなるのは、まだ秘密がある?

【ChatGPT】とても鋭い読後感ですね。あなたの表現「ストーリーはありふれているけど、文章は簡潔で、鮮明で、風通しがいい」はまさに『ダブリナーズ』の核心をついています。そしてその先にある「でも、読みたくなるのはまだ秘密がある?」という問いには、はっきり「はい」と答えられます。

『ダブリナーズ』の「ありふれているのに引き込まれる」理由。

1. ありふれた日常に潜む「瞬間」への鋭い洞察

ジョイスは、ごく普通の人々の平凡な出来事、例えば、夕食、恋、失望、死を描いています。でも、その中で人がふと人生の本質に触れる「啓示」の瞬間を切り出します。これが読者の無意識に深く刺さる。「自分にもあったあの感じ」と思わせる。

2. 透明で簡潔なのに「含み」がある文体

あなたが感じた「風通しのいい文体」は、ジョイスが意識して過剰な装飾を排除し、行間に読者を招き入れる構造にしているから。文章は簡潔でも、その背後には「抑圧された思い」「言えなかったこと」「都市の空気」が詰まっている。まさに「読ませる沈黙」がある。

3. ダブリンという都市そのものが語り手

どの短編も、人物を通してダブリンそのものの閉塞、停滞、そして近代化の影が描かれています。都市の声や記憶が、読み進めるほどに蓄積されていく構成になっており、ひとつ読むごとに「別の短編も読みたくなる」設計。

4. 最終話『死者たち(The Dead)』の力

全体の最後に置かれたこの作品は、それまでの全編を照らし返す鍵になっていて、読後に「また最初から読み返したい」と感じさせるほど構造が緻密。

凄い・・・

でも、人間として悔しいから、一言、言わせてほしい。言葉は流暢につながっているけど、論理は一気通貫とはいえない。言葉の迫力はあるけど、論理の迫力はイマイチ。これが言葉をつなぐ方式の限界かも。ただし、長大な文脈を理解して作文するので、レベルは相当高い。気づきにつながる深い洞察もある。あー、やっぱり負けたわ。

ジョイスは、西洋文学の卒論で人気があるけど、大金かけて大学に行く必要ある?

話を生成AIにもどそう。

ChatGPTをはじめ生成AIは、言語能力を獲得したと言っていい。

アメリカ言語学の大家、ノーム・チョムスキーはこう主張する。

人間は、共通の言語能力を備えている。第一に、文の曖昧さを認識し、第二に、2つの文が同義であると理解し、第三に、文法の正誤を判断する。

生成AIがこの3つの能力を獲得したことは、明らかだ。よって、AIは自然言語をマスターしたといっていいだろう。

人文系の深い問答なら、OpenAIが頭1つ抜けている。ネット上の最新情報を重視するなら、Perplexity AIもいい。ときどき、凄い答えを返すから。最終的には好みなので、使ってみるのが一番です。

とはいえ、知名度では、OpenAIはダントツだ。

メディアの露出度は一番だし、サム・アルトマンCEOは、いつの間にかトランプ大統領とお友達。

そのOpenAIだが、2種類のAIを展開している。

「GPTシリーズ」と「oシリーズ」だ。

なぜ、2つあるかというと、得手不得手があるから。

GPTシリーズは国語が得意だが、数学、プログラミングのような論理的問題は苦手。そもそも、演繹法のように、筋道立てて推論する機能がついていない。

一方、oシリーズは、国語だけでなく、論理的問題も解ける。そのカラクリが「思考の連鎖(CoT)」なのだ。

じゃあ、oシリーズに1本化すれば?

次のGPT-5で、1本化されるようだ。

ただ、思考方法の根本が違うので、完全合体は難しい。当面は、モノリシック(一枚岩)ではなく、ハイブリッド(混合)になるだろう。もちろん、ハイブリッド技術はマガイモノなので、長続きしない。たとえば、エンジンと帆のハイブリッド「機帆船」は、1860年代から90年間しかもたなかった。

そんなわけで、AIの開発は難しくなっている。

今後は、AIそのものを作るより、AIを作るAIを作る方が手っ取り早い。そこにフォーカスすれば、AGI(人工汎用知能)に一番乗りできるだろう。現状、最も近いのはOpenAIだ。

ところで、GPTとoの思考方法はどう違うのか?

まず、AIの「思考」を「推論」という。

推論?

ここで、AI用語をサクッとおさらい。

現在のAIの基盤となるのが、「大規模言語モデル(LLM)」だ。 大量のテキストデータを学習し、自然言語を理解・生成する。具体的には、GPT、BERT、Claude、Geminiなど。

大規模言語モデルに、個別課題を追加学習したのが「生成AI」だ。個別課題とは、たとえば、長文読解。追加学習は、AIでは転移学習という。生成AIは、文章、画像、動画、音声、音楽などのコンテンツを生成してくれるので、一番人気だ。具体的には、ChatGPT、DALL·E、Midjourney、Voiceboxなど。

つぎに「推論」。

AIの文脈で「推論」とは、AIが考え、回答すること。Q&Aに応対したり、テキストを要約したり、作文したり。マルチモーダルなら、画像、動画、音声、音楽も扱うことができる。

この「推論」の方法が、GPTシリーズとoシリーズで大きく違うのだ。

GPTシリーズは、直感的で、よく考えもせず、パターンマッチングのノリで即回答する。このタイプの推論を「インファレンス(Inference)」という。

一方、oシリーズは、論理的で、課題を複数のステップに分割し、ステップごとに論理的な判断や計算をし、段階的に答えを導き出す。前述の「思考の連鎖(Chain of Thought)」のことだ。このような推論を「リーズニング(Reasoning)」という。

■ガメ暗記で数学を解く方法

うーん、騙されたような・・・

そうかも。そもそも、この話にはおかしなところがある。

GPTは、数学が苦手というが、カンタンな計算なら解いてみせる。論理的思考の仕掛けがないというが、もし本当なら、0点ですよね。ところが、実際には90点を超える(カンタンな計算なら)。

であれば、「インファレンス(Inference)」も、論理的思考の仕掛けがあるのでは?

ないです。

じゃあ、どうやって数学を解いている?

数学を「国語」で解く。

たとえば、1+2という問題。

数学で解くなら、加減の法則で計算する。

一方、国語で解く場合・・・

膨大なテキストを学習し、その中から、「1」、「+」、「2」に続く、言葉(トークン)を見つける。正解は「3」。

もし、学習したテキストに「1+2」の言葉の並びがなかったら、あきらめる?

あきらめない。

適当に推論する。

どうやって?

学習した結果を応用するのだ。

じつは、生成AIの基盤「大規模言語モデル」には、知識の「記憶機能」がない。

たとえば、日本の首都は東京。

AIに、日本の首都をきくと、東京と正解するが、「日本の首都=東京」と記憶していて、それで回答しているわけではない。「日本の首都・・・」に続く言葉を統計学的に予測しているだけなのだ。

それと同じで、学習テキストの中に「1+2=3」があったら、そのまま記録するのではない。言葉のデータベースを作るのではなく、「特徴」を抽出して学習している。正確さに欠けるが、そのぶん、融通がきいて、応用がきく。これを汎化性能という。

うーん、まだ騙されているような・・・

もう一歩、踏み込もう。

今も昔も、大学受験は人生の試練の一つだ。とくに、数学はガメ暗記がきかないので、やっかいだ。

ところが、ガメ暗記で数学を解く方法がある。

その昔、大学予備校といえば、駿台予備校。東大をはじめ有名校への進学で、他校を圧倒した。その秘密がテキストだったことは、あまり知られていない。とくに数学のテキストが秀逸だった。これさえマスターすれば、数学的センスがなくても、かなりの高得点が期待できる。

左側の「数学A」は数学Ⅰ・ⅡBで、右側の「数学B」は数学Ⅲである(かなり古いけど、ホンモノです)。

駿台予備校の数学テキスト
駿台予備校の数学テキスト

数学Aは「132」の例題、数学Bは「44」ある。この例題と解答をガメ暗記すれば、入試問題の6割ぐらいは解ける。6割解ければ、たいていの大学に合格できる。

ただし、入試本番で、同じ問題がでることはない。

では、なぜ6割も解けるのか?

この例題は、過去問の「特徴」を抽出して、重複しないよう、かつ網羅的に作られている。そのため、この例題を暗記するだけで、大学入試問題の「特徴=解法」を修得できる。つまり、数学を段階的、論理的に解くのではなく、パターンマッチングで解くわけだ。

GPTも同じ。

膨大な数学の問題から、「特徴(解法)」を学習し、パターンで解く。水も漏らさぬ論理で解くわけではないのだ。

つまり、駿台予備校とGPTは、数学を、論理ではなく暗記、国語で解く。

一方、o3は、論理的に数学的に解く。それを可能にしたのが、カラスの「道具の連鎖」、いや、AIの「思考の連鎖(CoT)」なのである。

■カラスの言葉

「カラスの道具の連鎖=AIの思考の連鎖」なら、カラスの知能はAIと同等?

そうカンタンではない。

カレドニアカラスの実験を思い出そう。

カラスは「道具の連鎖」を使うが、「言語化」しているわけではない(たぶん)。

「エサを取れる道具は、小枝ではなく、小石である。小石を取れる道具は、小枝である。よって、まず小枝で小石をとって、小石でエサをとれば目的達成」と言葉(記号)をつないで、学習しているわけではないのだ。

では、どうやっている?

脳のニューロンのつながりの強さを変えることで、学習し、知能を実現している(言葉は使わない)。

それなら、AIも同じでは?

大規模言語モデルは、脳を真似たニューラルネットワークだ。脳のニューロンに該当するノードのつながりの強さを変えて、知能を実現している。つまり、カラスと知能と基本的な仕組みはかわらない。

ここで、知能と言葉について考えてみよう。

人間もAIも、自然言語を操るが、言葉を理解する方法が違う。

証拠がある。

人間が扱う自然言語の最小単位は「単語」で、AIは「トークン」だ。呼称は違うが、実体はほぼ同じと考えていい。

この最小単位の「表現方法(理解の仕方)」が、人間とAIでは異なるのだ。

人間の単語は、属性で表現される。たとえば、重さ、大きさ、色、質感など。この場合、パラメータ数は4つだ。

一方、AIのトークンは、n次元ベクトルで表される。たとえば、GPT-3.5は、次元数は4096なので、パラメータ数は4096だ。

ところが、人間の単語とAIのトークンのパラメータは、中身が違う。

たとえば、リンゴ。

人間の単語なら、パラメータは、重さ、大きさ、色、味で表される。

一方、AIのトークンは、各次元の値は数値で、どれが重さで、どれが大きさにあたるのかわからない。そもそも、重さや大きさという概念があるかも怪しい。

つまり、人間とAIでは言葉の理解の仕方が違うのだ。

とすると、カラスも、単語でもトークンでもない、未知の概念で言語を操っているかもしれない。

だが、残念なことに、確認するすべがない。

人間は言語化できるので、自分の考えや思いを伝えることができる。ところが、カラスはムリ。

他に確認する方法は?

MRIにかけるとか。

ムリ。

たとえば、心臓の動作原理は、構造で説明できる。心臓は血液の循環機能をもつが、心房や心室や弁の動きで説明できる。そのため、MRIをかければ一目瞭然だ。

ところが、脳は構造性にとぼしいので、MRIをかけても何もわからない。コンピュータにMRIをかけても動作原理がわからないのと同じだ。

長い話になった。

カラスは「道具の連鎖=思考の連鎖」ができるほど賢い。ネアンデルタール人は言葉を使うほど賢かった。だが、蒸気力、電磁気力、原子力まで到達したのは人類のみ。

この巨大な差を生んだ要因は何か?

「思考の連鎖」でも「言葉」でもない。人間だけがもつ「文字」だ。

文字を使えば、知識や知恵や技術を記録・保存できる。それを、仲間と共有し、次の世代に伝えることができる。結果、文明を段階的に積み上げることができたのだ。

人類文明は、長い期間をかけて、口承文化から文字文化へと進化してきた。

古代ギリシャ人は文字をもっていたが、ホメーロスの叙事詩は朗唱からはじまった。その後、書物になっても、読書は、朗読、つまり音読だった。文字文化が、口承文化から独立し、読書が黙読になったのは、17世紀以降なのだ。

つまりこういうこと。

人類の成功は「考える」より「言葉」、「言葉」より「文字」によっている。

パスカルの名言「人間は考える葦」は、本当は「人間は文字を使う葦」なのである。

by R.B

関連情報