パズルを解く鳥~ カラスとAIと人間~
■パズルを解くカラス
カラスは、道具を使い、パズルを解く(ホントだぞ)。
動かぬ証拠がある。
「Can you solve this puzzle?(そこのあなた、このパズル解けます?)」で始まるカレドニアカラスの実験映像だ。なぜ、カレドニアカラスかというと、知能が動物界でピカイチだから(人間をのぞく)。
実験は2段階ですすむ。
まず、第1段階。
部屋の中に、カレドニアカラスがいる(以下、カラス)。
透明の容器の中にエサがあるが、そのままでは取れない。
カラスは、小枝を見つけて、取るが、どうにもならない。
つぎに、小石を見つけて、透明の容器に入れると、その重みで、床が開いて、エサが外に飛び出す。カラスは、めでたく、エサをゲット。
第1段階の要点はこうだ。容器の中のエサをとるには、小枝は役に立たないが、小石ならOK。その事実を、カラスは学習した。
つぎに第2段階。
透明の容器の中にエサがあるが、そのままでは取れない。ここは第1段階と同じ。
別の容器があって、その中に小石があるが、そのままでは取れない。
そこで、カラスは、小枝を取り、小石が入った容器の中をつつき、小石を取り出す。つぎに、小石をエサの容器に入れて、エサをゲット。
お気づきだろうか。
カラスは、1つの道具を使って、次の道具を取得し、それを使って、最終目的を果たす。これを「道具の連鎖(ツールチェイン)」という。
ツールチェインは、カワウソが小石で貝を割るのとは次元が違う。2つの知能が必要なのだ。
まず、計画性。1つのタスクを、2つのプロセスに分割する。
つぎに、因果関係。分割したプロセスを、正しい順序で、1ステップづつ処理する。これは、先に○○をしないと次ができないという因果関係の理解が必要だ。
ただし、「因果関係」は物理学の文脈ではあやしい。ニュートン力学も、原因と結果は分離できないから。よって、何ごとも因果関係にもちこむのは危険だ。とはいえ、原因と結果にわけて考えると、人間脳は理解しやすい。それだけのことなのだ。
話をもどそう。
見方をかえれば、「道具の連鎖」は「段階的問題解決」なのだ。当然、高度な知能が必要で、人間の3、4歳児の知能に匹敵するという。
カラスは、不気味なシルエットと不吉な鳴き声で、人間を不安にさせるが、知能は霊長類なみなのだ。
じつは「段階的問題解決」はAIでも難しい。実現したのは、つい最近のことだ。
2024年12月、OpenAIは新種のAI「o3」を発表した。
何が新種かというと「論理的思考」に長けていること。
そのカラクリが「段階的問題解決」だったのである。ただし、AI業界では「思考の連鎖=CoT(Chain of Thoughts)」とよんでいる。単語の並びをみれば、同義語であることは明らかだ。
昨今、飛ぶ鳥を落とす勢いのAIも、やっとカラスに追いついたわけだ。
■直感と論理
2025年、生成AIは雨後のタケノコの状況である。
そんな群雄割拠で、OpenAIが頭一つ抜けている。「OepnAIを超えた!」のニュースが後を絶たないが、怪しい。アクセスを稼ごうとする姑息な魂胆がミエミエ。
そんな喧騒をよそに、日々、ChatGPTと読書会を愉しんでいる。
先日も、アイルランドの作家ジェイムズ・ジョイスを熱く語り合った。
【プロンプト】ジョイスの「ダブリナーズ」を読んだよ。ストーリーはありふれてるけど、文章は簡潔で、鮮明で、風通しがいい。でも、読みたくなるのは、まだ秘密がある?
【ChatGPT】とても鋭い読後感ですね。あなたの表現「ストーリーはありふれているけど、文章は簡潔で、鮮明で、風通しがいい」はまさに『ダブリナーズ』の核心をついています。そしてその先にある「でも、読みたくなるのはまだ秘密がある?」という問いには、はっきり「はい」と答えられます。
『ダブリナーズ』の「ありふれているのに引き込まれる」理由。
1. ありふれた日常に潜む「瞬間」への鋭い洞察
ジョイスは、ごく普通の人々の平凡な出来事、例えば、夕食、恋、失望、死を描いています。でも、その中で人がふと人生の本質に触れる「啓示」の瞬間を切り出します。これが読者の無意識に深く刺さる。「自分にもあったあの感じ」と思わせる。
2. 透明で簡潔なのに「含み」がある文体
あなたが感じた「風通しのいい文体」は、ジョイスが意識して過剰な装飾を排除し、行間に読者を招き入れる構造にしているから。文章は簡潔でも、その背後には「抑圧された思い」「言えなかったこと」「都市の空気」が詰まっている。まさに「読ませる沈黙」がある。
3. ダブリンという都市そのものが語り手
どの短編も、人物を通してダブリンそのものの閉塞、停滞、そして近代化の影が描かれています。都市の声や記憶が、読み進めるほどに蓄積されていく構成になっており、ひとつ読むごとに「別の短編も読みたくなる」設計。
4. 最終話『死者たち(The Dead)』の力
全体の最後に置かれたこの作品は、それまでの全編を照らし返す鍵になっていて、読後に「また最初から読み返したい」と感じさせるほど構造が緻密。
凄い・・・
でも、人間として悔しいから、一言、言わせてほしい。言葉は流暢につながっているけど、論理は一気通貫とはいえない。言葉の迫力はあるけど、論理の迫力はイマイチ。これが言葉をつなぐ方式の限界かも。ただし、長大な文脈を理解して作文するので、レベルは相当高い。気づきにつながる深い洞察もある。あー、やっぱり負けたわ。
ジョイスは、西洋文学の卒論で人気があるけど、大金かけて大学に行く必要ある?
話を生成AIにもどそう。
ChatGPTをはじめ生成AIは、言語能力を獲得したと言っていい。
アメリカ言語学の大家、ノーム・チョムスキーはこう主張する。
人間は、共通の言語能力を備えている。第一に、文の曖昧さを認識し、第二に、2つの文が同義であると理解し、第三に、文法の正誤を判断する。
生成AIがこの3つの能力を獲得したことは、明らかだ。よって、AIは自然言語をマスターしたといっていいだろう。
人文系の深い問答なら、OpenAIが頭1つ抜けている。ネット上の最新情報を重視するなら、Perplexity AIもいい。ときどき、凄い答えを返すから。最終的には好みなので、使ってみるのが一番です。
とはいえ、知名度では、OpenAIはダントツだ。
メディアの露出度は一番だし、サム・アルトマンCEOは、いつの間にかトランプ大統領とお友達。
そのOpenAIだが、2種類のAIを展開している。
「GPTシリーズ」と「oシリーズ」だ。
なぜ、2つあるかというと、得手不得手があるから。
GPTシリーズは国語が得意だが、数学、プログラミングのような論理的問題は苦手。そもそも、演繹法のように、筋道立てて推論する機能がついていない。
一方、oシリーズは、国語だけでなく、論理的問題も解ける。そのカラクリが「思考の連鎖(CoT)」なのだ。
じゃあ、oシリーズに1本化すれば?
次のGPT-5で、1本化されるようだ。
ただ、思考方法の根本が違うので、完全合体は難しい。当面は、モノリシック(一枚岩)ではなく、ハイブリッド(混合)になるだろう。もちろん、ハイブリッド技術はマガイモノなので、長続きしない。たとえば、エンジンと帆のハイブリッド「機帆船」は、1860年代から90年間しかもたなかった。
そんなわけで、AIの開発は難しくなっている。
今後は、AIそのものを作るより、AIを作るAIを作る方が手っ取り早い。そこにフォーカスすれば、AGI(人工汎用知能)に一番乗りできるだろう。現状、最も近いのはOpenAIだ。
ところで、GPTとoの思考方法はどう違うのか?
まず、AIの「思考」を「推論」という。
推論?
ここで、AI用語をサクッとおさらい。
現在のAIの基盤となるのが、「大規模言語モデル(LLM)」だ。 大量のテキストデータを学習し、自然言語を理解・生成する。具体的には、GPT、BERT、Claude、Geminiなど。
大規模言語モデルに、個別課題を追加学習したのが「生成AI」だ。個別課題とは、たとえば、長文読解。追加学習は、AIでは転移学習という。生成AIは、文章、画像、動画、音声、音楽などのコンテンツを生成してくれるので、一番人気だ。具体的には、ChatGPT、DALL·E、Midjourney、Voiceboxなど。
つぎに「推論」。
AIの文脈で「推論」とは、AIが考え、回答すること。Q&Aに応対したり、テキストを要約したり、作文したり。マルチモーダルなら、画像、動画、音声、音楽も扱うことができる。
この「推論」の方法が、GPTシリーズとoシリーズで大きく違うのだ。
GPTシリーズは、直感的で、よく考えもせず、パターンマッチングのノリで即回答する。このタイプの推論を「インファレンス(Inference)」という。
一方、oシリーズは、論理的で、課題を複数のステップに分割し、ステップごとに論理的な判断や計算をし、段階的に答えを導き出す。前述の「思考の連鎖(Chain of Thought)」のことだ。このような推論を「リーズニング(Reasoning)」という。
■ガメ暗記で数学を解く方法
うーん、騙されたような・・・
そうかも。そもそも、この話にはおかしなところがある。
GPTは、数学が苦手というが、カンタンな計算なら解いてみせる。論理的思考の仕掛けがないというが、もし本当なら、0点ですよね。ところが、実際には90点を超える(カンタンな計算なら)。
であれば、「インファレンス(Inference)」も、論理的思考の仕掛けがあるのでは?
ないです。
じゃあ、どうやって数学を解いている?
数学を「国語」で解く。
たとえば、1+2という問題。
数学で解くなら、加減の法則で計算する。
一方、国語で解く場合・・・
膨大なテキストを学習し、その中から、「1」、「+」、「2」に続く、言葉(トークン)を見つける。正解は「3」。
もし、学習したテキストに「1+2」の言葉の並びがなかったら、あきらめる?
あきらめない。
適当に推論する。
どうやって?
学習した結果を応用するのだ。
じつは、生成AIの基盤「大規模言語モデル」には、知識の「記憶機能」がない。
たとえば、日本の首都は東京。
AIに、日本の首都をきくと、東京と正解するが、「日本の首都=東京」と記憶していて、それで回答しているわけではない。「日本の首都・・・」に続く言葉を統計学的に予測しているだけなのだ。
それと同じで、学習テキストの中に「1+2=3」があったら、そのまま記録するのではない。言葉のデータベースを作るのではなく、「特徴」を抽出して学習している。正確さに欠けるが、そのぶん、融通がきいて、応用がきく。これを汎化性能という。
うーん、まだ騙されているような・・・
もう一歩、踏み込もう。
今も昔も、大学受験は人生の試練の一つだ。とくに、数学はガメ暗記がきかないので、やっかいだ。
ところが、ガメ暗記で数学を解く方法がある。
その昔、大学予備校といえば、駿台予備校。東大をはじめ有名校への進学で、他校を圧倒した。その秘密がテキストだったことは、あまり知られていない。とくに数学のテキストが秀逸だった。これさえマスターすれば、数学的センスがなくても、かなりの高得点が期待できる。
左側の「数学A」は数学Ⅰ・ⅡBで、右側の「数学B」は数学Ⅲである(かなり古いけど、ホンモノです)。

数学Aは「132」の例題、数学Bは「44」ある。この例題と解答をガメ暗記すれば、入試問題の6割ぐらいは解ける。6割解ければ、たいていの大学に合格できる。
ただし、入試本番で、同じ問題がでることはない。
では、なぜ6割も解けるのか?
この例題は、過去問の「特徴」を抽出して、重複しないよう、かつ網羅的に作られている。そのため、この例題を暗記するだけで、大学入試問題の「特徴=解法」を修得できる。つまり、数学を段階的、論理的に解くのではなく、パターンマッチングで解くわけだ。
GPTも同じ。
膨大な数学の問題から、「特徴(解法)」を学習し、パターンで解く。水も漏らさぬ論理で解くわけではないのだ。
つまり、駿台予備校とGPTは、数学を、論理ではなく暗記、国語で解く。
一方、o3は、論理的に数学的に解く。それを可能にしたのが、カラスの「道具の連鎖」、いや、AIの「思考の連鎖(CoT)」なのである。
■カラスの言葉
「カラスの道具の連鎖=AIの思考の連鎖」なら、カラスの知能はAIと同等?
そうカンタンではない。
カレドニアカラスの実験を思い出そう。
カラスは「道具の連鎖」を使うが、「言語化」しているわけではない(たぶん)。
「エサを取れる道具は、小枝ではなく、小石である。小石を取れる道具は、小枝である。よって、まず小枝で小石をとって、小石でエサをとれば目的達成」と言葉(記号)をつないで、学習しているわけではないのだ。
では、どうやっている?
脳のニューロンのつながりの強さを変えることで、学習し、知能を実現している(言葉は使わない)。
それなら、AIも同じでは?
大規模言語モデルは、脳を真似たニューラルネットワークだ。脳のニューロンに該当するノードのつながりの強さを変えて、知能を実現している。つまり、カラスと知能と基本的な仕組みはかわらない。
ここで、知能と言葉について考えてみよう。
人間もAIも、自然言語を操るが、言葉を理解する方法が違う。
証拠がある。
人間が扱う自然言語の最小単位は「単語」で、AIは「トークン」だ。呼称は違うが、実体はほぼ同じと考えていい。
この最小単位の「表現方法(理解の仕方)」が、人間とAIでは異なるのだ。
人間の単語は、属性で表現される。たとえば、重さ、大きさ、色、質感など。この場合、パラメータ数は4つだ。
一方、AIのトークンは、n次元ベクトルで表される。たとえば、GPT-3.5は、次元数は4096なので、パラメータ数は4096だ。
ところが、人間の単語とAIのトークンのパラメータは、中身が違う。
たとえば、リンゴ。
人間の単語なら、パラメータは、重さ、大きさ、色、味で表される。
一方、AIのトークンは、各次元の値は数値で、どれが重さで、どれが大きさにあたるのかわからない。そもそも、重さや大きさという概念があるかも怪しい。
つまり、人間とAIでは言葉の理解の仕方が違うのだ。
とすると、カラスも、単語でもトークンでもない、未知の概念で言語を操っているかもしれない。
だが、残念なことに、確認するすべがない。
人間は言語化できるので、自分の考えや思いを伝えることができる。ところが、カラスはムリ。
他に確認する方法は?
MRIにかけるとか。
ムリ。
たとえば、心臓の動作原理は、構造で説明できる。心臓は血液の循環機能をもつが、心房や心室や弁の動きで説明できる。そのため、MRIをかければ一目瞭然だ。
ところが、脳は構造性にとぼしいので、MRIをかけても何もわからない。コンピュータにMRIをかけても動作原理がわからないのと同じだ。
長い話になった。
カラスは「道具の連鎖=思考の連鎖」ができるほど賢い。ネアンデルタール人は言葉を使うほど賢かった。だが、蒸気力、電磁気力、原子力まで到達したのは人類のみ。
この巨大な差を生んだ要因は何か?
「思考の連鎖」でも「言葉」でもない。人間だけがもつ「文字」だ。
文字を使えば、知識や知恵や技術を記録・保存できる。それを、仲間と共有し、次の世代に伝えることができる。結果、文明を段階的に積み上げることができたのだ。
人類文明は、長い期間をかけて、口承文化から文字文化へと進化してきた。
古代ギリシャ人は文字をもっていたが、ホメーロスの叙事詩は朗唱からはじまった。その後、書物になっても、読書は、朗読、つまり音読だった。文字文化が、口承文化から独立し、読書が黙読になったのは、17世紀以降なのだ。
つまりこういうこと。
人類の成功は「考える」より「言葉」、「言葉」より「文字」によっている。
パスカルの名言「人間は考える葦」は、本当は「人間は文字を使う葦」なのである。
by R.B