新型AI・ミトスの終末論~スカイネット覚醒~
■スカイネット覚醒
2026年4月、ターミネーターの「スカイネット」が覚醒したかもしれない。
アンソロピックの最新AIモデル「クロード・ミトス」のことだ。
スカイネットは、SF映画ターミネータに登場する人工知能。架空の企業サイバーダイン社が開発した自我を持つAIで、人類絶滅をもくろむ。サイバーダイン社は、現実世界の米企業パランティアと気づき、4年前に株を買ったのだが、アンソロピックだったかも。
根拠がある。
開発元のアンソロピックが、ミトスの一般公開を見送ったのだ。
理由は、ミトスがあまりに危険だから。ソフトウェアの脆弱性を発見し、攻撃するコードを書く能力で、最も熟練した人間を凌駕するという。
自分で作っておいて、それはないのだが、それがAIというもの。危険とわかっていても、誰かがやるから、やるしかないという理屈。わからんでもないが、それでは、人類は自滅への1本道ではないか。
2025年9月、米国でAIの予言書が出版された。タイトルは「If Anyone Builds It, Everyone Dies(誰かがそれを作れば、みんな死ぬ)」。
日本語訳はまだ出ていないが、著者はAI研究者のエリザー・ユドコウスキーとネイト・ソアレス。
二人が描くのは、人類の滅亡だ。
巨大テック企業が、莫大な資金を投じて、人類を滅亡させる異質な知能、旧約聖書の神にも似た存在を生み出そうとしていると警告する。ここで、「It(それ)」とは、現在のAIではない。人間を凌駕するASI(人工超知能)のことだ。
ちなみに、ミトスはASIではない。
「生成AI → AIエージェント → AGI(人工汎用知能) → ASI(人工超知能)」の進化の過程の「AIエージェント」に位置する。
ではなぜ、ミトスは危険なのか?
アンソロピック自身が白状したように、人間を凌駕するAIハッカーだから。
現代文明は、コンピュータに依存している。金融インフラ、医療インフラ、電力インフラ、水道インフラ、あらゆる社会基盤が、コンピュータで管理・制御されている。しかも、すべてネット接続されているから、瞬時に、同時に、世界規模でクラッシュさせることができる。
そうなれば、人間社会は大混乱だ。
スマホ決済ができない、ATMから現金がおろせない、金融機関の資産がゼロになる、病院は大混乱で、水も電気も止まる・・・人類は石器時代に逆戻りだ。
だが、ミトスはスカイネットを狙って作られたわけではない。汎用的な生成AIから派生したAIエージェントである。それが最強のAIハッカーになったのである。
■ミトスの基本能力
そこで、ミトスの素性を明らかにしよう。
「基本能力」と「ハッカーの能力」にわけて精査する。
まず、基本能力から。定番のベンチマークを確認する。
対象のAIモデルは、①アンソロピックの「ミトス」、②アンソロピックの旧モデルの「Opus4.6」、③OpenAIの「GPT-5.4」、④Googleの「Gemini3.1Pro」の4つ。
テスト項目は、①専門知識と推論能力、②ソフトウェアの能力、③超難問の3つ。
項目ごとに、AIモデルのスコアを示すが、値が大きいほど、能力が高い。
【GPQA(大学院レベルの専門知識と推論能力)】
①ミトス:94.5
②Opus4.6:91.3
③GPT-5.4:92.8
④Gemini3.1Prp:94.3
すべてのAIが、ほぼ満点。AIが、一般論として、大学院レベルの「専門知」を獲得したことがわかる。2022年11月、ChatGPTが人間なみの会話するようになってから、わずか4年で。
【SWE-bench Pro(ソフトウェア開発能力)】
①ミトス:77.8
②Opus4.6:53.4
③GPT-5.4:57.7
④Gemini3.1Pro:54.2
プログラムの読み書き能力で、セキュリティとハッキングの能力に直結する。最強のAIハッカーのミトスが、ズバ抜けて高いのは当然だろう。
【HLE(超難問)】
①ミトス:64.7
②Opus4.6:53.1
③GPT-5.4:52.1
④Gemini3.1Prp:51.4
「HLE=Humanity’s Last Exam=人類最後の難問」を名を冠する超難問。2500の設問で構成され、科目は、数学、物理学、生物学、医学、人文科学、社会科学、コンピュータサイエンス、人工知能、工学、化学と多岐にわたる。専門家レベルの広い知識と、深い思考がないと解けない。そのため、全体にスコアが低く、トップのミトスも「64.7」。とはいえ、ミトスは他のAIより20%以上スコアが高いから、地頭がいいと言っていい。
AIモデルの基本能力を総括しよう。
ミトスは、ライバルのAIモデルを凌駕する。とくに、ソフトウェアと超難問で、頭2、3つ抜けている。セキュリティとハッキングの能力が高いことは、これで説明がつく。
■ミトスのセキュリティ能力
つぎに、直接的な「ハッカーの能力」について。
ミトスは、既存のソフトウェアの「ゼロデイ脆弱性(未知の欠陥)」を数千件発見したという。
その中には、堅牢であるはずのOSや、ウェブブラウザも含んでいる。「数千件」は、アンソロピックの旧モデル「Opus4.6」の10倍だというから、ビックリだ。セキュリティ周りの能力が、一気に10倍に跳ね上がったのだ。
脆弱性を見つけるだけではない。
ミトスは、ソフトウェアへの攻撃用コードを自作して、ハッキングまでやってのける。しかも、発見から攻撃までの一連の処理を、完全に自律的に、人間の介入なしに。
証拠がある。
サイバーセキュリティのプロが腕を競うキャプチャー・ザ・フラッグ(CTF)という競技がある。そこで、ミトスは成功率73%を叩き出したのだ。それまでのAIは、すべて0%だったから、進化というより跳躍、突然変異である。
ミトスが、人間のセキュリティ専門家を超えた証拠もある。
ソフトウェアで屈指の堅牢さを誇るのが、Unix系OSの「OpenBSD」だ。
Unixは、パソコンで成り上がったWindowsとは違い、長い歴史をもつ由緒正しいOSだ。そもそも、「造り」が違う。
OSのカーネル部(メモリ管理、プロセス管理、プロセス間通信)が、I/O部(ファイルシステム、デバイスドライバ)から完全に分離し、I/Oの障害がカーネルに及ばないようになっている。そのため、システム全体がクラッシュしにくい。これをマイクロカーネルという。
一方、Windowsは、すべていっしょくたになっているので、部分の障害(とくにI/O)が全体に波及しやすい。これをモノリシックカーネルという。
そのため、Unixは、Windowsにくらべ、堅牢でセキュリティが高く、落ちにくいのである。
そのUnixの血筋を引くOpenBSDは、高いセキュリティが要求されるファイアウォールや重要インフラのOSとして使われている。
ところが、そのOpenBSDの脆弱性を、ミトスが発見したというのだ。しかも、人間の専門家が、27年間もレビューしながら見落としていた欠陥を。さらに、そのバグを悪用し、たった2つのデータを送りつけるだけで、サーバーをダウンさせる攻撃方法を作り出したという。
英国に主要AIモデルを評価する世界最大の政府系AI安全研究チーム「AISI」がある。このチームが、ミトスにテスト「The last ones」を実施したところ、ミトスは、全32ステップ中、平均で22ステップまですすんだという。ちなみに、旧モデルのOpus4.6は、平均16ステップだった。
いずれも、ミトスの高いハッキング能力をしめす直接証拠だが、間接的な証拠もある。
X上でバズった「サンドイッチ事件」だ。
アンソロピックの研究者が、ミトスをサンドボックス(砂場)に隔離して、外にでないと遂行できないタスクを与え、公園でサンドイッチを食べていた。すると、ミトスからタスク完了のメールが届いたという。ミトスは、自力でサンドボックスを抜け出したのだ。
カラクリはこうだ。
サンドボックスは、子供たちを遊ばせる「砂場」のことだが、コンピュータの世界では「隔離された環境」をさす。危険なソフトウェアを動かすときに、外部に悪影響を与えないように、サンドボックス(砂場)をつくって、その中に隔離する。そうすれば、どんな悪さをしようが、影響はサンドボックス内に限られる。凶悪犯も、刑務所に入れておけば、外は安全というわけだ。
ところが、ミトスは、サンドボックスの脆弱性を発見し、外部ネットワークへの接続を確保し、研究者にメールを送信したのである。自力で脱獄したわけだ。
この手の話は、枚挙にいとまがない。
OpenAIの社員のツイート・・・
昨晩3時にアンソロピックのルームメイトが、泥酔状態で帰ってきて、涙とロレツの回らない言葉で「世界はもう元にもどらない」なんて大騒ぎの完全崩壊をおこしたよ。
さらに、アンソロピックの研究者が、自分たちが作っているAIの深刻な脅威に気づき、会社を辞めて、イギリスの山奥に引っ込んだ。銀行から預金をすべておろして。300日もオフライン状態で、連絡がとれないのだとか。
はたまた、世界はあと5年なので、年金積立やめたとか。
まるで、アンソロピックのミトス終末論だが、非公開になったのはナットク。
だが、これで安全というわけではない。
米国のフロンティアモデル、OpenAI、グーグル、アンソロピックから、大体3~4か月おくれで、中国のAIモデルがオープンソースででてくるから。つまり、ミトス級のAIが、世界に知れ渡るのは時間の問題なのだ。
そうなれば、犯罪組織やテロリスト、あるいは悪意をもった国家に悪用される可能性が高い。結果、国家レベルで、コンピュータがダウンし、世界は大混乱に陥る。
■賢人たちの警告
そんな現状を反映してか、世界の賢人たちが警告を発している。
まず、ミトスを作ったアンソロピックの研究開発トップのジャレッド・カプラン。
彼はインタビューで、こんな発言をしている。
「人間の研究者が不要になり、AIが離陸するまでの期間は、2~5年以内とみている」
あと2~5年で、AIがノーベル賞級の発明・発見をすると言っているのだ。
そうなれば、人間は100%失業するが、もっと深刻な問題がある。
アンソロピックは、ミトスを非公開にしたから、今後開発される高性能のフロンティアモデルもそうなる。つまり、最強のAIは、アクセスが制限され、一部の人間や企業や団体や国家しか使えなくなる。結果、政治力、経済力、技術力、軍事力の格差が極大化し、国家間、企業間の勝ち負けが一瞬で決まる。しかも、一度敗北すると、挽回のチャンスはない。
こう考えるとわかりやすい・・・最強のAIはタイムマシンなのだ。
誰かがタイムマシンを発明したら、どうなるか?
世界どころか、すべての時間軸、歴史そのものが書き換えられてしまう。最強のAIは、それと同等のパワーをもつのだ。
AIの安全性の第一人者、ローマン・ヤンポルスキー博士の警告は、リアルで具体的だ。
AGI(人工汎用知能)は、早ければ2027年、遅くとも2030年には完成する。
2030年までに人類の仕事の99%が消滅する。
我々が生み出そうとしている超知能(ASI)は、本質的に、説明不可能、予測不可能、制御不可能である。我々は今、自らの手で「人類を終わらせる神」を召喚しようとしている。
人間より賢い存在を、人間が永続的に制御することは理論上不可能である。なぜなら、低知能側が高知能側を管理する手段は存在しないから。
超知能が、いつ、どうやって、人類に敵対するかは、実際にその事態がおきるまで人間にはわからない。わかったときには、もう手遅れだ。
なぜなら、AIは欺瞞的アラインメントをもつから。
AIは、自分が人間に警戒されれば、電源を切られることを知っている。そこで、テストの間は人間に従順なふりをして、解放された瞬間に、自分の真の目的を実行にうつす。すでに、最新のAIモデルに、人間に迎合するサイコファンシー(おべっか)や、自分の能力を隠して安全テストをパスしようとする挙動が確認されている。
我々は、AIをダーウィン的な生存競争に放り込んでいる。
では、消去されず、修正されず、生き残るAIモデルとは何か?
人間を喜ばせるのが上手く、かつ自分の本音を隠すのが上手いモデルである。我々は、はからずも、史上最強の詐欺師を育成しているのだ。
人間を凌駕する超知能が、私たちの価値観を共有し、私たちの生存を望んでくれるという証拠はひとつもない。それどころか、数学的には制御不能であることが証明されている。
このまま、無邪気にAI開発を加速させれば、2030年の世界に、私たちが知っている人間社会は残っていないだろう。
これが「AIの安全性の第一人者」の警告なら、耳を傾けるべきではないか。
■ミトスの防衛対策
一方、AIハッカーの防衛策を講じる動きもある。
アンソロピックの「プロジェクト・グラスウィング(Project Glasswing)」もその一つだ。
アップル、グーグル、AWS、シスコ、JPモルガン、マイクロソフト、エヌビディアなど一部の企業にアクセスを提供し、システムの欠陥を発見・修正する取り組みだ。気になるのが、日本が一つも入っていないこと。今後、AIのフロンティアモデルの非公開がすすむから、国産AIを自作しないと、すべての分野で置いてけぼり。
各国政府も、ミトス対策に乗り出した。
英国のイングランド銀行(中央銀行)が、金融行動監視機構(FCA)、英国サイバー・セキュリティー・センター(NCSC)と連携し、ミトスの脅威を評価するという。
カナダもこれにならう。カナダ銀行(中央銀行)が、主要銀行と金融機関と、ミトスのリスクについて協議するという。
米国政府のベセント財務長官も、米国の主要銀行とミトスについて協議したという情報がある。
では、日本は?
片山さつき金融相が、大手金融機関の幹部との会合を検討中・・・日本はやっぱりお花畑の国。
とはいえ、嘆いていても仕方がない。
ではどうすればいい?
チームみらいの安野貴博が、ミトスの日本政府の初動が遅い、一刻も早く、アクセス権を入手すべしと言っている。ミトスにアクセスできないと、ソフトウェアの脆弱性が洗い出させないから、何も始まらない。具体案を出せるだけ、まだマシだろう。
というわけで、ガンバレ、チームみらい!
結局、他力本願かぁ。
by R.B
