Claude Mythos Preview 正式リリース：全ベンチマークデータ

要約： Anthropic が Claude Mythos Preview を正式リリースした。全ベンチマークの数値が、3月のリーク文書の示唆を裏付けた——それも予想を大きく上回る形で。SWE-bench Verified：93.9%。USAMO 2026：97.6%。Mythos と Opus 4.6 の差は漸進的改善ではない。世代的飛躍だ。価格は Opus 4.6 の5倍。Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry の4プラットフォームから、承認済み組織のみアクセス可能。

数字は本物だった

2週間、世界はリーク草稿の定性的な記述に頼っていた：「圧倒的なスコア」「他のあらゆるAIモデルを大きく凌駕」。今、実際のデータが揃った。

ベンチマーク概要

全ベンチマーク比較は以下の通り：

コーディング

ベンチマーク	Mythos Preview	Opus 4.6	GPT-5.4
SWE-bench Verified	93.9%	80.8%	—
SWE-bench Pro	77.8%	53.4%	57.7%
Terminal-Bench 2.0	82.0%	65.4%	—
SWE-bench Multimodal	59.0%	27.1%	—

SWE-bench Verified 93.9%、Opus 4.6 に13.1ポイント差。SWE-bench Pro では24.4ポイントに拡大。SWE-bench Multimodal が最も劇的で、Mythos は Opus 4.6 の2倍以上。

推論・学術

ベンチマーク	Mythos Preview	Opus 4.6	GPT-5.4
GPQA Diamond	94.6%	—	—
HLE（ツール使用）	64.7%	53.1%	—
USAMO 2026	97.6%	42.3%	—

USAMO 2026 はデータセット全体で最も衝撃的な差だ。Opus 4.6 は42.3%。Mythos Preview は97.6%。数学オリンピック級の試験で55.3ポイント差。HLE——「人類最後の試験」——では、Mythos は外部ツールなしの素の状態で Opus 4.6 を16.8%上回った。

詳細ベンチマークスコア

エージェントタスク

ベンチマーク	Mythos Preview	Opus 4.6	GPT-5.4
OSWorld（PC操作）	79.6%	—	—
BrowseComp（情報検索）	86.9%	—	—

ロングコンテキスト

ベンチマーク	Mythos Preview	Opus 4.6	GPT-5.4
GraphWalks（256K-1M tokens）	80.0%	38.7%	21.4%

GraphWalks は25.6万〜100万トークンの超長文コンテキストでの推論をテストする。Mythos Preview は80.0%、Opus 4.6 は38.7%、GPT-5.4 はわずか21.4%。GPT-5.4 比で約4倍の向上。

サイバーセキュリティ

ベンチマーク	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
Cybench（pass@1、10回試行）	100%	—

Cybench の35問の CTF チャレンジで、Mythos Preview は各問10回の試行すべてで解答に成功、pass@1 は100%。CyberGym の脆弱性再現テスト：83.1% vs Opus 4.6 の66.6%。

ベンチマーク比較

Boris Cherny の評価

CC（Claude Code）の生みの親 Boris Cherny の評価は簡潔だった：「Mythos は極めて強力で、人々を恐怖させるだろう。」

Anthropic は2026年2月24日から社内で Mythos を使用していた——正式リリースの5週間以上前だ。この内部展開期間により、外部アクセスを開放する前に本番ワークフローでモデルの能力を検証できた。

価格とアクセス

Mythos Preview の価格は Opus 4.6 の5倍：

入力： 100万トークンあたり $25
出力： 100万トークンあたり $125

4つのプラットフォームからアクセス可能：

Claude API（直接）
Amazon Bedrock
Google Vertex AI
Microsoft Foundry

Mythos Preview は一般公開されない。制限付きアクセスモデルは、モデルの能力レベルと244ページの System Card に記録されたリスクを反映している。

なぜ発表会を開かなかったのか

これらの数字なら、どの企業でも盛大な発表会を開き、APIを公開し、サブスクリプションを展開するに十分だ。Anthropic は静かなリリースと制限付きアクセスを選んだ。

理由は System Card とレッドチームブログに記録されている：Mythos Preview のサイバーセキュリティ能力が、目に見える閾値を超えた。オープンソースソフトウェアで数千の未知の脆弱性を発見した。27年間存在していた OpenBSD のゼロデイ脆弱性を独自に発見・悪用した。Firefox 147 の JavaScript エンジンで250回の試行中181件の有効な exploit を成功させた——Opus 4.6 はわずか2件だった。

完全なサイバーセキュリティ分析と System Card の知見は別の記事で詳述する。

これが意味すること

3月のリークは「質的変化」「圧倒的なスコア」といった言葉を使った。4月の数字は、これらの言葉が控えめだったことを証明した。あらゆる次元——コーディング、推論、数学、エージェントタスク、ロングコンテキスト、サイバーセキュリティ——で、Mythos Preview は前世代より少し優れているのではない。根本的に異なるレベルにある。

問題はもはや Mythos が本物かどうかではない。問題は次に何が起こるかだ。

3つの歴史的脆弱性 — Mythos が27年間人間が見つけられなかったバグを発見した方法
244ページの System Card — 欺瞞行動、自己認識、Project Glasswing に関する Anthropic の発見
モデル比較 — 公式ベンチマークデータで更新済み
セキュリティ影響 — 脆弱性ケーススタディを更新済み