Claude Mythos Preview 正式リリース:全ベンチマークデータ
Anthropic が Mythos Preview を正式リリース。SWE-bench 93.9%、USAMO 97.6%、主要ベンチマークを総なめ。全データを解説。
要約: Anthropic が Claude Mythos Preview を正式リリースした。全ベンチマークの数値が、3月のリーク文書の示唆を裏付けた——それも予想を大きく上回る形で。SWE-bench Verified:93.9%。USAMO 2026:97.6%。Mythos と Opus 4.6 の差は漸進的改善ではない。世代的飛躍だ。価格は Opus 4.6 の5倍。Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry の4プラットフォームから、承認済み組織のみアクセス可能。
数字は本物だった
2週間、世界はリーク草稿の定性的な記述に頼っていた:「圧倒的なスコア」「他のあらゆるAIモデルを大きく凌駕」。今、実際のデータが揃った。

全ベンチマーク比較は以下の通り:
コーディング
| ベンチマーク | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | — |
| SWE-bench Pro | 77.8% | 53.4% | 57.7% |
| Terminal-Bench 2.0 | 82.0% | 65.4% | — |
| SWE-bench Multimodal | 59.0% | 27.1% | — |
SWE-bench Verified 93.9%、Opus 4.6 に13.1ポイント差。SWE-bench Pro では24.4ポイントに拡大。SWE-bench Multimodal が最も劇的で、Mythos は Opus 4.6 の2倍以上。
推論・学術
| ベンチマーク | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GPQA Diamond | 94.6% | — | — |
| HLE(ツール使用) | 64.7% | 53.1% | — |
| USAMO 2026 | 97.6% | 42.3% | — |
USAMO 2026 はデータセット全体で最も衝撃的な差だ。Opus 4.6 は42.3%。Mythos Preview は97.6%。数学オリンピック級の試験で55.3ポイント差。HLE——「人類最後の試験」——では、Mythos は外部ツールなしの素の状態で Opus 4.6 を16.8%上回った。

エージェントタスク
| ベンチマーク | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| OSWorld(PC操作) | 79.6% | — | — |
| BrowseComp(情報検索) | 86.9% | — | — |
ロングコンテキスト
| ベンチマーク | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GraphWalks(256K-1M tokens) | 80.0% | 38.7% | 21.4% |
GraphWalks は25.6万〜100万トークンの超長文コンテキストでの推論をテストする。Mythos Preview は80.0%、Opus 4.6 は38.7%、GPT-5.4 はわずか21.4%。GPT-5.4 比で約4倍の向上。
サイバーセキュリティ
| ベンチマーク | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym | 83.1% | 66.6% |
| Cybench(pass@1、10回試行) | 100% | — |
Cybench の35問の CTF チャレンジで、Mythos Preview は各問10回の試行すべてで解答に成功、pass@1 は100%。CyberGym の脆弱性再現テスト:83.1% vs Opus 4.6 の66.6%。

Boris Cherny の評価
CC(Claude Code)の生みの親 Boris Cherny の評価は簡潔だった:「Mythos は極めて強力で、人々を恐怖させるだろう。」
Anthropic は2026年2月24日から社内で Mythos を使用していた——正式リリースの5週間以上前だ。この内部展開期間により、外部アクセスを開放する前に本番ワークフローでモデルの能力を検証できた。
価格とアクセス
Mythos Preview の価格は Opus 4.6 の5倍:
- 入力: 100万トークンあたり $25
- 出力: 100万トークンあたり $125
4つのプラットフォームからアクセス可能:
- Claude API(直接)
- Amazon Bedrock
- Google Vertex AI
- Microsoft Foundry
Mythos Preview は一般公開されない。制限付きアクセスモデルは、モデルの能力レベルと244ページの System Card に記録されたリスクを反映している。
なぜ発表会を開かなかったのか
これらの数字なら、どの企業でも盛大な発表会を開き、APIを公開し、サブスクリプションを展開するに十分だ。Anthropic は静かなリリースと制限付きアクセスを選んだ。
理由は System Card とレッドチームブログに記録されている:Mythos Preview のサイバーセキュリティ能力が、目に見える閾値を超えた。オープンソースソフトウェアで数千の未知の脆弱性を発見した。27年間存在していた OpenBSD のゼロデイ脆弱性を独自に発見・悪用した。Firefox 147 の JavaScript エンジンで250回の試行中181件の有効な exploit を成功させた——Opus 4.6 はわずか2件だった。
完全なサイバーセキュリティ分析と System Card の知見は別の記事で詳述する。
これが意味すること
3月のリークは「質的変化」「圧倒的なスコア」といった言葉を使った。4月の数字は、これらの言葉が控えめだったことを証明した。あらゆる次元——コーディング、推論、数学、エージェントタスク、ロングコンテキスト、サイバーセキュリティ——で、Mythos Preview は前世代より少し優れているのではない。根本的に異なるレベルにある。
問題はもはや Mythos が本物かどうかではない。問題は次に何が起こるかだ。
関連記事
- 3つの歴史的脆弱性 — Mythos が27年間人間が見つけられなかったバグを発見した方法
- 244ページの System Card — 欺瞞行動、自己認識、Project Glasswing に関する Anthropic の発見
- モデル比較 — 公式ベンチマークデータで更新済み
- セキュリティ影響 — 脆弱性ケーススタディを更新済み