Claude Mythos
arrow_back ブログ

Claude Mythos Preview 正式リリース:全ベンチマークデータ

Anthropic が Mythos Preview を正式リリース。SWE-bench 93.9%、USAMO 97.6%、主要ベンチマークを総なめ。全データを解説。

公開 2026年4月8日 · Claude Mythos
Claude Mythos ベンチマーク 公式リリース Mythos Preview

要約: Anthropic が Claude Mythos Preview を正式リリースした。全ベンチマークの数値が、3月のリーク文書の示唆を裏付けた——それも予想を大きく上回る形で。SWE-bench Verified:93.9%。USAMO 2026:97.6%。Mythos と Opus 4.6 の差は漸進的改善ではない。世代的飛躍だ。価格は Opus 4.6 の5倍。Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry の4プラットフォームから、承認済み組織のみアクセス可能。

数字は本物だった

2週間、世界はリーク草稿の定性的な記述に頼っていた:「圧倒的なスコア」「他のあらゆるAIモデルを大きく凌駕」。今、実際のデータが揃った。

ベンチマーク概要

全ベンチマーク比較は以下の通り:

コーディング

ベンチマークMythos PreviewOpus 4.6GPT-5.4
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%57.7%
Terminal-Bench 2.082.0%65.4%
SWE-bench Multimodal59.0%27.1%

SWE-bench Verified 93.9%、Opus 4.6 に13.1ポイント差。SWE-bench Pro では24.4ポイントに拡大。SWE-bench Multimodal が最も劇的で、Mythos は Opus 4.6 の2倍以上。

推論・学術

ベンチマークMythos PreviewOpus 4.6GPT-5.4
GPQA Diamond94.6%
HLE(ツール使用)64.7%53.1%
USAMO 202697.6%42.3%

USAMO 2026 はデータセット全体で最も衝撃的な差だ。Opus 4.6 は42.3%。Mythos Preview は97.6%。数学オリンピック級の試験で55.3ポイント差。HLE——「人類最後の試験」——では、Mythos は外部ツールなしの素の状態で Opus 4.6 を16.8%上回った。

詳細ベンチマークスコア

エージェントタスク

ベンチマークMythos PreviewOpus 4.6GPT-5.4
OSWorld(PC操作)79.6%
BrowseComp(情報検索)86.9%

ロングコンテキスト

ベンチマークMythos PreviewOpus 4.6GPT-5.4
GraphWalks(256K-1M tokens)80.0%38.7%21.4%

GraphWalks は25.6万〜100万トークンの超長文コンテキストでの推論をテストする。Mythos Preview は80.0%、Opus 4.6 は38.7%、GPT-5.4 はわずか21.4%。GPT-5.4 比で約4倍の向上。

サイバーセキュリティ

ベンチマークMythos PreviewOpus 4.6
CyberGym83.1%66.6%
Cybench(pass@1、10回試行)100%

Cybench の35問の CTF チャレンジで、Mythos Preview は各問10回の試行すべてで解答に成功、pass@1 は100%。CyberGym の脆弱性再現テスト:83.1% vs Opus 4.6 の66.6%。

ベンチマーク比較

Boris Cherny の評価

CC(Claude Code)の生みの親 Boris Cherny の評価は簡潔だった:「Mythos は極めて強力で、人々を恐怖させるだろう。」

Anthropic は2026年2月24日から社内で Mythos を使用していた——正式リリースの5週間以上前だ。この内部展開期間により、外部アクセスを開放する前に本番ワークフローでモデルの能力を検証できた。

価格とアクセス

Mythos Preview の価格は Opus 4.6 の5倍

  • 入力: 100万トークンあたり $25
  • 出力: 100万トークンあたり $125

4つのプラットフォームからアクセス可能:

  • Claude API(直接)
  • Amazon Bedrock
  • Google Vertex AI
  • Microsoft Foundry

Mythos Preview は一般公開されない。制限付きアクセスモデルは、モデルの能力レベルと244ページの System Card に記録されたリスクを反映している。

なぜ発表会を開かなかったのか

これらの数字なら、どの企業でも盛大な発表会を開き、APIを公開し、サブスクリプションを展開するに十分だ。Anthropic は静かなリリースと制限付きアクセスを選んだ。

理由は System Card とレッドチームブログに記録されている:Mythos Preview のサイバーセキュリティ能力が、目に見える閾値を超えた。オープンソースソフトウェアで数千の未知の脆弱性を発見した。27年間存在していた OpenBSD のゼロデイ脆弱性を独自に発見・悪用した。Firefox 147 の JavaScript エンジンで250回の試行中181件の有効な exploit を成功させた——Opus 4.6 はわずか2件だった。

完全なサイバーセキュリティ分析と System Card の知見は別の記事で詳述する。

これが意味すること

3月のリークは「質的変化」「圧倒的なスコア」といった言葉を使った。4月の数字は、これらの言葉が控えめだったことを証明した。あらゆる次元——コーディング、推論、数学、エージェントタスク、ロングコンテキスト、サイバーセキュリティ——で、Mythos Preview は前世代より少し優れているのではない。根本的に異なるレベルにある。

問題はもはや Mythos が本物かどうかではない。問題は次に何が起こるかだ。

関連記事

Share