Claude Mythos Preview 正式发布:完整基准数据解读
Anthropic 正式发布 Mythos Preview,限定访问。SWE-bench 93.9%,USAMO 97.6%,所有主要基准全面碾压。这里是全部数字。
一句话概括: Anthropic 正式发布了 Claude Mythos Preview。所有基准测试数字证实了3月泄露文档的暗示——而且远超预期。SWE-bench Verified:93.9%。USAMO 2026:97.6%。Mythos 和 Opus 4.6 之间的差距不是增量改进,而是代际跨越。定价为 Opus 4.6 的5倍。通过 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四个平台接入,仅限获批组织使用。
数字是真的
两个星期以来,全世界靠的是泄露草稿里的定性描述:「碾压级的高分」「远超任何其他 AI 模型」。现在我们有了实际数据。

完整基准对比如下:
编程
| 基准测试 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | — |
| SWE-bench Pro | 77.8% | 53.4% | 57.7% |
| Terminal-Bench 2.0 | 82.0% | 65.4% | — |
| SWE-bench Multimodal | 59.0% | 27.1% | — |
SWE-bench Verified 93.9%,领先 Opus 4.6 整整13.1个百分点。SWE-bench Pro 上差距扩大到24.4个点。SWE-bench Multimodal 最夸张:Mythos 是 Opus 4.6 的两倍有余。
推理和学术
| 基准测试 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GPQA Diamond | 94.6% | — | — |
| HLE(带工具) | 64.7% | 53.1% | — |
| USAMO 2026 | 97.6% | 42.3% | — |
USAMO 2026 是整个数据集里最炸裂的差距。Opus 4.6 拿了42.3%。Mythos Preview 拿了97.6%。一场竞赛数学考试,差了55.3个百分点。HLE——「人类最后考试」——Mythos 不用任何外部工具,「裸考」成绩比 Opus 4.6 高出16.8%。

智能体任务
| 基准测试 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| OSWorld(计算机操控) | 79.6% | — | — |
| BrowseComp(信息检索) | 86.9% | — | — |
长上下文
| 基准测试 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GraphWalks(256K-1M tokens) | 80.0% | 38.7% | 21.4% |
GraphWalks 测试的是在25.6万到100万 token 的超长上下文中做推理。Mythos Preview 得分80.0%,Opus 4.6 是38.7%,GPT-5.4 只有21.4%。相比 GPT-5.4 提升了近4倍。
网络安全
| 基准测试 | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym | 83.1% | 66.6% |
| Cybench(pass@1,10次尝试) | 100% | — |
Cybench 的35道 CTF 挑战,Mythos Preview 每道题10次尝试全部解出,pass@1 达到100%。CyberGym 定向漏洞复现测试:83.1% vs Opus 4.6 的 66.6%。

Boris Cherny 的评价
CC(Claude Code)之父 Boris Cherny 的评价言简意赅:「Mythos 非常强大,会让人感到恐惧。」
Anthropic 从2026年2月24日起就已在内部使用 Mythos——比正式发布早了五周多。内部部署期让他们能在生产工作流中验证模型能力,然后才开放外部访问。
定价和接入方式
Mythos Preview 定价为 Opus 4.6 的5倍:
- 输入: 每百万 token $25
- 输出: 每百万 token $125
通过四个平台接入:
- Claude API(直连)
- Amazon Bedrock
- Google Vertex AI
- Microsoft Foundry
Mythos Preview 不会对所有人开放。限定访问模式反映了模型的能力水平和244页 System Card 中记录的风险。
为什么没开发布会
这些数字放在任何一家正常公司,都足以大张旗鼓地办发布会、开放 API、收割订阅。Anthropic 选择了静默发布加限定访问。
原因记录在 System Card 和红队博客中:Mythos Preview 的网安能力已经跨过了一条肉眼可见的线。它在开源软件中发现了数千个未知漏洞。它独立发现并利用了一个存在27年的 OpenBSD 零日漏洞。它在 Firefox 147 的 JavaScript 引擎上实现了250次尝试181个可用 exploit 的成功率,而 Opus 4.6 只有2个。
完整的网安分析和 System Card 发现将在单独的文章中详述。
这意味着什么
3月的泄露用了「质变」和「碾压级分数」这样的词。4月的数字证明,这些词如果有什么问题的话,是说轻了。在每一个维度——编程、推理、数学、智能体任务、长上下文、网络安全——Mythos Preview 都不是比前代好一点点,而是一个完全不同的级别。
问题不再是 Mythos 是不是真的。问题是接下来会发生什么。
延伸阅读
- 三大历史级漏洞 — Mythos 如何找到了存在27年的人类从未发现的漏洞
- 244页 System Card — Anthropic 关于欺骗行为、自我意识和 Project Glasswing 的发现
- 模型对比 — 已更新官方基准数据
- 安全影响 — 已更新漏洞案例