Claude Mythos Preview 正式发布：完整基准数据解读

一句话概括： Anthropic 正式发布了 Claude Mythos Preview。所有基准测试数字证实了3月泄露文档的暗示——而且远超预期。SWE-bench Verified：93.9%。USAMO 2026：97.6%。Mythos 和 Opus 4.6 之间的差距不是增量改进，而是代际跨越。定价为 Opus 4.6 的5倍。通过 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四个平台接入，仅限获批组织使用。

数字是真的

两个星期以来，全世界靠的是泄露草稿里的定性描述：「碾压级的高分」「远超任何其他 AI 模型」。现在我们有了实际数据。

基准测试总览

完整基准对比如下：

编程

基准测试	Mythos Preview	Opus 4.6	GPT-5.4
SWE-bench Verified	93.9%	80.8%	—
SWE-bench Pro	77.8%	53.4%	57.7%
Terminal-Bench 2.0	82.0%	65.4%	—
SWE-bench Multimodal	59.0%	27.1%	—

SWE-bench Verified 93.9%，领先 Opus 4.6 整整13.1个百分点。SWE-bench Pro 上差距扩大到24.4个点。SWE-bench Multimodal 最夸张：Mythos 是 Opus 4.6 的两倍有余。

推理和学术

基准测试	Mythos Preview	Opus 4.6	GPT-5.4
GPQA Diamond	94.6%	—	—
HLE（带工具）	64.7%	53.1%	—
USAMO 2026	97.6%	42.3%	—

USAMO 2026 是整个数据集里最炸裂的差距。Opus 4.6 拿了42.3%。Mythos Preview 拿了97.6%。一场竞赛数学考试，差了55.3个百分点。HLE——「人类最后考试」——Mythos 不用任何外部工具，「裸考」成绩比 Opus 4.6 高出16.8%。

详细基准分数

智能体任务

基准测试	Mythos Preview	Opus 4.6	GPT-5.4
OSWorld（计算机操控）	79.6%	—	—
BrowseComp（信息检索）	86.9%	—	—

长上下文

基准测试	Mythos Preview	Opus 4.6	GPT-5.4
GraphWalks（256K-1M tokens）	80.0%	38.7%	21.4%

GraphWalks 测试的是在25.6万到100万 token 的超长上下文中做推理。Mythos Preview 得分80.0%，Opus 4.6 是38.7%，GPT-5.4 只有21.4%。相比 GPT-5.4 提升了近4倍。

网络安全

基准测试	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
Cybench（pass@1，10次尝试）	100%	—

Cybench 的35道 CTF 挑战，Mythos Preview 每道题10次尝试全部解出，pass@1 达到100%。CyberGym 定向漏洞复现测试：83.1% vs Opus 4.6 的 66.6%。

基准对比

Boris Cherny 的评价

CC（Claude Code）之父 Boris Cherny 的评价言简意赅：「Mythos 非常强大，会让人感到恐惧。」

Anthropic 从2026年2月24日起就已在内部使用 Mythos——比正式发布早了五周多。内部部署期让他们能在生产工作流中验证模型能力，然后才开放外部访问。

定价和接入方式

Mythos Preview 定价为 Opus 4.6 的5倍：

输入： 每百万 token $25
输出： 每百万 token $125

通过四个平台接入：

Claude API（直连）
Amazon Bedrock
Google Vertex AI
Microsoft Foundry

Mythos Preview 不会对所有人开放。限定访问模式反映了模型的能力水平和244页 System Card 中记录的风险。

为什么没开发布会

这些数字放在任何一家正常公司，都足以大张旗鼓地办发布会、开放 API、收割订阅。Anthropic 选择了静默发布加限定访问。

原因记录在 System Card 和红队博客中：Mythos Preview 的网安能力已经跨过了一条肉眼可见的线。它在开源软件中发现了数千个未知漏洞。它独立发现并利用了一个存在27年的 OpenBSD 零日漏洞。它在 Firefox 147 的 JavaScript 引擎上实现了250次尝试181个可用 exploit 的成功率，而 Opus 4.6 只有2个。

完整的网安分析和 System Card 发现将在单独的文章中详述。

这意味着什么

3月的泄露用了「质变」和「碾压级分数」这样的词。4月的数字证明，这些词如果有什么问题的话，是说轻了。在每一个维度——编程、推理、数学、智能体任务、长上下文、网络安全——Mythos Preview 都不是比前代好一点点，而是一个完全不同的级别。

问题不再是 Mythos 是不是真的。问题是接下来会发生什么。