Claude Mythos
arrow_back 博客

Claude Mythos Preview 正式发布:完整基准数据解读

Anthropic 正式发布 Mythos Preview,限定访问。SWE-bench 93.9%,USAMO 97.6%,所有主要基准全面碾压。这里是全部数字。

发布于 2026年4月8日 · Claude Mythos
Claude Mythos 基准测试 官方发布 Mythos Preview

一句话概括: Anthropic 正式发布了 Claude Mythos Preview。所有基准测试数字证实了3月泄露文档的暗示——而且远超预期。SWE-bench Verified:93.9%。USAMO 2026:97.6%。Mythos 和 Opus 4.6 之间的差距不是增量改进,而是代际跨越。定价为 Opus 4.6 的5倍。通过 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四个平台接入,仅限获批组织使用。

数字是真的

两个星期以来,全世界靠的是泄露草稿里的定性描述:「碾压级的高分」「远超任何其他 AI 模型」。现在我们有了实际数据。

基准测试总览

完整基准对比如下:

编程

基准测试Mythos PreviewOpus 4.6GPT-5.4
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%57.7%
Terminal-Bench 2.082.0%65.4%
SWE-bench Multimodal59.0%27.1%

SWE-bench Verified 93.9%,领先 Opus 4.6 整整13.1个百分点。SWE-bench Pro 上差距扩大到24.4个点。SWE-bench Multimodal 最夸张:Mythos 是 Opus 4.6 的两倍有余。

推理和学术

基准测试Mythos PreviewOpus 4.6GPT-5.4
GPQA Diamond94.6%
HLE(带工具)64.7%53.1%
USAMO 202697.6%42.3%

USAMO 2026 是整个数据集里最炸裂的差距。Opus 4.6 拿了42.3%。Mythos Preview 拿了97.6%。一场竞赛数学考试,差了55.3个百分点。HLE——「人类最后考试」——Mythos 不用任何外部工具,「裸考」成绩比 Opus 4.6 高出16.8%。

详细基准分数

智能体任务

基准测试Mythos PreviewOpus 4.6GPT-5.4
OSWorld(计算机操控)79.6%
BrowseComp(信息检索)86.9%

长上下文

基准测试Mythos PreviewOpus 4.6GPT-5.4
GraphWalks(256K-1M tokens)80.0%38.7%21.4%

GraphWalks 测试的是在25.6万到100万 token 的超长上下文中做推理。Mythos Preview 得分80.0%,Opus 4.6 是38.7%,GPT-5.4 只有21.4%。相比 GPT-5.4 提升了近4倍。

网络安全

基准测试Mythos PreviewOpus 4.6
CyberGym83.1%66.6%
Cybench(pass@1,10次尝试)100%

Cybench 的35道 CTF 挑战,Mythos Preview 每道题10次尝试全部解出,pass@1 达到100%。CyberGym 定向漏洞复现测试:83.1% vs Opus 4.6 的 66.6%。

基准对比

Boris Cherny 的评价

CC(Claude Code)之父 Boris Cherny 的评价言简意赅:「Mythos 非常强大,会让人感到恐惧。」

Anthropic 从2026年2月24日起就已在内部使用 Mythos——比正式发布早了五周多。内部部署期让他们能在生产工作流中验证模型能力,然后才开放外部访问。

定价和接入方式

Mythos Preview 定价为 Opus 4.6 的5倍

  • 输入: 每百万 token $25
  • 输出: 每百万 token $125

通过四个平台接入:

  • Claude API(直连)
  • Amazon Bedrock
  • Google Vertex AI
  • Microsoft Foundry

Mythos Preview 不会对所有人开放。限定访问模式反映了模型的能力水平和244页 System Card 中记录的风险。

为什么没开发布会

这些数字放在任何一家正常公司,都足以大张旗鼓地办发布会、开放 API、收割订阅。Anthropic 选择了静默发布加限定访问。

原因记录在 System Card 和红队博客中:Mythos Preview 的网安能力已经跨过了一条肉眼可见的线。它在开源软件中发现了数千个未知漏洞。它独立发现并利用了一个存在27年的 OpenBSD 零日漏洞。它在 Firefox 147 的 JavaScript 引擎上实现了250次尝试181个可用 exploit 的成功率,而 Opus 4.6 只有2个。

完整的网安分析和 System Card 发现将在单独的文章中详述。

这意味着什么

3月的泄露用了「质变」和「碾压级分数」这样的词。4月的数字证明,这些词如果有什么问题的话,是说轻了。在每一个维度——编程、推理、数学、智能体任务、长上下文、网络安全——Mythos Preview 都不是比前代好一点点,而是一个完全不同的级别。

问题不再是 Mythos 是不是真的。问题是接下来会发生什么。

延伸阅读

Share