Claude Mythos vs Opus 4.6:泄露文档里的基准对比
基于泄露文档的 Claude Mythos 和 Opus 4.6 横向对比——哪些是实锤,哪些是推测,对 AI 格局意味着什么。
一句话概括: Claude Mythos 不是更好的 Opus——它属于一个完全不同的层级。泄露的内部文档显示 Mythos「在所有核心基准测试中显著超越 Opus 4.6」,尤其在编程、推理和网安方面。但文档用的是定性描述,不是硬数据。以下是我们能确认的、仍属推测的、以及两者之间的差距对不同用户意味着什么。
Claude Mythos vs Opus:不同层级,不是不同版本
关于 Claude Mythos 最常见的误解是把它当成 Opus 4.7。它不是。Mythos 属于 Capybara——Anthropic 模型体系中一个全新的层级。
现在完整的阵容是:Haiku、Sonnet、Opus、Capybara。每个层级代表一个独立的性能等级,不是同一个等级里的版本迭代。Haiku 是轻量速度型,Sonnet 是均衡主力,Opus 是旗舰推理,而 Capybara——Mythos 是第一个模型——位于所有层级之上。
Anthropic 泄露的博客草稿原话:Capybara「比我们的 Opus 模型更大、更聪明——Opus 在此之前一直是我们最强大的」。
这个区别很重要,因为它设定了预期。把 Mythos 跟 Opus 比,不是比 GPT-4o 和 GPT-4 的差别,更像是一个新的重量级选手对上旧冠军。架构、规模和目标场景有本质差异。
各维度对比
泄露文档的细节足够勾勒出几个维度的对比。有些来自文档直接确认,有些需要推断。
编程能力 泄露草稿称 Mythos 在软件编程基准测试中取得「碾压级高分」。没给具体数字,但措辞很明确——不是小幅提升。Opus 4.6 已经被认为是最强的编程模型了,Mythos 显然把天花板又大幅抬高了。 状态:✅ 已确认(泄露文档的定性描述)
推理能力 学术推理基准同样的故事:「碾压级高分」。Opus 4.6 本来就擅长多步推理、复杂分析和深度思维链任务。泄露材料显示 Mythos 把这个优势又拉开了一截。 状态:✅ 已确认(泄露文档的定性描述)
网安能力 差距最大的地方。泄露的内部评估说 Mythos「在网安能力上远超任何其他 AI 模型」。不只是超过 Opus——超过所有公司的所有模型。90 分钟红队攻击链中发现了一个 20 年的 Linux 内核零日漏洞,这是最具体的能力证据。 状态:✅ 已确认(泄露文档的定性描述)
延迟 Opus 4.6 的首 token 延迟(TTFT)在典型使用中约 1.2 秒。Mythos 的延迟没有披露。考虑到 Capybara 被描述为「更大」,合理预期延迟会更高。具体多高不得而知。 状态:⚠️ 推测(泄露文档中无延迟数据)
上下文窗口 Opus 4.6 支持超过 100 万 token 的上下文。泄露文档没有提到 Mythos 的上下文窗口大小。可能跟 Opus 持平、更大,也可能更小——如果 Anthropic 做了偏重推理深度而非上下文长度的架构取舍。 状态:⚠️ 推测(泄露文档中无上下文窗口数据)
成本 Opus 4.6 已经是 Claude 系列中最贵的。泄露草稿说 Mythos「运行成本非常高」,意味着定价会远高于当前 Opus。对很多开发者来说 Opus 的 API 价格已经是门槛了,Mythos 大概率只适用于性能收益足以撑起显著更高成本的场景。 状态:⚠️ 推测(无定价数据,但「运行成本非常高」是确认的措辞)
「质变」到底意味着什么
Anthropic 内部文档反复用「step change」(质变)来描述 Mythos 和 Opus 之间的差距。这个用词是刻意的。
在技术语境中,step change 有特定含义:从一个层级到另一个层级的离散跳跃,而非渐进式爬坡。是相变的语言,不是持续改进的语言。Anthropic 可以写「improvement」或「advancement」——他们选了 step change。
泄露文档还说 Mythos「在所有核心基准测试中显著超越 Opus 4.6」。不是一些基准——所有核心基准。而且是「显著」,不是「略微」或「适度」。
引人注意的是泄露材料里没有精确数字。没有百分比提升、没有具体分数、没有对照表。这几乎肯定是刻意为之——Anthropic 用描述性语言(「碾压级」「远超」「显著超越」)而非量化数据。
可能的解释有两个:一是泄露文档是内部对齐用的草稿,定性描述在内部沟通中很常见;二是 Anthropic 刻意保留数字,等正式发布时再放出来掌控叙事。
无论哪个原因,模式是一致的:每一个定性描述都指向同一个方向,没有一个是含糊其辞的。
能确认什么、不能确认什么
下结论之前,有必要把已经确立的和仍不确定的分清楚。
已确认:
✅ Claude Mythos 是 Anthropic 管线中的真实模型。 ✅ Capybara 是 Opus 之上的新层级,不是 Opus 内部的版本。 ✅ Anthropic 计划在更广泛发布前先给网安防御方早期访问。 ✅ 内部文档称 Mythos 是「我们做过的到目前为止最强大的 AI 模型」。 ✅ 泄露评估显示编程、推理和网安方面碾压级领先。
推测或未知:
⚠️ 具体基准分数和相对 Opus 4.6 的百分比提升。 ⚠️ 首 token 延迟和推理速度。 ⚠️ 上下文窗口大小。 ⚠️ API 定价和可用时间表。 ⚠️ Capybara 层级是否会有多个模型(像 Sonnet 有 3.5 和 3.6),还是只保持单模型。
泄露文档内部自洽,细节足够可信。但毕竟是草稿,不是发布的技术规格。定性描述当作大方向参考,具体技术参数在 Anthropic 确认前视为未知。
这对不同用户意味着什么
影响因人而异。
开发者: 对那些 Opus 4.6 已经超过竞品但仍然碰壁的硬编程问题,Mythos 可能是变革性的——大规模重构、复杂系统架构、跨海量代码库的多文件推理。但几乎可以确定价格不菲、初期受限。别指望第一天就能无缝替换你的 Opus 工作流。
企业用户: 最直接的场景是防御性网安。Anthropic 的分阶段发布优先让防御方上手。如果你的组织运营关键基础设施或处理敏感数据,拿到 Mythos 的早期访问可能会实质性改变你的安全态势——红队评估中描述的那种发现漏洞的速度,核心价值主张就在这里。
更广泛的市场: Mythos 给所有其他 AI 实验室都施加了竞争压力。OpenAI、Google 等现在面对的不只是追平 Opus,而是追平 Opus 之上的东西。如果 Capybara 层级表现如文档所述,Anthropic 和最近竞争对手之间的差距可能先拉大再缩小。
关键的不确定性是可及性。一个太贵或太受限的模型,令人印象深刻但不具颠覆性。Anthropic 怎么处理定价、速率限制和推广节奏,决定了 Mythos 是重塑市场还是只当少数高价值应用的精英工具。
延伸阅读
- Claude Mythos 模型对比页 — 各维度功能对比
- Claude Mythos(Capybara)是什么? — 新模型和 Capybara 层级的完整解析
- Claude Mythos 与网安恐慌 — 网安能力和市场冲击深度分析