Claude Mythos vs Opus 4.6：泄露文档里的基准对比

一句话概括： Claude Mythos 不是更好的 Opus——它属于一个完全不同的层级。泄露的内部文档显示 Mythos「在所有核心基准测试中显著超越 Opus 4.6」，尤其在编程、推理和网安方面。但文档用的是定性描述，不是硬数据。以下是我们能确认的、仍属推测的、以及两者之间的差距对不同用户意味着什么。

Claude Mythos vs Opus：不同层级，不是不同版本

关于 Claude Mythos 最常见的误解是把它当成 Opus 4.7。它不是。Mythos 属于 Capybara——Anthropic 模型体系中一个全新的层级。

现在完整的阵容是：Haiku、Sonnet、Opus、Capybara。每个层级代表一个独立的性能等级，不是同一个等级里的版本迭代。Haiku 是轻量速度型，Sonnet 是均衡主力，Opus 是旗舰推理，而 Capybara——Mythos 是第一个模型——位于所有层级之上。

Anthropic 泄露的博客草稿原话：Capybara「比我们的 Opus 模型更大、更聪明——Opus 在此之前一直是我们最强大的」。

这个区别很重要，因为它设定了预期。把 Mythos 跟 Opus 比，不是比 GPT-4o 和 GPT-4 的差别，更像是一个新的重量级选手对上旧冠军。架构、规模和目标场景有本质差异。

各维度对比

泄露文档的细节足够勾勒出几个维度的对比。有些来自文档直接确认，有些需要推断。

编程能力 泄露草稿称 Mythos 在软件编程基准测试中取得「碾压级高分」。没给具体数字，但措辞很明确——不是小幅提升。Opus 4.6 已经被认为是最强的编程模型了，Mythos 显然把天花板又大幅抬高了。状态：✅ 已确认（泄露文档的定性描述）

推理能力 学术推理基准同样的故事：「碾压级高分」。Opus 4.6 本来就擅长多步推理、复杂分析和深度思维链任务。泄露材料显示 Mythos 把这个优势又拉开了一截。状态：✅ 已确认（泄露文档的定性描述）

网安能力 差距最大的地方。泄露的内部评估说 Mythos「在网安能力上远超任何其他 AI 模型」。不只是超过 Opus——超过所有公司的所有模型。90 分钟红队攻击链中发现了一个 20 年的 Linux 内核零日漏洞，这是最具体的能力证据。状态：✅ 已确认（泄露文档的定性描述）

延迟 Opus 4.6 的首 token 延迟（TTFT）在典型使用中约 1.2 秒。Mythos 的延迟没有披露。考虑到 Capybara 被描述为「更大」，合理预期延迟会更高。具体多高不得而知。状态：⚠️ 推测（泄露文档中无延迟数据）

上下文窗口 Opus 4.6 支持超过 100 万 token 的上下文。泄露文档没有提到 Mythos 的上下文窗口大小。可能跟 Opus 持平、更大，也可能更小——如果 Anthropic 做了偏重推理深度而非上下文长度的架构取舍。状态：⚠️ 推测（泄露文档中无上下文窗口数据）

成本 Opus 4.6 已经是 Claude 系列中最贵的。泄露草稿说 Mythos「运行成本非常高」，意味着定价会远高于当前 Opus。对很多开发者来说 Opus 的 API 价格已经是门槛了，Mythos 大概率只适用于性能收益足以撑起显著更高成本的场景。状态：⚠️ 推测（无定价数据，但「运行成本非常高」是确认的措辞）

「质变」到底意味着什么

Anthropic 内部文档反复用「step change」（质变）来描述 Mythos 和 Opus 之间的差距。这个用词是刻意的。

在技术语境中，step change 有特定含义：从一个层级到另一个层级的离散跳跃，而非渐进式爬坡。是相变的语言，不是持续改进的语言。Anthropic 可以写「improvement」或「advancement」——他们选了 step change。

泄露文档还说 Mythos「在所有核心基准测试中显著超越 Opus 4.6」。不是一些基准——所有核心基准。而且是「显著」，不是「略微」或「适度」。

引人注意的是泄露材料里没有精确数字。没有百分比提升、没有具体分数、没有对照表。这几乎肯定是刻意为之——Anthropic 用描述性语言（「碾压级」「远超」「显著超越」）而非量化数据。

可能的解释有两个：一是泄露文档是内部对齐用的草稿，定性描述在内部沟通中很常见；二是 Anthropic 刻意保留数字，等正式发布时再放出来掌控叙事。

无论哪个原因，模式是一致的：每一个定性描述都指向同一个方向，没有一个是含糊其辞的。

能确认什么、不能确认什么

下结论之前，有必要把已经确立的和仍不确定的分清楚。

已确认：

✅ Claude Mythos 是 Anthropic 管线中的真实模型。 ✅ Capybara 是 Opus 之上的新层级，不是 Opus 内部的版本。 ✅ Anthropic 计划在更广泛发布前先给网安防御方早期访问。 ✅ 内部文档称 Mythos 是「我们做过的到目前为止最强大的 AI 模型」。 ✅ 泄露评估显示编程、推理和网安方面碾压级领先。

推测或未知：

⚠️ 具体基准分数和相对 Opus 4.6 的百分比提升。 ⚠️ 首 token 延迟和推理速度。 ⚠️ 上下文窗口大小。 ⚠️ API 定价和可用时间表。 ⚠️ Capybara 层级是否会有多个模型（像 Sonnet 有 3.5 和 3.6），还是只保持单模型。

泄露文档内部自洽，细节足够可信。但毕竟是草稿，不是发布的技术规格。定性描述当作大方向参考，具体技术参数在 Anthropic 确认前视为未知。

这对不同用户意味着什么

影响因人而异。

开发者： 对那些 Opus 4.6 已经超过竞品但仍然碰壁的硬编程问题，Mythos 可能是变革性的——大规模重构、复杂系统架构、跨海量代码库的多文件推理。但几乎可以确定价格不菲、初期受限。别指望第一天就能无缝替换你的 Opus 工作流。

企业用户： 最直接的场景是防御性网安。Anthropic 的分阶段发布优先让防御方上手。如果你的组织运营关键基础设施或处理敏感数据，拿到 Mythos 的早期访问可能会实质性改变你的安全态势——红队评估中描述的那种发现漏洞的速度，核心价值主张就在这里。

更广泛的市场： Mythos 给所有其他 AI 实验室都施加了竞争压力。OpenAI、Google 等现在面对的不只是追平 Opus，而是追平 Opus 之上的东西。如果 Capybara 层级表现如文档所述，Anthropic 和最近竞争对手之间的差距可能先拉大再缩小。

关键的不确定性是可及性。一个太贵或太受限的模型，令人印象深刻但不具颠覆性。Anthropic 怎么处理定价、速率限制和推广节奏，决定了 Mythos 是重塑市场还是只当少数高价值应用的精英工具。

Claude Mythos vs Opus：不同层级，不是不同版本

各维度对比

「质变」到底意味着什么

能确认什么、不能确认什么

这对不同用户意味着什么

延伸阅读