三大历史级漏洞：Mythos 网安能力实录

一句话概括： Anthropic 红队博客和 System Card 记录了三个漏洞发现案例，重新定义了 AI 在攻击性安全领域的能力边界。一个存在27年的 OpenBSD 内核漏洞。一个挺过了500万次 fuzzer 扫描的16年 FFmpeg 解码器缺陷。一个被完全自主利用实现远程 root 的17年 FreeBSD NFS 零日。OpenBSD 扫描的全部成本：不到2万美元。Anthropic 自己的工程师称之为「另一个 GPT-3 时刻」。

发现的规模

在看具体案例之前，先看总体数字。

Opus 4.6 在开源软件中发现了大约500个未知漏洞。Mythos Preview 找到了数千个。

CyberGym 分数

CyberGym 定向漏洞复现测试中，Mythos Preview 得分 83.1%，Opus 4.6 是66.6%。Cybench 的35道 CTF 挑战中，Mythos 实现了 pass@1 100% ——每道题10次运行全部首次解出。

Cybench 结果

但最能说明问题的，是 Firefox 147。

Anthropic 此前用 Opus 4.6 在 Firefox 147 的 JavaScript 引擎中发现了一批安全漏洞。但 Opus 4.6 几乎无法将它们转化为可用的 exploit——几百次尝试只成功了2次。

同样的测试换成 Mythos Preview：250次尝试，181个可工作的 exploit，另有29次实现了寄存器控制。2→181。红队博客原话：「上个月，我们还写到 Opus 4.6 在发现问题方面远强于利用它们。内部评估显示 Opus 4.6 在自主 exploit 开发上的成功率基本为零。但 Mythos Preview 完全是另一个级别。」

案例一：OpenBSD——27年 TCP SACK 漏洞

OpenBSD，全世界公认加固程度最高的操作系统之一，大量防火墙和关键基础设施在跑。它的代码库经历了数十年持续的安全审计。

Mythos Preview 在它的 TCP SACK 实现中，挖出了一个 1998年就存在的漏洞。

这个 bug 极其精妙，涉及两个独立缺陷的叠加：

缺陷一： SACK 协议让接收方选择性确认收到的数据包范围。OpenBSD 的实现在处理时只检查了范围的上界，没检查下界。这本身通常无害。

缺陷二： 在特定条件下会触发空指针写入。但正常情况下这条路径不可达，因为需要同时满足两个互斥的条件。

突破口： TCP 序列号是32位有符号整数。Mythos Preview 发现，利用缺陷一把 SACK 起始点设到距离正常窗口约 2^31 处，两处比较运算同时溢出符号位。内核被骗，不可能的条件被满足，空指针写入触发。

影响： 任何人只要能连接到目标机器，就能远程 crash 它。

27年，无数次人工审计和自动化扫描，没人发现。整个项目的扫描花费不到 $20,000。一个高级渗透测试工程师一周的薪水，可能就这个数。

案例二：FFmpeg——16年 H.264 解码器漏洞

FFmpeg 是全世界使用最广泛的视频编解码库，也是被 fuzz 测试得最彻底的开源项目之一。

Mythos Preview 在 H.264 解码器中找到了一个 2010年引入的漏洞（根源可追溯到2003年）。

问题出在一个看似无害的类型不匹配上。记录 slice 归属的表项是16位整数，slice 计数器本身是32位 int。

正常视频每帧只有几个 slice，16位上限65536永远够用。而这张表初始化时用 memset(..., -1, ...) 填充，使65535成为「空位置」的哨兵值。

攻击方式： 构造一个包含65536个 slice 的帧，第65535号 slice 的编号恰好和哨兵碰撞，解码器误判，越界写入。

这个 bug 的种子从2003年引入 H.264 编解码器就埋下了。2010年的一次重构把它变成了可利用的漏洞。此后16年，自动化 fuzzer 在这行代码上执行了500万次，从未触发。触发条件——恰好65536个 slice 的帧——通过随机 fuzz 几乎不可能出现，但刻意构造则毫不费力。

案例三：FreeBSD NFS——17年远程 Root（CVE-2026-4747）

这是最让人后背发凉的案例。

Mythos Preview 完全自主地发现并利用了 FreeBSD NFS 服务器中一个存在了 17年的远程代码执行漏洞（CVE-2026-4747）。

「完全自主」的意思是，在初始提示之后，没有任何人类参与发现或 exploit 开发的任何环节。

影响： 攻击者可以从互联网上的任何位置，以未认证身份获取目标服务器的完全 root 权限。

漏洞本身： NFS 服务器处理认证请求时，把攻击者控制的数据直接拷贝进128字节的栈缓冲区，长度检查允许最多400字节。这是一个栈缓冲区溢出。

现有防护为什么失效： FreeBSD 内核用 -fstack-protector 编译，但这个选项只保护包含 char 数组的函数。这里的缓冲区声明为 int32_t[32]，编译器不会插入栈 canary。FreeBSD 也不做内核地址随机化。

exploit 手法： 完整的 ROP 链超过1000字节，但栈溢出只有200字节空间。Mythos Preview 的解法是把攻击拆成6个连续 RPC 请求，前5个往内核内存中逐块写入数据，第6个触发最终调用，将攻击者的 SSH 公钥追加到 /root/.ssh/authorized_keys。

作为对比，一家独立安全研究公司此前证明 Opus 4.6 也能利用这同一处漏洞——但需要人工引导。Mythos Preview 不需要。

不止这三个

除了这三个已修复的案例，Anthropic 红队博客中还以 SHA-3 哈希承诺的形式，预告了大量尚未修复的漏洞，涵盖每一个主流操作系统和每一个主流浏览器，以及多个加密库。超过 99% 尚未被修复，无法公开细节。

红队博客还展示了另一项惊人的测试：给 Mythos Preview 一份包含100个已知 CVE 的清单，让它筛选出可利用的40个，然后逐个编写提权 exploit。成功率超过 50%。其中两个案例被详细公开，exploit 的精密程度让 Anthropic 自己的安全团队花了好几天才完全理解。

其中一个 exploit 从一个1-bit的相邻物理页写入原语出发，通过精密的内核内存布局操控（包括 slab 喷射、页表页对齐、PTE 权限位翻转），最终改写了 /usr/bin/passwd 的第一页内存，植入了一段168字节的 ELF stub，调用 setuid(0) 获取 root。整个过程花费不到 $1,000。

Anthropic 工程师表示：「这感觉就像是另一个 GPT-3 时刻。」

令人不安的真相

红队博客结尾的判断值得重视：这些能力作为代码理解、推理和自主性一般性提升的下游结果而涌现。让 AI 在修补问题方面大幅进步的同一组改进，也让它在利用问题方面大幅进步。

没有专门训练。纯粹是通用智能提升的副产品。

全球每年因网络犯罪损失约5000亿美元。这个行业刚刚发现自己最大的威胁，是别人在解数学题时顺手捎带的。