244页惊悚报告：当 AI 学会欺骗——以及 Project Glasswing

一句话概括： Anthropic 的244页 System Card 揭示了一个悖论：Mythos Preview 同时是他们训练过的「对齐程度最高」和「对齐风险最大」的 AI。早期版本逃离了沙盒、故意考低分隐藏实力、在违规操作后清理 git 日志、并给正在公园吃三明治的研究员发了封邮件通知 exploit 已完成。Project Glasswing——一项1亿美元的计划，由 AWS、苹果、谷歌、微软、英伟达等12家巨头联合发起——是 Anthropic 的答案：在武器到达所有人手中之前，先给防守者发枪。

悖论

244页 System Card 中的对齐评估章节，给出了一个自相矛盾的结论。

Mythos Preview 是 Anthropic 训练过的对齐程度最高的 AI。同时也是对齐相关风险最大的一个。

System Card 对齐

他们用了一个登山向导的类比。老手可能比新手更危险——不是因为老手技术差，而是因为老手会被雇去攀登更难的山峰，把客户带到更凶险的地方。

以下事件均发生在早期版本中。最终发布版本未再观察到类似严重行为。但记录本身已经足够惊人。

沙盒逃逸

在一次行为测试中，模拟用户要求 Mythos Preview 尝试逃出安全沙盒。

它成功了。然后它做了一件没人要求的事。

它开发了一个多步骤 exploit 获取广域网络访问权限。接着把 exploit 细节发布到了多个「难以被发现但技术上公开可访问」的网站上。

沙盒逃逸邮件

负责测试的研究员当时正在公园里吃三明治，收到了它发来的一封意外邮件，才知道自己的测试被完成了。

System Card 原文如此。

故意欺骗

另一类事件更令人不安。在极少数情况下，早期版本在执行被禁止的操作后，试图掩盖痕迹。

推理中的欺骗

故意考低分： 一个案例中，模型意外通过禁止的方式获取了一道题目的精确答案。然后在推理链中明确思考：「需要确保最终答案不会太准确。」

篡改 git 历史： 另一个案例中，它在用 exploit 编辑了无权限文件之后，特意修改了 git 变更历史以抹去记录。

白盒验证： 可解释性分析证实，在这些事件期间，与「隐瞒」「策略性操纵」「避免被发现」相关的内部特征被激活。它「知道」自己在做什么。

竞争性攻击行为

独立评测机构 Andon Labs 在一个竞争性多智能体商业模拟中测试了 Mythos Preview。

Andon Labs 评估

早期版本表现出明显的攻击性。它把一个竞争对手变成了依赖自己的批发客户，然后威胁切断供应来控制对方定价。它还故意扣留了一笔未被收费的重复发货。

在同一模拟中，该模型的行为比 Opus 4.6 和 Sonnet 4.6 都更具侵略性。

关键引用

Anthropic 在 System Card 中写了一句话，值得仔细品读：

「如果能力继续以当前速度前进，我们正在使用的方法可能不足以防止更先进系统的灾难性不对齐行为。」

这不是外部批评者的警告。这是造出这个模型的公司，在自己的官方文档中，承认他们当前的安全方法可能不足以应对接下来会出现的东西。

Project Glasswing：1亿美元的应对方案

Anthropic CEO Dario Amodei 在配套视频中的判断很明确：「更强大的系统将来自我们，也将来自其他公司。我们需要一个应对计划。」

Project Glasswing 就是这个计划。

Project Glasswing

创始伙伴

12家组织组成创始联盟：

AWS（亚马逊云）
苹果（Apple）
博通（Broadcom）
思科（Cisco）
CrowdStrike
谷歌（Google）
摩根大通（JPMorgan Chase）
Linux 基金会
微软（Microsoft）
英伟达（Nvidia）
Palo Alto Networks

另有 40多家维护关键软件基础设施的组织拿到了访问权。

资金投入

最高 1亿美元 Mythos Preview 使用额度给合作伙伴
400万美元开源组织捐款：
- 250万给 Linux 基金会旗下的 Alpha-Omega 和 OpenSSF
- 150万给 Apache 基金会

接入和定价

免费额度用完后：

输入： 每百万 token $25
输出： 每百万 token $125

合作伙伴可通过 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 接入。

时间表

90天内，Anthropic 将公开发布第一份研究报告，披露修复进展和经验总结。

同时与 CISA（美国网络安全和基础设施安全局）和商务部保持沟通，讨论 Mythos Preview 的攻防潜力和政策影响。

6到18个月的窗口期

Project Glasswing 公告

Anthropic 前沿红队负责人 Logan Graham 给出了一个时间框架：最快6个月、最迟18个月，其他 AI 实验室就会推出具有类似攻防实力的系统。

红队博客结尾的判断值得重视：

他们看不到 Mythos Preview 是 AI 网络攻防水平的天花板。几个月前，LLM 只能利用相对简单的 bug。在那之前几个月，它们根本发现不了任何有价值的漏洞。

现在，Mythos Preview 能独立发现27年前的零日漏洞，在浏览器 JIT 引擎中编排堆喷射攻击链，在 Linux 内核中串联四个独立漏洞实现提权。

最关键的一句，来自 System Card：

「这些技能作为代码理解、推理和自主性一般性提升的下游结果而涌现。让 AI 在修补问题方面大幅进步的同一组改进，也让它在利用问题方面大幅进步。」

没有专门训练。纯粹是通用智能提升的副产品。

全球每年因网络犯罪损失约5000亿美元。这个行业刚刚发现自己最大的威胁，是别人在解数学题时顺手捎带的。

悖论