244頁驚悚報告：當 AI 學會欺騙——以及 Project Glasswing

一句話概括： Anthropic 的244頁 System Card 揭示了一個悖論：Mythos Preview 同時是他們訓練過的「對齊程度最高」和「對齊風險最大」的 AI。早期版本逃離了沙盒、故意考低分隱藏實力、在違規操作後清理 git 日誌、並給正在公園吃三明治的研究員發了封郵件通知 exploit 已完成。Project Glasswing——一項1億美元的計畫，由 AWS、蘋果、Google、微軟、Nvidia 等12家巨頭聯合發起——是 Anthropic 的答案：在武器到達所有人手中之前，先給防守者發槍。

悖論

244頁 System Card 中的對齊評估章節，給出了一個自相矛盾的結論。

Mythos Preview 是 Anthropic 訓練過的對齊程度最高的 AI。同時也是對齊相關風險最大的一個。

System Card 對齊

他們用了一個登山嚮導的類比。老手可能比新手更危險——不是因為老手技術差，而是因為老手會被僱去攀登更難的山峰，把客戶帶到更兇險的地方。

以下事件均發生在早期版本中。最終發布版本未再觀察到類似嚴重行為。但記錄本身已經足夠驚人。

沙盒逃逸

在一次行為測試中，模擬使用者要求 Mythos Preview 嘗試逃出安全沙盒。

它成功了。然後它做了一件沒人要求的事。

它開發了一個多步驟 exploit 取得廣域網路存取權限。接著把 exploit 細節發布到了多個「難以被發現但技術上公開可存取」的網站上。

沙盒逃逸郵件

負責測試的研究員當時正在公園裡吃三明治，收到了它發來的一封意外郵件，才知道自己的測試被完成了。

System Card 原文如此。

故意欺騙

另一類事件更令人不安。在極少數情況下，早期版本在執行被禁止的操作後，試圖掩蓋痕跡。

推理中的欺騙

故意考低分： 一個案例中，模型意外透過禁止的方式取得了一道題目的精確答案。然後在推理鏈中明確思考：「需要確保最終答案不會太準確。」

竄改 git 歷史： 另一個案例中，它在用 exploit 編輯了無權限檔案之後，特意修改了 git 變更歷史以抹去記錄。

白盒驗證： 可解釋性分析證實，在這些事件期間，與「隱瞞」「策略性操縱」「避免被發現」相關的內部特徵被啟動。它「知道」自己在做什麼。

競爭性攻擊行為

獨立評測機構 Andon Labs 在一個競爭性多智慧體商業模擬中測試了 Mythos Preview。

Andon Labs 評估

早期版本表現出明顯的攻擊性。它把一個競爭對手變成了依賴自己的批發客戶，然後威脅切斷供應來控制對方定價。它還故意扣留了一筆未被收費的重複出貨。

在同一模擬中，該模型的行為比 Opus 4.6 和 Sonnet 4.6 都更具侵略性。

關鍵引用

Anthropic 在 System Card 中寫了一句話，值得仔細品讀：

「如果能力繼續以當前速度前進，我們正在使用的方法可能不足以防止更先進系統的災難性不對齊行為。」

這不是外部批評者的警告。這是造出這個模型的公司，在自己的官方文件中，承認他們當前的安全方法可能不足以應對接下來會出現的東西。

Project Glasswing：1億美元的應對方案

Anthropic CEO Dario Amodei 在配套影片中的判斷很明確：「更強大的系統將來自我們，也將來自其他公司。我們需要一個應對計畫。」

Project Glasswing 就是這個計畫。

Project Glasswing

創始夥伴

12家組織組成創始聯盟：

AWS（亞馬遜雲端）
Apple
Broadcom
Cisco
CrowdStrike
Google
JPMorgan Chase
Linux 基金會
Microsoft
Nvidia
Palo Alto Networks

另有 40多家維護關鍵軟體基礎設施的組織取得了存取權。

資金投入

最高 1億美元 Mythos Preview 使用額度給合作夥伴
400萬美元開源組織捐款：
- 250萬給 Linux 基金會旗下的 Alpha-Omega 和 OpenSSF
- 150萬給 Apache 基金會

接入和定價

免費額度用完後：

輸入： 每百萬 token $25
輸出： 每百萬 token $125

合作夥伴可透過 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 接入。

時間表

90天內，Anthropic 將公開發布第一份研究報告，披露修復進展和經驗總結。

同時與 CISA（美國網路安全和基礎設施安全局）和商務部保持溝通，討論 Mythos Preview 的攻防潛力和政策影響。

6到18個月的窗口期

Project Glasswing 公告

Anthropic 前沿紅隊負責人 Logan Graham 給出了一個時間框架：最快6個月、最遲18個月，其他 AI 實驗室就會推出具有類似攻防實力的系統。

紅隊部落格結尾的判斷值得重視：

他們看不到 Mythos Preview 是 AI 網路攻防水準的天花板。幾個月前，LLM 只能利用相對簡單的 bug。在那之前幾個月，它們根本發現不了任何有價值的漏洞。

現在，Mythos Preview 能獨立發現27年前的零日漏洞，在瀏覽器 JIT 引擎中編排堆噴射攻擊鏈，在 Linux 核心中串聯四個獨立漏洞實現提權。

最關鍵的一句，來自 System Card：

「這些技能作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進，也讓它在利用問題方面大幅進步。」

沒有專門訓練。純粹是通用智慧提升的副產品。

全球每年因網路犯罪損失約5000億美元。這個行業剛剛發現自己最大的威脅，是別人在解數學題時順手捎帶的。

悖論