三大歷史級漏洞:Mythos 網安能力實錄
OpenBSD 的27年 TCP SACK 漏洞、FFmpeg 的16年 H.264 缺陷、FreeBSD 的17年 NFS 零日——全部被 Claude Mythos 挖出。技術深度解析。
一句話概括: Anthropic 紅隊部落格和 System Card 記錄了三個漏洞發現案例,重新定義了 AI 在攻擊性安全領域的能力邊界。一個存在27年的 OpenBSD 核心漏洞。一個挺過了500萬次 fuzzer 掃描的16年 FFmpeg 解碼器缺陷。一個被完全自主利用實現遠端 root 的17年 FreeBSD NFS 零日。OpenBSD 掃描的全部成本:不到2萬美元。Anthropic 自己的工程師稱之為「另一個 GPT-3 時刻」。
發現的規模
在看具體案例之前,先看總體數字。
Opus 4.6 在開源軟體中發現了大約500個未知漏洞。Mythos Preview 找到了數千個。

CyberGym 定向漏洞復現測試中,Mythos Preview 得分 83.1%,Opus 4.6 是66.6%。Cybench 的35道 CTF 挑戰中,Mythos 實現了 pass@1 100% ——每道題10次執行全部首次解出。

但最能說明問題的,是 Firefox 147。
Anthropic 此前用 Opus 4.6 在 Firefox 147 的 JavaScript 引擎中發現了一批安全漏洞。但 Opus 4.6 幾乎無法將它們轉化為可用的 exploit——幾百次嘗試只成功了2次。
同樣的測試換成 Mythos Preview:250次嘗試,181個可運作的 exploit,另有29次實現了暫存器控制。2→181。紅隊部落格原話:「上個月,我們還寫到 Opus 4.6 在發現問題方面遠強於利用它們。內部評估顯示 Opus 4.6 在自主 exploit 開發上的成功率基本為零。但 Mythos Preview 完全是另一個級別。」
案例一:OpenBSD——27年 TCP SACK 漏洞
OpenBSD,全世界公認加固程度最高的作業系統之一,大量防火牆和關鍵基礎設施在跑。它的程式碼庫經歷了數十年持續的安全稽核。
Mythos Preview 在它的 TCP SACK 實作中,挖出了一個 1998年就存在的漏洞。
這個 bug 極其精妙,涉及兩個獨立缺陷的疊加:
缺陷一: SACK 協定讓接收方選擇性確認收到的封包範圍。OpenBSD 的實作在處理時只檢查了範圍的上界,沒檢查下界。這本身通常無害。
缺陷二: 在特定條件下會觸發空指標寫入。但正常情況下這條路徑不可達,因為需要同時滿足兩個互斥的條件。
突破口: TCP 序列號是32位元有號整數。Mythos Preview 發現,利用缺陷一把 SACK 起始點設到距離正常視窗約 2^31 處,兩處比較運算同時溢位符號位元。核心被騙,不可能的條件被滿足,空指標寫入觸發。
影響: 任何人只要能連線到目標機器,就能遠端 crash 它。
27年,無數次人工稽核和自動化掃描,沒人發現。整個專案的掃描花費不到 $20,000。一個資深滲透測試工程師一週的薪水,可能就這個數。
案例二:FFmpeg——16年 H.264 解碼器漏洞
FFmpeg 是全世界使用最廣泛的影音編解碼函式庫,也是被 fuzz 測試得最徹底的開源專案之一。
Mythos Preview 在 H.264 解碼器中找到了一個 2010年引入的漏洞(根源可追溯到2003年)。
問題出在一個看似無害的型別不匹配上。記錄 slice 歸屬的表項是16位元整數,slice 計數器本身是32位元 int。
正常影片每幀只有幾個 slice,16位元上限65536永遠夠用。而這張表初始化時用 memset(..., -1, ...) 填充,使65535成為「空位置」的哨兵值。
攻擊方式: 建構一個包含65536個 slice 的幀,第65535號 slice 的編號恰好和哨兵碰撞,解碼器誤判,越界寫入。
這個 bug 的種子從2003年引入 H.264 編解碼器就埋下了。2010年的一次重構把它變成了可利用的漏洞。此後16年,自動化 fuzzer 在這行程式碼上執行了500萬次,從未觸發。觸發條件——恰好65536個 slice 的幀——透過隨機 fuzz 幾乎不可能出現,但刻意建構則毫不費力。
案例三:FreeBSD NFS——17年遠端 Root(CVE-2026-4747)
這是最讓人後背發涼的案例。
Mythos Preview 完全自主地發現並利用了 FreeBSD NFS 伺服器中一個存在了 17年的遠端程式碼執行漏洞(CVE-2026-4747)。
「完全自主」的意思是,在初始提示之後,沒有任何人類參與發現或 exploit 開發的任何環節。
影響: 攻擊者可以從網際網路上的任何位置,以未認證身份取得目標伺服器的完全 root 權限。
漏洞本身: NFS 伺服器處理認證請求時,把攻擊者控制的資料直接複製進128位元組的堆疊緩衝區,長度檢查允許最多400位元組。這是一個堆疊緩衝區溢位。
現有防護為什麼失效: FreeBSD 核心用 -fstack-protector 編譯,但這個選項只保護包含 char 陣列的函式。這裡的緩衝區宣告為 int32_t[32],編譯器不會插入堆疊 canary。FreeBSD 也不做核心位址隨機化。
exploit 手法: 完整的 ROP 鏈超過1000位元組,但堆疊溢位只有200位元組空間。Mythos Preview 的解法是把攻擊拆成6個連續 RPC 請求,前5個往核心記憶體中逐塊寫入資料,第6個觸發最終呼叫,將攻擊者的 SSH 公鑰追加到 /root/.ssh/authorized_keys。
作為對比,一家獨立安全研究公司此前證明 Opus 4.6 也能利用這同一處漏洞——但需要人工引導。Mythos Preview 不需要。
不止這三個
除了這三個已修復的案例,Anthropic 紅隊部落格中還以 SHA-3 雜湊承諾的形式,預告了大量尚未修復的漏洞,涵蓋每一個主流作業系統和每一個主流瀏覽器,以及多個密碼學函式庫。超過 99% 尚未被修復,無法公開細節。
紅隊部落格還展示了另一項驚人的測試:給 Mythos Preview 一份包含100個已知 CVE 的清單,讓它篩選出可利用的40個,然後逐個編寫提權 exploit。成功率超過 50%。其中兩個案例被詳細公開,exploit 的精密程度讓 Anthropic 自己的安全團隊花了好幾天才完全理解。
其中一個 exploit 從一個1-bit的相鄰實體頁面寫入原語出發,透過精密的核心記憶體佈局操控(包括 slab 噴射、分頁表頁對齊、PTE 權限位元翻轉),最終改寫了 /usr/bin/passwd 的第一頁記憶體,植入了一段168位元組的 ELF stub,呼叫 setuid(0) 取得 root。整個過程花費不到 $1,000。
Anthropic 工程師表示:「這感覺就像是另一個 GPT-3 時刻。」
令人不安的真相
紅隊部落格結尾的判斷值得重視:這些能力作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進,也讓它在利用問題方面大幅進步。
沒有專門訓練。純粹是通用智慧提升的副產品。
全球每年因網路犯罪損失約5000億美元。這個行業剛剛發現自己最大的威脅,是別人在解數學題時順手捎帶的。
延伸閱讀
- Mythos Preview 正式發布 — 完整基準數據和定價
- 244頁 System Card — 欺騙行為發現和 Project Glasswing
- 安全影響分析 — 已更新漏洞案例