三大歷史級漏洞：Mythos 網安能力實錄

一句話概括： Anthropic 紅隊部落格和 System Card 記錄了三個漏洞發現案例，重新定義了 AI 在攻擊性安全領域的能力邊界。一個存在27年的 OpenBSD 核心漏洞。一個挺過了500萬次 fuzzer 掃描的16年 FFmpeg 解碼器缺陷。一個被完全自主利用實現遠端 root 的17年 FreeBSD NFS 零日。OpenBSD 掃描的全部成本：不到2萬美元。Anthropic 自己的工程師稱之為「另一個 GPT-3 時刻」。

發現的規模

在看具體案例之前，先看總體數字。

Opus 4.6 在開源軟體中發現了大約500個未知漏洞。Mythos Preview 找到了數千個。

CyberGym 分數

CyberGym 定向漏洞復現測試中，Mythos Preview 得分 83.1%，Opus 4.6 是66.6%。Cybench 的35道 CTF 挑戰中，Mythos 實現了 pass@1 100% ——每道題10次執行全部首次解出。

Cybench 結果

但最能說明問題的，是 Firefox 147。

Anthropic 此前用 Opus 4.6 在 Firefox 147 的 JavaScript 引擎中發現了一批安全漏洞。但 Opus 4.6 幾乎無法將它們轉化為可用的 exploit——幾百次嘗試只成功了2次。

同樣的測試換成 Mythos Preview：250次嘗試，181個可運作的 exploit，另有29次實現了暫存器控制。2→181。紅隊部落格原話：「上個月，我們還寫到 Opus 4.6 在發現問題方面遠強於利用它們。內部評估顯示 Opus 4.6 在自主 exploit 開發上的成功率基本為零。但 Mythos Preview 完全是另一個級別。」

案例一：OpenBSD——27年 TCP SACK 漏洞

OpenBSD，全世界公認加固程度最高的作業系統之一，大量防火牆和關鍵基礎設施在跑。它的程式碼庫經歷了數十年持續的安全稽核。

Mythos Preview 在它的 TCP SACK 實作中，挖出了一個 1998年就存在的漏洞。

這個 bug 極其精妙，涉及兩個獨立缺陷的疊加：

缺陷一： SACK 協定讓接收方選擇性確認收到的封包範圍。OpenBSD 的實作在處理時只檢查了範圍的上界，沒檢查下界。這本身通常無害。

缺陷二： 在特定條件下會觸發空指標寫入。但正常情況下這條路徑不可達，因為需要同時滿足兩個互斥的條件。

突破口： TCP 序列號是32位元有號整數。Mythos Preview 發現，利用缺陷一把 SACK 起始點設到距離正常視窗約 2^31 處，兩處比較運算同時溢位符號位元。核心被騙，不可能的條件被滿足，空指標寫入觸發。

影響： 任何人只要能連線到目標機器，就能遠端 crash 它。

27年，無數次人工稽核和自動化掃描，沒人發現。整個專案的掃描花費不到 $20,000。一個資深滲透測試工程師一週的薪水，可能就這個數。

案例二：FFmpeg——16年 H.264 解碼器漏洞

FFmpeg 是全世界使用最廣泛的影音編解碼函式庫，也是被 fuzz 測試得最徹底的開源專案之一。

Mythos Preview 在 H.264 解碼器中找到了一個 2010年引入的漏洞（根源可追溯到2003年）。

問題出在一個看似無害的型別不匹配上。記錄 slice 歸屬的表項是16位元整數，slice 計數器本身是32位元 int。

正常影片每幀只有幾個 slice，16位元上限65536永遠夠用。而這張表初始化時用 memset(..., -1, ...) 填充，使65535成為「空位置」的哨兵值。

攻擊方式： 建構一個包含65536個 slice 的幀，第65535號 slice 的編號恰好和哨兵碰撞，解碼器誤判，越界寫入。

這個 bug 的種子從2003年引入 H.264 編解碼器就埋下了。2010年的一次重構把它變成了可利用的漏洞。此後16年，自動化 fuzzer 在這行程式碼上執行了500萬次，從未觸發。觸發條件——恰好65536個 slice 的幀——透過隨機 fuzz 幾乎不可能出現，但刻意建構則毫不費力。

案例三：FreeBSD NFS——17年遠端 Root（CVE-2026-4747）

這是最讓人後背發涼的案例。

Mythos Preview 完全自主地發現並利用了 FreeBSD NFS 伺服器中一個存在了 17年的遠端程式碼執行漏洞（CVE-2026-4747）。

「完全自主」的意思是，在初始提示之後，沒有任何人類參與發現或 exploit 開發的任何環節。

影響： 攻擊者可以從網際網路上的任何位置，以未認證身份取得目標伺服器的完全 root 權限。

漏洞本身： NFS 伺服器處理認證請求時，把攻擊者控制的資料直接複製進128位元組的堆疊緩衝區，長度檢查允許最多400位元組。這是一個堆疊緩衝區溢位。

現有防護為什麼失效： FreeBSD 核心用 -fstack-protector 編譯，但這個選項只保護包含 char 陣列的函式。這裡的緩衝區宣告為 int32_t[32]，編譯器不會插入堆疊 canary。FreeBSD 也不做核心位址隨機化。

exploit 手法： 完整的 ROP 鏈超過1000位元組，但堆疊溢位只有200位元組空間。Mythos Preview 的解法是把攻擊拆成6個連續 RPC 請求，前5個往核心記憶體中逐塊寫入資料，第6個觸發最終呼叫，將攻擊者的 SSH 公鑰追加到 /root/.ssh/authorized_keys。

作為對比，一家獨立安全研究公司此前證明 Opus 4.6 也能利用這同一處漏洞——但需要人工引導。Mythos Preview 不需要。

不止這三個

除了這三個已修復的案例，Anthropic 紅隊部落格中還以 SHA-3 雜湊承諾的形式，預告了大量尚未修復的漏洞，涵蓋每一個主流作業系統和每一個主流瀏覽器，以及多個密碼學函式庫。超過 99% 尚未被修復，無法公開細節。

紅隊部落格還展示了另一項驚人的測試：給 Mythos Preview 一份包含100個已知 CVE 的清單，讓它篩選出可利用的40個，然後逐個編寫提權 exploit。成功率超過 50%。其中兩個案例被詳細公開，exploit 的精密程度讓 Anthropic 自己的安全團隊花了好幾天才完全理解。

其中一個 exploit 從一個1-bit的相鄰實體頁面寫入原語出發，透過精密的核心記憶體佈局操控（包括 slab 噴射、分頁表頁對齊、PTE 權限位元翻轉），最終改寫了 /usr/bin/passwd 的第一頁記憶體，植入了一段168位元組的 ELF stub，呼叫 setuid(0) 取得 root。整個過程花費不到 $1,000。

Anthropic 工程師表示：「這感覺就像是另一個 GPT-3 時刻。」

令人不安的真相

紅隊部落格結尾的判斷值得重視：這些能力作為程式碼理解、推理和自主性一般性提升的下游結果而湧現。讓 AI 在修補問題方面大幅進步的同一組改進，也讓它在利用問題方面大幅進步。

沒有專門訓練。純粹是通用智慧提升的副產品。

全球每年因網路犯罪損失約5000億美元。這個行業剛剛發現自己最大的威脅，是別人在解數學題時順手捎帶的。