Claude Mythos vs Opus 4.6：洩露文件裡的基準對比

一句話概括： Claude Mythos 不是更好的 Opus——它屬於一個完全不同的層級。洩露的內部文件顯示 Mythos「在所有核心基準測試中顯著超越 Opus 4.6」，尤其在程式設計、推理和網安方面。但文件用的是定性描述，不是硬數據。以下是我們能確認的、仍屬推測的、以及兩者之間的差距對不同使用者意味著什麼。

Claude Mythos vs Opus：不同層級，不是不同版本

關於 Claude Mythos 最常見的誤解是把它當成 Opus 4.7。它不是。Mythos 屬於 Capybara——Anthropic 模型體系中一個全新的層級。

現在完整的陣容是：Haiku、Sonnet、Opus、Capybara。每個層級代表一個獨立的效能等級，不是同一個等級裡的版本迭代。

Anthropic 洩露的部落格草稿原話：Capybara「比我們的 Opus 模型更大、更聰明——Opus 在此之前一直是我們最強大的」。

把 Mythos 跟 Opus 比，不是比 GPT-4o 和 GPT-4 的差別，更像是一個新的重量級選手對上舊冠軍。架構、規模和目標場景有本質差異。

各維度對比

程式設計能力 洩露草稿稱 Mythos 在軟體程式設計基準測試中取得「碾壓級高分」。沒給具體數字，但措辭很明確——不是小幅提升。狀態：✅ 已確認（洩露文件的定性描述）

推理能力 學術推理基準同樣的故事：「碾壓級高分」。狀態：✅ 已確認（洩露文件的定性描述）

網安能力 差距最大的地方。洩露的內部評估說 Mythos「在網安能力上遠超任何其他 AI 模型」。90 分鐘紅隊攻擊鏈中發現了一個 20 年的 Linux 核心零日漏洞。狀態：✅ 已確認（洩露文件的定性描述）

延遲 Opus 4.6 的首 token 延遲（TTFT）約 1.2 秒。Mythos 的延遲沒有披露。Capybara 被描述為「更大」，合理預期延遲會更高。狀態：⚠️ 推測

上下文視窗 Opus 4.6 支援超過 100 萬 token。洩露文件沒有提到 Mythos 的上下文視窗大小。狀態：⚠️ 推測

成本洩露草稿說 Mythos「運行成本非常高」，意味著定價會遠高於當前 Opus。狀態：⚠️ 推測（無定價資料，但「運行成本非常高」是確認的措辭）

「質變」到底意味著什麼

Anthropic 內部文件反覆用「step change」（質變）來描述 Mythos 和 Opus 之間的差距。這個用詞是刻意的。

在技術語境中，step change 有特定含義：從一個層級到另一個層級的離散跳躍，而非漸進式爬坡。

洩露文件還說 Mythos「在所有核心基準測試中顯著超越 Opus 4.6」。不是一些基準——所有核心基準。而且是「顯著」。

引人注意的是洩露材料裡沒有精確數字——Anthropic 用描述性語言而非量化資料，幾乎肯定是刻意為之。

能確認什麼、不能確認什麼

已確認：

✅ Claude Mythos 是 Anthropic 管線中的真實模型。 ✅ Capybara 是 Opus 之上的新層級，不是 Opus 內部的版本。 ✅ Anthropic 計畫先給網安防禦方早期存取。 ✅ 內部文件稱 Mythos 是「我們做過的到目前為止最強大的 AI 模型」。

推測或未知：

⚠️ 具體基準分數和相對 Opus 4.6 的百分比提升。 ⚠️ 首 token 延遲和推論速度。 ⚠️ 上下文視窗大小。 ⚠️ API 定價和可用時間表。 ⚠️ Capybara 層級是否會有多個模型。

洩露文件內部自洽，細節足夠可信。但畢竟是草稿，不是發佈的技術規格。

這對不同使用者意味著什麼

開發者： 對那些 Opus 4.6 已經超過競品但仍然碰壁的硬程式設計問題，Mythos 可能是變革性的。但幾乎可以確定價格不菲、初期受限。

企業使用者： 最直接的場景是防禦性網安。如果你的組織營運關鍵基礎設施或處理敏感資料，拿到 Mythos 的早期存取可能會實質性改變你的安全態勢。

更廣泛的市場： Mythos 給所有其他 AI 實驗室都施加了競爭壓力。如果 Capybara 層級表現如文件所述，Anthropic 和最近競爭對手之間的差距可能先拉大再縮小。

Claude Mythos vs Opus：不同層級，不是不同版本

各維度對比

「質變」到底意味著什麼

能確認什麼、不能確認什麼

這對不同使用者意味著什麼

延伸閱讀