Claude Mythos
arrow_back 部落格

Claude Mythos vs Opus 4.6:洩露文件裡的基準對比

基於洩露文件的 Claude Mythos 和 Opus 4.6 橫向對比——哪些是實錘,哪些是推測,對 AI 格局意味著什麼。

發佈於 March 28, 2026 · Claude Mythos
Claude Mythos Opus 對比 基準測試 Capybara

一句話概括: Claude Mythos 不是更好的 Opus——它屬於一個完全不同的層級。洩露的內部文件顯示 Mythos「在所有核心基準測試中顯著超越 Opus 4.6」,尤其在程式設計、推理和網安方面。但文件用的是定性描述,不是硬數據。以下是我們能確認的、仍屬推測的、以及兩者之間的差距對不同使用者意味著什麼。

Claude Mythos vs Opus:不同層級,不是不同版本

關於 Claude Mythos 最常見的誤解是把它當成 Opus 4.7。它不是。Mythos 屬於 Capybara——Anthropic 模型體系中一個全新的層級。

現在完整的陣容是:Haiku、Sonnet、Opus、Capybara。每個層級代表一個獨立的效能等級,不是同一個等級裡的版本迭代。

Anthropic 洩露的部落格草稿原話:Capybara「比我們的 Opus 模型更大、更聰明——Opus 在此之前一直是我們最強大的」。

把 Mythos 跟 Opus 比,不是比 GPT-4o 和 GPT-4 的差別,更像是一個新的重量級選手對上舊冠軍。架構、規模和目標場景有本質差異。

各維度對比

程式設計能力 洩露草稿稱 Mythos 在軟體程式設計基準測試中取得「碾壓級高分」。沒給具體數字,但措辭很明確——不是小幅提升。 狀態:✅ 已確認(洩露文件的定性描述)

推理能力 學術推理基準同樣的故事:「碾壓級高分」。 狀態:✅ 已確認(洩露文件的定性描述)

網安能力 差距最大的地方。洩露的內部評估說 Mythos「在網安能力上遠超任何其他 AI 模型」。90 分鐘紅隊攻擊鏈中發現了一個 20 年的 Linux 核心零日漏洞。 狀態:✅ 已確認(洩露文件的定性描述)

延遲 Opus 4.6 的首 token 延遲(TTFT)約 1.2 秒。Mythos 的延遲沒有披露。Capybara 被描述為「更大」,合理預期延遲會更高。 狀態:⚠️ 推測

上下文視窗 Opus 4.6 支援超過 100 萬 token。洩露文件沒有提到 Mythos 的上下文視窗大小。 狀態:⚠️ 推測

成本 洩露草稿說 Mythos「運行成本非常高」,意味著定價會遠高於當前 Opus。 狀態:⚠️ 推測(無定價資料,但「運行成本非常高」是確認的措辭)

「質變」到底意味著什麼

Anthropic 內部文件反覆用「step change」(質變)來描述 Mythos 和 Opus 之間的差距。這個用詞是刻意的。

在技術語境中,step change 有特定含義:從一個層級到另一個層級的離散跳躍,而非漸進式爬坡。

洩露文件還說 Mythos「在所有核心基準測試中顯著超越 Opus 4.6」。不是一些基準——所有核心基準。而且是「顯著」。

引人注意的是洩露材料裡沒有精確數字——Anthropic 用描述性語言而非量化資料,幾乎肯定是刻意為之。

能確認什麼、不能確認什麼

已確認:

✅ Claude Mythos 是 Anthropic 管線中的真實模型。 ✅ Capybara 是 Opus 之上的新層級,不是 Opus 內部的版本。 ✅ Anthropic 計畫先給網安防禦方早期存取。 ✅ 內部文件稱 Mythos 是「我們做過的到目前為止最強大的 AI 模型」。

推測或未知:

⚠️ 具體基準分數和相對 Opus 4.6 的百分比提升。 ⚠️ 首 token 延遲和推論速度。 ⚠️ 上下文視窗大小。 ⚠️ API 定價和可用時間表。 ⚠️ Capybara 層級是否會有多個模型。

洩露文件內部自洽,細節足夠可信。但畢竟是草稿,不是發佈的技術規格。

這對不同使用者意味著什麼

開發者: 對那些 Opus 4.6 已經超過競品但仍然碰壁的硬程式設計問題,Mythos 可能是變革性的。但幾乎可以確定價格不菲、初期受限。

企業使用者: 最直接的場景是防禦性網安。如果你的組織營運關鍵基礎設施或處理敏感資料,拿到 Mythos 的早期存取可能會實質性改變你的安全態勢。

更廣泛的市場: Mythos 給所有其他 AI 實驗室都施加了競爭壓力。如果 Capybara 層級表現如文件所述,Anthropic 和最近競爭對手之間的差距可能先拉大再縮小。

延伸閱讀

Share