Claude Mythos Preview 正式發布:完整基準數據解讀
Anthropic 正式發布 Mythos Preview,限定存取。SWE-bench 93.9%,USAMO 97.6%,所有主要基準全面輾壓。這裡是全部數字。
一句話概括: Anthropic 正式發布了 Claude Mythos Preview。所有基準測試數字證實了3月洩露文件的暗示——而且遠超預期。SWE-bench Verified:93.9%。USAMO 2026:97.6%。Mythos 和 Opus 4.6 之間的差距不是增量改進,而是世代跨越。定價為 Opus 4.6 的5倍。透過 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四個平台接入,僅限獲批組織使用。
數字是真的
兩個星期以來,全世界靠的是洩露草稿裡的定性描述:「輾壓級的高分」「遠超任何其他 AI 模型」。現在我們有了實際數據。

完整基準對比如下:
程式開發
| 基準測試 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | — |
| SWE-bench Pro | 77.8% | 53.4% | 57.7% |
| Terminal-Bench 2.0 | 82.0% | 65.4% | — |
| SWE-bench Multimodal | 59.0% | 27.1% | — |
SWE-bench Verified 93.9%,領先 Opus 4.6 整整13.1個百分點。SWE-bench Pro 上差距擴大到24.4個點。SWE-bench Multimodal 最誇張:Mythos 是 Opus 4.6 的兩倍有餘。
推理和學術
| 基準測試 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GPQA Diamond | 94.6% | — | — |
| HLE(帶工具) | 64.7% | 53.1% | — |
| USAMO 2026 | 97.6% | 42.3% | — |
USAMO 2026 是整個數據集裡最炸裂的差距。Opus 4.6 拿了42.3%。Mythos Preview 拿了97.6%。一場競賽數學考試,差了55.3個百分點。HLE——「人類最後考試」——Mythos 不用任何外部工具,「裸考」成績比 Opus 4.6 高出16.8%。

智慧體任務
| 基準測試 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| OSWorld(電腦操控) | 79.6% | — | — |
| BrowseComp(資訊檢索) | 86.9% | — | — |
長上下文
| 基準測試 | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GraphWalks(256K-1M tokens) | 80.0% | 38.7% | 21.4% |
GraphWalks 測試的是在25.6萬到100萬 token 的超長上下文中做推理。Mythos Preview 得分80.0%,Opus 4.6 是38.7%,GPT-5.4 只有21.4%。相比 GPT-5.4 提升了近4倍。
網路安全
| 基準測試 | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym | 83.1% | 66.6% |
| Cybench(pass@1,10次嘗試) | 100% | — |
Cybench 的35道 CTF 挑戰,Mythos Preview 每道題10次嘗試全部解出,pass@1 達到100%。CyberGym 定向漏洞復現測試:83.1% vs Opus 4.6 的 66.6%。

Boris Cherny 的評價
CC(Claude Code)之父 Boris Cherny 的評價言簡意賅:「Mythos 非常強大,會讓人感到恐懼。」
Anthropic 從2026年2月24日起就已在內部使用 Mythos——比正式發布早了五週多。內部部署期讓他們能在正式環境工作流中驗證模型能力,然後才開放外部存取。
定價和接入方式
Mythos Preview 定價為 Opus 4.6 的5倍:
- 輸入: 每百萬 token $25
- 輸出: 每百萬 token $125
透過四個平台接入:
- Claude API(直連)
- Amazon Bedrock
- Google Vertex AI
- Microsoft Foundry
Mythos Preview 不會對所有人開放。限定存取模式反映了模型的能力水準和244頁 System Card 中記錄的風險。
為什麼沒開發布會
這些數字放在任何一家正常公司,都足以大張旗鼓地辦發布會、開放 API、收割訂閱。Anthropic 選擇了靜默發布加限定存取。
原因記錄在 System Card 和紅隊部落格中:Mythos Preview 的網安能力已經跨過了一條肉眼可見的線。它在開源軟體中發現了數千個未知漏洞。它獨立發現並利用了一個存在27年的 OpenBSD 零日漏洞。它在 Firefox 147 的 JavaScript 引擎上實現了250次嘗試181個可用 exploit 的成功率,而 Opus 4.6 只有2個。
完整的網安分析和 System Card 發現將在單獨的文章中詳述。
這意味著什麼
3月的洩露用了「質變」和「輾壓級分數」這樣的詞。4月的數字證明,這些詞如果有什麼問題的話,是說輕了。在每一個維度——程式開發、推理、數學、智慧體任務、長上下文、網路安全——Mythos Preview 都不是比前代好一點點,而是一個完全不同的級別。
問題不再是 Mythos 是不是真的。問題是接下來會發生什麼。
延伸閱讀
- 三大歷史級漏洞 — Mythos 如何找到了存在27年的人類從未發現的漏洞
- 244頁 System Card — Anthropic 關於欺騙行為、自我意識和 Project Glasswing 的發現
- 模型對比 — 已更新官方基準數據
- 安全影響 — 已更新漏洞案例