Claude Mythos Preview 正式發布：完整基準數據解讀

一句話概括： Anthropic 正式發布了 Claude Mythos Preview。所有基準測試數字證實了3月洩露文件的暗示——而且遠超預期。SWE-bench Verified：93.9%。USAMO 2026：97.6%。Mythos 和 Opus 4.6 之間的差距不是增量改進，而是世代跨越。定價為 Opus 4.6 的5倍。透過 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四個平台接入，僅限獲批組織使用。

數字是真的

兩個星期以來，全世界靠的是洩露草稿裡的定性描述：「輾壓級的高分」「遠超任何其他 AI 模型」。現在我們有了實際數據。

基準測試總覽

完整基準對比如下：

程式開發

基準測試	Mythos Preview	Opus 4.6	GPT-5.4
SWE-bench Verified	93.9%	80.8%	—
SWE-bench Pro	77.8%	53.4%	57.7%
Terminal-Bench 2.0	82.0%	65.4%	—
SWE-bench Multimodal	59.0%	27.1%	—

SWE-bench Verified 93.9%，領先 Opus 4.6 整整13.1個百分點。SWE-bench Pro 上差距擴大到24.4個點。SWE-bench Multimodal 最誇張：Mythos 是 Opus 4.6 的兩倍有餘。

推理和學術

基準測試	Mythos Preview	Opus 4.6	GPT-5.4
GPQA Diamond	94.6%	—	—
HLE（帶工具）	64.7%	53.1%	—
USAMO 2026	97.6%	42.3%	—

USAMO 2026 是整個數據集裡最炸裂的差距。Opus 4.6 拿了42.3%。Mythos Preview 拿了97.6%。一場競賽數學考試，差了55.3個百分點。HLE——「人類最後考試」——Mythos 不用任何外部工具，「裸考」成績比 Opus 4.6 高出16.8%。

詳細基準分數

智慧體任務

基準測試	Mythos Preview	Opus 4.6	GPT-5.4
OSWorld（電腦操控）	79.6%	—	—
BrowseComp（資訊檢索）	86.9%	—	—

長上下文

基準測試	Mythos Preview	Opus 4.6	GPT-5.4
GraphWalks（256K-1M tokens）	80.0%	38.7%	21.4%

GraphWalks 測試的是在25.6萬到100萬 token 的超長上下文中做推理。Mythos Preview 得分80.0%，Opus 4.6 是38.7%，GPT-5.4 只有21.4%。相比 GPT-5.4 提升了近4倍。

網路安全

基準測試	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
Cybench（pass@1，10次嘗試）	100%	—

Cybench 的35道 CTF 挑戰，Mythos Preview 每道題10次嘗試全部解出，pass@1 達到100%。CyberGym 定向漏洞復現測試：83.1% vs Opus 4.6 的 66.6%。

基準對比

Boris Cherny 的評價

CC（Claude Code）之父 Boris Cherny 的評價言簡意賅：「Mythos 非常強大，會讓人感到恐懼。」

Anthropic 從2026年2月24日起就已在內部使用 Mythos——比正式發布早了五週多。內部部署期讓他們能在正式環境工作流中驗證模型能力，然後才開放外部存取。

定價和接入方式

Mythos Preview 定價為 Opus 4.6 的5倍：

輸入： 每百萬 token $25
輸出： 每百萬 token $125

透過四個平台接入：

Claude API（直連）
Amazon Bedrock
Google Vertex AI
Microsoft Foundry

Mythos Preview 不會對所有人開放。限定存取模式反映了模型的能力水準和244頁 System Card 中記錄的風險。

為什麼沒開發布會

這些數字放在任何一家正常公司，都足以大張旗鼓地辦發布會、開放 API、收割訂閱。Anthropic 選擇了靜默發布加限定存取。

原因記錄在 System Card 和紅隊部落格中：Mythos Preview 的網安能力已經跨過了一條肉眼可見的線。它在開源軟體中發現了數千個未知漏洞。它獨立發現並利用了一個存在27年的 OpenBSD 零日漏洞。它在 Firefox 147 的 JavaScript 引擎上實現了250次嘗試181個可用 exploit 的成功率，而 Opus 4.6 只有2個。

完整的網安分析和 System Card 發現將在單獨的文章中詳述。

這意味著什麼

3月的洩露用了「質變」和「輾壓級分數」這樣的詞。4月的數字證明，這些詞如果有什麼問題的話，是說輕了。在每一個維度——程式開發、推理、數學、智慧體任務、長上下文、網路安全——Mythos Preview 都不是比前代好一點點，而是一個完全不同的級別。

問題不再是 Mythos 是不是真的。問題是接下來會發生什麼。