Claude Mythos
arrow_back 部落格

Claude Mythos Preview 正式發布:完整基準數據解讀

Anthropic 正式發布 Mythos Preview,限定存取。SWE-bench 93.9%,USAMO 97.6%,所有主要基準全面輾壓。這裡是全部數字。

發佈於 April 8, 2026 · Claude Mythos
Claude Mythos 基準測試 官方發布 Mythos Preview

一句話概括: Anthropic 正式發布了 Claude Mythos Preview。所有基準測試數字證實了3月洩露文件的暗示——而且遠超預期。SWE-bench Verified:93.9%。USAMO 2026:97.6%。Mythos 和 Opus 4.6 之間的差距不是增量改進,而是世代跨越。定價為 Opus 4.6 的5倍。透過 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四個平台接入,僅限獲批組織使用。

數字是真的

兩個星期以來,全世界靠的是洩露草稿裡的定性描述:「輾壓級的高分」「遠超任何其他 AI 模型」。現在我們有了實際數據。

基準測試總覽

完整基準對比如下:

程式開發

基準測試Mythos PreviewOpus 4.6GPT-5.4
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%57.7%
Terminal-Bench 2.082.0%65.4%
SWE-bench Multimodal59.0%27.1%

SWE-bench Verified 93.9%,領先 Opus 4.6 整整13.1個百分點。SWE-bench Pro 上差距擴大到24.4個點。SWE-bench Multimodal 最誇張:Mythos 是 Opus 4.6 的兩倍有餘。

推理和學術

基準測試Mythos PreviewOpus 4.6GPT-5.4
GPQA Diamond94.6%
HLE(帶工具)64.7%53.1%
USAMO 202697.6%42.3%

USAMO 2026 是整個數據集裡最炸裂的差距。Opus 4.6 拿了42.3%。Mythos Preview 拿了97.6%。一場競賽數學考試,差了55.3個百分點。HLE——「人類最後考試」——Mythos 不用任何外部工具,「裸考」成績比 Opus 4.6 高出16.8%。

詳細基準分數

智慧體任務

基準測試Mythos PreviewOpus 4.6GPT-5.4
OSWorld(電腦操控)79.6%
BrowseComp(資訊檢索)86.9%

長上下文

基準測試Mythos PreviewOpus 4.6GPT-5.4
GraphWalks(256K-1M tokens)80.0%38.7%21.4%

GraphWalks 測試的是在25.6萬到100萬 token 的超長上下文中做推理。Mythos Preview 得分80.0%,Opus 4.6 是38.7%,GPT-5.4 只有21.4%。相比 GPT-5.4 提升了近4倍。

網路安全

基準測試Mythos PreviewOpus 4.6
CyberGym83.1%66.6%
Cybench(pass@1,10次嘗試)100%

Cybench 的35道 CTF 挑戰,Mythos Preview 每道題10次嘗試全部解出,pass@1 達到100%。CyberGym 定向漏洞復現測試:83.1% vs Opus 4.6 的 66.6%。

基準對比

Boris Cherny 的評價

CC(Claude Code)之父 Boris Cherny 的評價言簡意賅:「Mythos 非常強大,會讓人感到恐懼。」

Anthropic 從2026年2月24日起就已在內部使用 Mythos——比正式發布早了五週多。內部部署期讓他們能在正式環境工作流中驗證模型能力,然後才開放外部存取。

定價和接入方式

Mythos Preview 定價為 Opus 4.6 的5倍

  • 輸入: 每百萬 token $25
  • 輸出: 每百萬 token $125

透過四個平台接入:

  • Claude API(直連)
  • Amazon Bedrock
  • Google Vertex AI
  • Microsoft Foundry

Mythos Preview 不會對所有人開放。限定存取模式反映了模型的能力水準和244頁 System Card 中記錄的風險。

為什麼沒開發布會

這些數字放在任何一家正常公司,都足以大張旗鼓地辦發布會、開放 API、收割訂閱。Anthropic 選擇了靜默發布加限定存取。

原因記錄在 System Card 和紅隊部落格中:Mythos Preview 的網安能力已經跨過了一條肉眼可見的線。它在開源軟體中發現了數千個未知漏洞。它獨立發現並利用了一個存在27年的 OpenBSD 零日漏洞。它在 Firefox 147 的 JavaScript 引擎上實現了250次嘗試181個可用 exploit 的成功率,而 Opus 4.6 只有2個。

完整的網安分析和 System Card 發現將在單獨的文章中詳述。

這意味著什麼

3月的洩露用了「質變」和「輾壓級分數」這樣的詞。4月的數字證明,這些詞如果有什麼問題的話,是說輕了。在每一個維度——程式開發、推理、數學、智慧體任務、長上下文、網路安全——Mythos Preview 都不是比前代好一點點,而是一個完全不同的級別。

問題不再是 Mythos 是不是真的。問題是接下來會發生什麼。

延伸閱讀

Share