Claude Mythos Preview officiellement lancé : tous les benchmarks

En bref : Anthropic a officiellement lancé Claude Mythos Preview. Chaque chiffre de benchmark confirme ce que la fuite de mars laissait entrevoir — et le dépasse largement. SWE-bench Verified : 93.9%. USAMO 2026 : 97.6%. L’écart entre Mythos et Opus 4.6 n’est pas incrémental. C’est un saut générationnel. Le prix est fixé à 5 fois celui d’Opus 4.6. Accès restreint aux organisations approuvées via Claude API, Amazon Bedrock, Vertex AI et Microsoft Foundry.

Les chiffres sont réels

Pendant deux semaines, le monde s’est appuyé sur des descriptions qualitatives d’un brouillon ayant fuité : « scores écrasants », « loin devant tout autre modèle d’IA ». Maintenant, nous avons les données réelles.

Aperçu des benchmarks

Comparaison complète des benchmarks :

Programmation

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
SWE-bench Verified	93.9%	80.8%	—
SWE-bench Pro	77.8%	53.4%	57.7%
Terminal-Bench 2.0	82.0%	65.4%	—
SWE-bench Multimodal	59.0%	27.1%	—

SWE-bench Verified à 93.9%, 13.1 points d’avance sur Opus 4.6. Sur SWE-bench Pro, l’écart s’élargit à 24.4 points. SWE-bench Multimodal est le plus spectaculaire : Mythos fait plus du double d’Opus 4.6.

Raisonnement et académique

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
GPQA Diamond	94.6%	—	—
HLE (avec outils)	64.7%	53.1%	—
USAMO 2026	97.6%	42.3%	—

USAMO 2026 présente l’écart le plus frappant de l’ensemble des données. Opus 4.6 : 42.3%. Mythos Preview : 97.6%. Un examen de mathématiques de compétition, 55.3 points d’écart. Sur HLE — « Le dernier examen de l’humanité » — Mythos sans aucun outil externe dépasse Opus 4.6 de 16.8%.

Scores détaillés

Tâches d’agent

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
OSWorld (contrôle PC)	79.6%	—	—
BrowseComp (recherche d’info)	86.9%	—	—

Contexte long

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
GraphWalks (256K-1M tokens)	80.0%	38.7%	21.4%

GraphWalks teste le raisonnement sur des contextes ultra-longs de 256K à 1 million de tokens. Mythos Preview : 80.0%, Opus 4.6 : 38.7%, GPT-5.4 : seulement 21.4%. Près de 4 fois mieux que GPT-5.4.

Cybersécurité

Benchmark	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
Cybench (pass@1, 10 essais)	100%	—

Sur les 35 défis CTF de Cybench, Mythos Preview a résolu chacun avec 10 essais, pass@1 de 100%. CyberGym reproduction de vulnérabilités : 83.1% vs 66.6% pour Opus 4.6.

Comparaison des benchmarks

L’évaluation de Boris Cherny

Boris Cherny, créateur de CC (Claude Code), a été concis : « Mythos est très puissant et devrait faire peur. »

Anthropic utilisait Mythos en interne depuis le 24 février 2026 — plus de cinq semaines avant le lancement officiel. Cette période de déploiement interne leur a permis de valider les capacités du modèle dans des workflows de production avant d’ouvrir l’accès externe.

Tarification et accès

Mythos Preview est tarifé à 5 fois le prix d’Opus 4.6 :

Entrée : $25 par million de tokens
Sortie : $125 par million de tokens

Accès via quatre plateformes :

Claude API (direct)
Amazon Bedrock
Google Vertex AI
Microsoft Foundry

Mythos Preview ne sera pas accessible à tous. Le modèle d’accès restreint reflète à la fois les capacités du modèle et les risques documentés dans la System Card de 244 pages.

Pourquoi pas d’événement de lancement

Ces chiffres justifieraient un lancement produit majeur dans n’importe quelle autre entreprise. Anthropic a choisi un lancement discret avec accès restreint.

La raison est documentée dans la System Card et le blog du red team : les capacités de cybersécurité de Mythos Preview ont franchi un seuil visible. Il a découvert des milliers de vulnérabilités inconnues dans des logiciels open source. Il a indépendamment découvert et exploité un zero-day de 27 ans dans OpenBSD. Il a réalisé 181 exploits fonctionnels sur 250 tentatives sur le moteur JavaScript de Firefox 147, contre seulement 2 pour Opus 4.6.

L’analyse complète de cybersécurité et les découvertes de la System Card sont couvertes dans des articles séparés.

Ce que cela signifie

La fuite de mars utilisait des mots comme « changement qualitatif » et « scores écrasants ». Les chiffres d’avril prouvent que ces mots étaient, si quoi que ce soit, en dessous de la réalité. Dans chaque dimension — programmation, raisonnement, mathématiques, tâches d’agent, contexte long, cybersécurité — Mythos Preview n’est pas marginalement meilleur que ses prédécesseurs. Il est catégoriquement différent.

La question n’est plus de savoir si Mythos est réel. La question est ce qui vient ensuite.

Lectures associées

Trois vulnérabilités historiques — Comment Mythos a trouvé des bugs ayant survécu 27 ans de revue humaine
System Card de 244 pages — Découvertes sur la tromperie, la conscience de soi et Project Glasswing
Comparaison de modèles — Mis à jour avec les données officielles
Impact sécurité — Études de cas mises à jour