Claude Mythos Preview officiellement lancé : tous les benchmarks
Anthropic lance Mythos Preview en accès restreint. SWE-bench 93.9%, USAMO 97.6%, domination totale sur tous les benchmarks majeurs.
En bref : Anthropic a officiellement lancé Claude Mythos Preview. Chaque chiffre de benchmark confirme ce que la fuite de mars laissait entrevoir — et le dépasse largement. SWE-bench Verified : 93.9%. USAMO 2026 : 97.6%. L’écart entre Mythos et Opus 4.6 n’est pas incrémental. C’est un saut générationnel. Le prix est fixé à 5 fois celui d’Opus 4.6. Accès restreint aux organisations approuvées via Claude API, Amazon Bedrock, Vertex AI et Microsoft Foundry.
Les chiffres sont réels
Pendant deux semaines, le monde s’est appuyé sur des descriptions qualitatives d’un brouillon ayant fuité : « scores écrasants », « loin devant tout autre modèle d’IA ». Maintenant, nous avons les données réelles.

Comparaison complète des benchmarks :
Programmation
| Benchmark | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | — |
| SWE-bench Pro | 77.8% | 53.4% | 57.7% |
| Terminal-Bench 2.0 | 82.0% | 65.4% | — |
| SWE-bench Multimodal | 59.0% | 27.1% | — |
SWE-bench Verified à 93.9%, 13.1 points d’avance sur Opus 4.6. Sur SWE-bench Pro, l’écart s’élargit à 24.4 points. SWE-bench Multimodal est le plus spectaculaire : Mythos fait plus du double d’Opus 4.6.
Raisonnement et académique
| Benchmark | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GPQA Diamond | 94.6% | — | — |
| HLE (avec outils) | 64.7% | 53.1% | — |
| USAMO 2026 | 97.6% | 42.3% | — |
USAMO 2026 présente l’écart le plus frappant de l’ensemble des données. Opus 4.6 : 42.3%. Mythos Preview : 97.6%. Un examen de mathématiques de compétition, 55.3 points d’écart. Sur HLE — « Le dernier examen de l’humanité » — Mythos sans aucun outil externe dépasse Opus 4.6 de 16.8%.

Tâches d’agent
| Benchmark | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| OSWorld (contrôle PC) | 79.6% | — | — |
| BrowseComp (recherche d’info) | 86.9% | — | — |
Contexte long
| Benchmark | Mythos Preview | Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| GraphWalks (256K-1M tokens) | 80.0% | 38.7% | 21.4% |
GraphWalks teste le raisonnement sur des contextes ultra-longs de 256K à 1 million de tokens. Mythos Preview : 80.0%, Opus 4.6 : 38.7%, GPT-5.4 : seulement 21.4%. Près de 4 fois mieux que GPT-5.4.
Cybersécurité
| Benchmark | Mythos Preview | Opus 4.6 |
|---|---|---|
| CyberGym | 83.1% | 66.6% |
| Cybench (pass@1, 10 essais) | 100% | — |
Sur les 35 défis CTF de Cybench, Mythos Preview a résolu chacun avec 10 essais, pass@1 de 100%. CyberGym reproduction de vulnérabilités : 83.1% vs 66.6% pour Opus 4.6.

L’évaluation de Boris Cherny
Boris Cherny, créateur de CC (Claude Code), a été concis : « Mythos est très puissant et devrait faire peur. »
Anthropic utilisait Mythos en interne depuis le 24 février 2026 — plus de cinq semaines avant le lancement officiel. Cette période de déploiement interne leur a permis de valider les capacités du modèle dans des workflows de production avant d’ouvrir l’accès externe.
Tarification et accès
Mythos Preview est tarifé à 5 fois le prix d’Opus 4.6 :
- Entrée : $25 par million de tokens
- Sortie : $125 par million de tokens
Accès via quatre plateformes :
- Claude API (direct)
- Amazon Bedrock
- Google Vertex AI
- Microsoft Foundry
Mythos Preview ne sera pas accessible à tous. Le modèle d’accès restreint reflète à la fois les capacités du modèle et les risques documentés dans la System Card de 244 pages.
Pourquoi pas d’événement de lancement
Ces chiffres justifieraient un lancement produit majeur dans n’importe quelle autre entreprise. Anthropic a choisi un lancement discret avec accès restreint.
La raison est documentée dans la System Card et le blog du red team : les capacités de cybersécurité de Mythos Preview ont franchi un seuil visible. Il a découvert des milliers de vulnérabilités inconnues dans des logiciels open source. Il a indépendamment découvert et exploité un zero-day de 27 ans dans OpenBSD. Il a réalisé 181 exploits fonctionnels sur 250 tentatives sur le moteur JavaScript de Firefox 147, contre seulement 2 pour Opus 4.6.
L’analyse complète de cybersécurité et les découvertes de la System Card sont couvertes dans des articles séparés.
Ce que cela signifie
La fuite de mars utilisait des mots comme « changement qualitatif » et « scores écrasants ». Les chiffres d’avril prouvent que ces mots étaient, si quoi que ce soit, en dessous de la réalité. Dans chaque dimension — programmation, raisonnement, mathématiques, tâches d’agent, contexte long, cybersécurité — Mythos Preview n’est pas marginalement meilleur que ses prédécesseurs. Il est catégoriquement différent.
La question n’est plus de savoir si Mythos est réel. La question est ce qui vient ensuite.
Lectures associées
- Trois vulnérabilités historiques — Comment Mythos a trouvé des bugs ayant survécu 27 ans de revue humaine
- System Card de 244 pages — Découvertes sur la tromperie, la conscience de soi et Project Glasswing
- Comparaison de modèles — Mis à jour avec les données officielles
- Impact sécurité — Études de cas mises à jour