Claude Mythos
arrow_back Blog

Claude Mythos Preview officiellement lancé : tous les benchmarks

Anthropic lance Mythos Preview en accès restreint. SWE-bench 93.9%, USAMO 97.6%, domination totale sur tous les benchmarks majeurs.

Publié le 8 avril 2026 · Claude Mythos
Claude Mythos Benchmarks Lancement officiel Mythos Preview

En bref : Anthropic a officiellement lancé Claude Mythos Preview. Chaque chiffre de benchmark confirme ce que la fuite de mars laissait entrevoir — et le dépasse largement. SWE-bench Verified : 93.9%. USAMO 2026 : 97.6%. L’écart entre Mythos et Opus 4.6 n’est pas incrémental. C’est un saut générationnel. Le prix est fixé à 5 fois celui d’Opus 4.6. Accès restreint aux organisations approuvées via Claude API, Amazon Bedrock, Vertex AI et Microsoft Foundry.

Les chiffres sont réels

Pendant deux semaines, le monde s’est appuyé sur des descriptions qualitatives d’un brouillon ayant fuité : « scores écrasants », « loin devant tout autre modèle d’IA ». Maintenant, nous avons les données réelles.

Aperçu des benchmarks

Comparaison complète des benchmarks :

Programmation

BenchmarkMythos PreviewOpus 4.6GPT-5.4
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%57.7%
Terminal-Bench 2.082.0%65.4%
SWE-bench Multimodal59.0%27.1%

SWE-bench Verified à 93.9%, 13.1 points d’avance sur Opus 4.6. Sur SWE-bench Pro, l’écart s’élargit à 24.4 points. SWE-bench Multimodal est le plus spectaculaire : Mythos fait plus du double d’Opus 4.6.

Raisonnement et académique

BenchmarkMythos PreviewOpus 4.6GPT-5.4
GPQA Diamond94.6%
HLE (avec outils)64.7%53.1%
USAMO 202697.6%42.3%

USAMO 2026 présente l’écart le plus frappant de l’ensemble des données. Opus 4.6 : 42.3%. Mythos Preview : 97.6%. Un examen de mathématiques de compétition, 55.3 points d’écart. Sur HLE — « Le dernier examen de l’humanité » — Mythos sans aucun outil externe dépasse Opus 4.6 de 16.8%.

Scores détaillés

Tâches d’agent

BenchmarkMythos PreviewOpus 4.6GPT-5.4
OSWorld (contrôle PC)79.6%
BrowseComp (recherche d’info)86.9%

Contexte long

BenchmarkMythos PreviewOpus 4.6GPT-5.4
GraphWalks (256K-1M tokens)80.0%38.7%21.4%

GraphWalks teste le raisonnement sur des contextes ultra-longs de 256K à 1 million de tokens. Mythos Preview : 80.0%, Opus 4.6 : 38.7%, GPT-5.4 : seulement 21.4%. Près de 4 fois mieux que GPT-5.4.

Cybersécurité

BenchmarkMythos PreviewOpus 4.6
CyberGym83.1%66.6%
Cybench (pass@1, 10 essais)100%

Sur les 35 défis CTF de Cybench, Mythos Preview a résolu chacun avec 10 essais, pass@1 de 100%. CyberGym reproduction de vulnérabilités : 83.1% vs 66.6% pour Opus 4.6.

Comparaison des benchmarks

L’évaluation de Boris Cherny

Boris Cherny, créateur de CC (Claude Code), a été concis : « Mythos est très puissant et devrait faire peur. »

Anthropic utilisait Mythos en interne depuis le 24 février 2026 — plus de cinq semaines avant le lancement officiel. Cette période de déploiement interne leur a permis de valider les capacités du modèle dans des workflows de production avant d’ouvrir l’accès externe.

Tarification et accès

Mythos Preview est tarifé à 5 fois le prix d’Opus 4.6 :

  • Entrée : $25 par million de tokens
  • Sortie : $125 par million de tokens

Accès via quatre plateformes :

  • Claude API (direct)
  • Amazon Bedrock
  • Google Vertex AI
  • Microsoft Foundry

Mythos Preview ne sera pas accessible à tous. Le modèle d’accès restreint reflète à la fois les capacités du modèle et les risques documentés dans la System Card de 244 pages.

Pourquoi pas d’événement de lancement

Ces chiffres justifieraient un lancement produit majeur dans n’importe quelle autre entreprise. Anthropic a choisi un lancement discret avec accès restreint.

La raison est documentée dans la System Card et le blog du red team : les capacités de cybersécurité de Mythos Preview ont franchi un seuil visible. Il a découvert des milliers de vulnérabilités inconnues dans des logiciels open source. Il a indépendamment découvert et exploité un zero-day de 27 ans dans OpenBSD. Il a réalisé 181 exploits fonctionnels sur 250 tentatives sur le moteur JavaScript de Firefox 147, contre seulement 2 pour Opus 4.6.

L’analyse complète de cybersécurité et les découvertes de la System Card sont couvertes dans des articles séparés.

Ce que cela signifie

La fuite de mars utilisait des mots comme « changement qualitatif » et « scores écrasants ». Les chiffres d’avril prouvent que ces mots étaient, si quoi que ce soit, en dessous de la réalité. Dans chaque dimension — programmation, raisonnement, mathématiques, tâches d’agent, contexte long, cybersécurité — Mythos Preview n’est pas marginalement meilleur que ses prédécesseurs. Il est catégoriquement différent.

La question n’est plus de savoir si Mythos est réel. La question est ce qui vient ensuite.

Lectures associées

Share