Claude Mythos vs Opus 4.6 : ce que montrent les benchmarks fuités

En bref : Claude Mythos n’est pas un meilleur Opus — c’est un palier entièrement différent. Les documents internes fuités montrent que Mythos « surpasse significativement Opus 4.6 sur tous les benchmarks principaux », notamment en programmation, raisonnement et cybersécurité. Mais les documents utilisent un langage qualitatif, pas de chiffres. Voici ce qui est confirmé, ce qui reste spéculatif, et ce que l’écart entre les deux modèles signifie pour différents utilisateurs.

Des paliers différents, pas des versions différentes

L’idée reçue la plus répandue : croire que Claude Mythos est Opus 4.7. Ce n’est pas le cas. Mythos appartient à Capybara, un palier entièrement nouveau.

La gamme complète : Haiku, Sonnet, Opus, Capybara. Chaque palier est une classe de performance distincte.

Le brouillon fuité dit textuellement : Capybara est « plus grand et plus intelligent que nos modèles Opus — qui étaient jusqu’ici nos plus puissants ».

Comparaison par dimension

Programmation : « Scores spectaculairement plus élevés. » ✅ Confirmé (qualitatif)

Raisonnement : Idem. ✅ Confirmé (qualitatif)

Cybersécurité : L’écart le plus large. « Très en avance sur tout autre modèle d’IA. » La chaîne d’attaque de 90 minutes avec un zero-day de 20 ans dans le noyau Linux en est la preuve la plus concrète. ✅ Confirmé (qualitatif)

Latence : Opus 4.6 a un TTFT d’environ 1,2 s. Mythos non divulgué. Étant « plus grand », une latence plus élevée est prévisible. ⚠️ Spéculatif

Fenêtre de contexte : Opus 4.6 dépasse 1 million de tokens. Rien sur Mythos. ⚠️ Spéculatif

Coût : « Très coûteux à faire fonctionner. » Bien au-dessus d’Opus. ⚠️ Spéculatif (pas de données, mais l’expression est confirmée)

Ce que « saut qualitatif » signifie vraiment

Les documents internes emploient « step change » (saut qualitatif) de façon répétée. Choix délibéré. En contexte technique, step change désigne un saut discret d’un niveau à un autre, pas une pente progressive.

Mythos « surpasse significativement Opus 4.6 sur tous les benchmarks principaux ». Pas certains — tous. Et « significativement ».

L’absence de chiffres précis est presque certainement intentionnelle.

Confirmé vs non confirmé

Confirmé : ✅ Claude Mythos est un modèle réel. ✅ Capybara est un nouveau palier au-dessus d’Opus. ✅ Accès prioritaire pour les défenseurs cyber. ✅ Décrit en interne comme « de loin le modèle le plus puissant jamais développé ».

Non confirmé : ⚠️ Scores de benchmark et pourcentages d’amélioration. ⚠️ Latence et vitesse d’inférence. ⚠️ Taille de fenêtre de contexte. ⚠️ Prix API et calendrier.

Ce que cela signifie pour les utilisateurs

Développeurs : Potentiellement transformateur pour les problèmes de programmation difficiles où Opus atteint ses limites. Mais probablement cher et restreint au départ.

Entreprises : Le cas d’usage le plus direct est la cybersécurité défensive.

Marché général : Mythos met la pression compétitive sur tous les laboratoires d’IA. Si Capybara performe comme décrit, l’écart entre Anthropic et ses concurrents pourrait s’élargir avant de se réduire.

Pour aller plus loin

Comparatif des modèles — Comparaison fonctionnelle
Qu’est-ce que Claude Mythos ? — Le modèle et le palier Capybara
Claude Mythos et la panique cyber — Capacités et impact marché