Claude Mythos vs Opus 4.6 : ce que montrent les benchmarks fuités
Comparaison côte à côte de Claude Mythos et Opus 4.6 basée sur les documents fuités — ce qui est confirmé, ce qui est spéculatif, et ce que cela signifie.
En bref : Claude Mythos n’est pas un meilleur Opus — c’est un palier entièrement différent. Les documents internes fuités montrent que Mythos « surpasse significativement Opus 4.6 sur tous les benchmarks principaux », notamment en programmation, raisonnement et cybersécurité. Mais les documents utilisent un langage qualitatif, pas de chiffres. Voici ce qui est confirmé, ce qui reste spéculatif, et ce que l’écart entre les deux modèles signifie pour différents utilisateurs.
Des paliers différents, pas des versions différentes
L’idée reçue la plus répandue : croire que Claude Mythos est Opus 4.7. Ce n’est pas le cas. Mythos appartient à Capybara, un palier entièrement nouveau.
La gamme complète : Haiku, Sonnet, Opus, Capybara. Chaque palier est une classe de performance distincte.
Le brouillon fuité dit textuellement : Capybara est « plus grand et plus intelligent que nos modèles Opus — qui étaient jusqu’ici nos plus puissants ».
Comparaison par dimension
Programmation : « Scores spectaculairement plus élevés. » ✅ Confirmé (qualitatif)
Raisonnement : Idem. ✅ Confirmé (qualitatif)
Cybersécurité : L’écart le plus large. « Très en avance sur tout autre modèle d’IA. » La chaîne d’attaque de 90 minutes avec un zero-day de 20 ans dans le noyau Linux en est la preuve la plus concrète. ✅ Confirmé (qualitatif)
Latence : Opus 4.6 a un TTFT d’environ 1,2 s. Mythos non divulgué. Étant « plus grand », une latence plus élevée est prévisible. ⚠️ Spéculatif
Fenêtre de contexte : Opus 4.6 dépasse 1 million de tokens. Rien sur Mythos. ⚠️ Spéculatif
Coût : « Très coûteux à faire fonctionner. » Bien au-dessus d’Opus. ⚠️ Spéculatif (pas de données, mais l’expression est confirmée)
Ce que « saut qualitatif » signifie vraiment
Les documents internes emploient « step change » (saut qualitatif) de façon répétée. Choix délibéré. En contexte technique, step change désigne un saut discret d’un niveau à un autre, pas une pente progressive.
Mythos « surpasse significativement Opus 4.6 sur tous les benchmarks principaux ». Pas certains — tous. Et « significativement ».
L’absence de chiffres précis est presque certainement intentionnelle.
Confirmé vs non confirmé
Confirmé : ✅ Claude Mythos est un modèle réel. ✅ Capybara est un nouveau palier au-dessus d’Opus. ✅ Accès prioritaire pour les défenseurs cyber. ✅ Décrit en interne comme « de loin le modèle le plus puissant jamais développé ».
Non confirmé : ⚠️ Scores de benchmark et pourcentages d’amélioration. ⚠️ Latence et vitesse d’inférence. ⚠️ Taille de fenêtre de contexte. ⚠️ Prix API et calendrier.
Ce que cela signifie pour les utilisateurs
Développeurs : Potentiellement transformateur pour les problèmes de programmation difficiles où Opus atteint ses limites. Mais probablement cher et restreint au départ.
Entreprises : Le cas d’usage le plus direct est la cybersécurité défensive.
Marché général : Mythos met la pression compétitive sur tous les laboratoires d’IA. Si Capybara performe comme décrit, l’écart entre Anthropic et ses concurrents pourrait s’élargir avant de se réduire.
Pour aller plus loin
- Comparatif des modèles — Comparaison fonctionnelle
- Qu’est-ce que Claude Mythos ? — Le modèle et le palier Capybara
- Claude Mythos et la panique cyber — Capacités et impact marché