Claude Mythos
arrow_back Blog

Claude Mythos Preview: lanzamiento oficial con todos los benchmarks

Anthropic lanza Mythos Preview con acceso restringido. SWE-bench 93.9%, USAMO 97.6%, dominio total en los principales benchmarks.

Publicado el 8 de abril de 2026 · Claude Mythos
Claude Mythos Benchmarks Lanzamiento oficial Mythos Preview

En resumen: Anthropic ha lanzado oficialmente Claude Mythos Preview. Cada cifra de benchmark confirma lo que la filtración de marzo insinuaba, y lo supera con creces. SWE-bench Verified: 93.9%. USAMO 2026: 97.6%. La brecha entre Mythos y Opus 4.6 no es incremental. Es generacional. El precio es 5 veces el de Opus 4.6. Acceso restringido a organizaciones aprobadas a través de Claude API, Amazon Bedrock, Vertex AI y Microsoft Foundry.

Los números son reales

Durante dos semanas, el mundo se basó en descripciones cualitativas de un borrador filtrado: “puntuaciones abrumadoramente superiores”, “muy por delante de cualquier otro modelo de IA”. Ahora tenemos los datos reales.

Resumen de benchmarks

Comparación completa de benchmarks:

Programación

BenchmarkMythos PreviewOpus 4.6GPT-5.4
SWE-bench Verified93.9%80.8%
SWE-bench Pro77.8%53.4%57.7%
Terminal-Bench 2.082.0%65.4%
SWE-bench Multimodal59.0%27.1%

SWE-bench Verified al 93.9%, una ventaja de 13.1 puntos sobre Opus 4.6. En SWE-bench Pro la brecha se amplía a 24.4 puntos. SWE-bench Multimodal es lo más dramático: Mythos más que duplica la puntuación de Opus 4.6.

Razonamiento y académico

BenchmarkMythos PreviewOpus 4.6GPT-5.4
GPQA Diamond94.6%
HLE (con herramientas)64.7%53.1%
USAMO 202697.6%42.3%

USAMO 2026 es la brecha más impactante del conjunto de datos. Opus 4.6 obtuvo 42.3%. Mythos Preview obtuvo 97.6%. Un examen de matemáticas de competición con 55.3 puntos de diferencia. En HLE — “El último examen de la humanidad” — Mythos sin herramientas externas superó a Opus 4.6 en 16.8%.

Puntuaciones detalladas

Tareas de agente

BenchmarkMythos PreviewOpus 4.6GPT-5.4
OSWorld (control de PC)79.6%
BrowseComp (búsqueda de info)86.9%

Contexto largo

BenchmarkMythos PreviewOpus 4.6GPT-5.4
GraphWalks (256K-1M tokens)80.0%38.7%21.4%

GraphWalks evalúa razonamiento en contextos ultra-largos de 256K a 1 millón de tokens. Mythos Preview 80.0%, Opus 4.6 38.7%, GPT-5.4 solo 21.4%. Casi 4 veces mejor que GPT-5.4.

Ciberseguridad

BenchmarkMythos PreviewOpus 4.6
CyberGym83.1%66.6%
Cybench (pass@1, 10 intentos)100%

En los 35 desafíos CTF de Cybench, Mythos Preview resolvió todos con 10 intentos por desafío, pass@1 del 100%. CyberGym reproducción de vulnerabilidades: 83.1% vs 66.6% de Opus 4.6.

Comparación de benchmarks

La valoración de Boris Cherny

Boris Cherny, creador de CC (Claude Code), fue conciso: “Mythos es muy poderoso y debería asustar.”

Anthropic venía usando Mythos internamente desde el 24 de febrero de 2026, más de cinco semanas antes del lanzamiento oficial. El período de despliegue interno les permitió validar las capacidades del modelo en flujos de trabajo de producción antes de abrir el acceso externo.

Precios y acceso

Mythos Preview tiene un precio de 5 veces el de Opus 4.6:

  • Entrada: $25 por millón de tokens
  • Salida: $125 por millón de tokens

Acceso a través de cuatro plataformas:

  • Claude API (directo)
  • Amazon Bedrock
  • Google Vertex AI
  • Microsoft Foundry

Mythos Preview no estará disponible para todos. El modelo de acceso restringido refleja tanto las capacidades del modelo como los riesgos documentados en la System Card de 244 páginas.

Por qué no hubo evento de lanzamiento

Estos números justificarían un gran lanzamiento de producto en cualquier otra empresa. Anthropic eligió un lanzamiento silencioso con acceso restringido.

La razón está documentada en la System Card y el blog del red team: las capacidades de ciberseguridad de Mythos Preview han cruzado un umbral visible. Descubrió miles de vulnerabilidades desconocidas en software de código abierto. Descubrió y explotó de forma independiente un zero-day de 27 años en OpenBSD. Logró 181 exploits funcionales en 250 intentos en el motor JavaScript de Firefox 147, mientras que Opus 4.6 solo consiguió 2.

El análisis completo de ciberseguridad y los hallazgos de la System Card se cubren en artículos separados.

Qué significa esto

La filtración de marzo usó palabras como “cambio cualitativo” y “puntuaciones abrumadoras”. Los números de abril demuestran que esas palabras se quedaron cortas. En cada dimensión — programación, razonamiento, matemáticas, tareas de agente, contexto largo, ciberseguridad — Mythos Preview no es marginalmente mejor que sus predecesores. Es categóricamente diferente.

La pregunta ya no es si Mythos es real. La pregunta es qué viene después.

Lecturas relacionadas

Share