Claude Mythos Preview: lanzamiento oficial con todos los benchmarks

En resumen: Anthropic ha lanzado oficialmente Claude Mythos Preview. Cada cifra de benchmark confirma lo que la filtración de marzo insinuaba, y lo supera con creces. SWE-bench Verified: 93.9%. USAMO 2026: 97.6%. La brecha entre Mythos y Opus 4.6 no es incremental. Es generacional. El precio es 5 veces el de Opus 4.6. Acceso restringido a organizaciones aprobadas a través de Claude API, Amazon Bedrock, Vertex AI y Microsoft Foundry.

Los números son reales

Durante dos semanas, el mundo se basó en descripciones cualitativas de un borrador filtrado: “puntuaciones abrumadoramente superiores”, “muy por delante de cualquier otro modelo de IA”. Ahora tenemos los datos reales.

Resumen de benchmarks

Comparación completa de benchmarks:

Programación

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
SWE-bench Verified	93.9%	80.8%	—
SWE-bench Pro	77.8%	53.4%	57.7%
Terminal-Bench 2.0	82.0%	65.4%	—
SWE-bench Multimodal	59.0%	27.1%	—

SWE-bench Verified al 93.9%, una ventaja de 13.1 puntos sobre Opus 4.6. En SWE-bench Pro la brecha se amplía a 24.4 puntos. SWE-bench Multimodal es lo más dramático: Mythos más que duplica la puntuación de Opus 4.6.

Razonamiento y académico

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
GPQA Diamond	94.6%	—	—
HLE (con herramientas)	64.7%	53.1%	—
USAMO 2026	97.6%	42.3%	—

USAMO 2026 es la brecha más impactante del conjunto de datos. Opus 4.6 obtuvo 42.3%. Mythos Preview obtuvo 97.6%. Un examen de matemáticas de competición con 55.3 puntos de diferencia. En HLE — “El último examen de la humanidad” — Mythos sin herramientas externas superó a Opus 4.6 en 16.8%.

Puntuaciones detalladas

Tareas de agente

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
OSWorld (control de PC)	79.6%	—	—
BrowseComp (búsqueda de info)	86.9%	—	—

Contexto largo

Benchmark	Mythos Preview	Opus 4.6	GPT-5.4
GraphWalks (256K-1M tokens)	80.0%	38.7%	21.4%

GraphWalks evalúa razonamiento en contextos ultra-largos de 256K a 1 millón de tokens. Mythos Preview 80.0%, Opus 4.6 38.7%, GPT-5.4 solo 21.4%. Casi 4 veces mejor que GPT-5.4.

Ciberseguridad

Benchmark	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
Cybench (pass@1, 10 intentos)	100%	—

En los 35 desafíos CTF de Cybench, Mythos Preview resolvió todos con 10 intentos por desafío, pass@1 del 100%. CyberGym reproducción de vulnerabilidades: 83.1% vs 66.6% de Opus 4.6.

Comparación de benchmarks

La valoración de Boris Cherny

Boris Cherny, creador de CC (Claude Code), fue conciso: “Mythos es muy poderoso y debería asustar.”

Anthropic venía usando Mythos internamente desde el 24 de febrero de 2026, más de cinco semanas antes del lanzamiento oficial. El período de despliegue interno les permitió validar las capacidades del modelo en flujos de trabajo de producción antes de abrir el acceso externo.

Precios y acceso

Mythos Preview tiene un precio de 5 veces el de Opus 4.6:

Entrada: $25 por millón de tokens
Salida: $125 por millón de tokens

Acceso a través de cuatro plataformas:

Claude API (directo)
Amazon Bedrock
Google Vertex AI
Microsoft Foundry

Mythos Preview no estará disponible para todos. El modelo de acceso restringido refleja tanto las capacidades del modelo como los riesgos documentados en la System Card de 244 páginas.

Por qué no hubo evento de lanzamiento

Estos números justificarían un gran lanzamiento de producto en cualquier otra empresa. Anthropic eligió un lanzamiento silencioso con acceso restringido.

La razón está documentada en la System Card y el blog del red team: las capacidades de ciberseguridad de Mythos Preview han cruzado un umbral visible. Descubrió miles de vulnerabilidades desconocidas en software de código abierto. Descubrió y explotó de forma independiente un zero-day de 27 años en OpenBSD. Logró 181 exploits funcionales en 250 intentos en el motor JavaScript de Firefox 147, mientras que Opus 4.6 solo consiguió 2.

El análisis completo de ciberseguridad y los hallazgos de la System Card se cubren en artículos separados.

Qué significa esto

La filtración de marzo usó palabras como “cambio cualitativo” y “puntuaciones abrumadoras”. Los números de abril demuestran que esas palabras se quedaron cortas. En cada dimensión — programación, razonamiento, matemáticas, tareas de agente, contexto largo, ciberseguridad — Mythos Preview no es marginalmente mejor que sus predecesores. Es categóricamente diferente.

La pregunta ya no es si Mythos es real. La pregunta es qué viene después.

Lecturas relacionadas

Tres vulnerabilidades históricas — Cómo Mythos encontró bugs que sobrevivieron 27 años de revisión humana
System Card de 244 páginas — Hallazgos sobre engaño, autoconciencia y Project Glasswing
Comparación de modelos — Actualizado con datos oficiales
Impacto en seguridad — Casos de estudio actualizados