Claude Mythos vs Opus 4.6: lo que muestran los benchmarks filtrados

En resumen: Claude Mythos no es un Opus mejorado — es un nivel completamente distinto. Los documentos internos filtrados muestran que Mythos «supera significativamente a Opus 4.6 en todos los benchmarks principales», con dominio particular en programación, razonamiento y ciberseguridad. Pero los documentos usan lenguaje cualitativo, no cifras. Esto es lo que podemos confirmar, lo que sigue siendo especulación y lo que la brecha entre ambos modelos significa para distintos usuarios.

Niveles distintos, no versiones distintas

El malentendido más común: creer que Claude Mythos es Opus 4.7. No lo es. Mythos pertenece a Capybara, un nivel completamente nuevo en la jerarquía de Anthropic.

La gama completa: Haiku, Sonnet, Opus, Capybara. Cada nivel es una clase de rendimiento distinta, no una versión dentro de la misma clase.

El borrador filtrado dice textualmente: Capybara es «más grande y más inteligente que nuestros modelos Opus — que hasta ahora eran los más potentes».

Comparación por dimensiones

Programación: «Puntuaciones drásticamente superiores.» Sin cifras, pero inequívoco. ✅ Confirmado (cualitativo)

Razonamiento: Mismo patrón. ✅ Confirmado (cualitativo)

Ciberseguridad: Donde la brecha parece mayor. «Muy por delante de cualquier otro modelo de IA.» La cadena de ataque de 90 minutos con un zero-day de 20 años en el kernel Linux es la evidencia más concreta. ✅ Confirmado (cualitativo)

Latencia: Opus 4.6 tiene un TTFT de ~1,2 s. Mythos no revelado. Al ser «más grande», cabe esperar mayor latencia. ⚠️ Especulación

Ventana de contexto: Opus 4.6 supera el millón de tokens. Sin mención para Mythos. ⚠️ Especulación

Coste: «Muy costoso de operar.» Precios muy por encima de Opus. ⚠️ Especulación (sin datos, pero la expresión está confirmada)

Qué significa «salto cualitativo»

Los documentos internos repiten «step change» (salto cualitativo). No es casual. En contexto técnico, step change significa un salto discreto de un nivel a otro, no una pendiente gradual.

También dicen que Mythos «supera significativamente a Opus 4.6 en todos los benchmarks principales». No algunos — todos. Y «significativamente», no «ligeramente».

La ausencia de cifras exactas es casi con certeza deliberada. Anthropic usa lenguaje descriptivo en vez de cuantitativo.

Confirmado vs sin confirmar

Confirmado: ✅ Claude Mythos es un modelo real. ✅ Capybara es un nivel nuevo por encima de Opus. ✅ Acceso prioritario para defensores cibernéticos. ✅ Internamente: «con diferencia el modelo de IA más potente que hemos desarrollado.»

Sin confirmar: ⚠️ Puntuaciones de benchmark y porcentajes de mejora. ⚠️ Latencia y velocidad de inferencia. ⚠️ Tamaño de ventana de contexto. ⚠️ Precio de API y calendario. ⚠️ Si Capybara tendrá varios modelos.

Qué significa para los usuarios

Desarrolladores: Para problemas difíciles de programación donde Opus ya supera a la competencia pero toca techo, Mythos podría ser transformador. Pero será caro y restringido al inicio.

Empresas: El caso de uso más directo es la ciberseguridad defensiva. Encontrar vulnerabilidades antes que los atacantes es la propuesta de valor.

Mercado general: Mythos pone presión competitiva sobre todos los laboratorios de IA. Si Capybara rinde como describen los documentos, la brecha entre Anthropic y sus competidores podría ampliarse antes de estrecharse.

Lectura adicional

Comparativa de modelos — Comparación funcional por dimensiones
¿Qué es Claude Mythos? — Explicación del modelo y el nivel Capybara
Claude Mythos y el pánico cibernético — Capacidades y el impacto en el mercado