Claude Mythos vs Opus 4.6: lo que muestran los benchmarks filtrados
Comparación lado a lado de Claude Mythos y Opus 4.6 basada en documentos filtrados — qué está confirmado, qué es especulación y qué significa para el mercado de IA.
En resumen: Claude Mythos no es un Opus mejorado — es un nivel completamente distinto. Los documentos internos filtrados muestran que Mythos «supera significativamente a Opus 4.6 en todos los benchmarks principales», con dominio particular en programación, razonamiento y ciberseguridad. Pero los documentos usan lenguaje cualitativo, no cifras. Esto es lo que podemos confirmar, lo que sigue siendo especulación y lo que la brecha entre ambos modelos significa para distintos usuarios.
Niveles distintos, no versiones distintas
El malentendido más común: creer que Claude Mythos es Opus 4.7. No lo es. Mythos pertenece a Capybara, un nivel completamente nuevo en la jerarquía de Anthropic.
La gama completa: Haiku, Sonnet, Opus, Capybara. Cada nivel es una clase de rendimiento distinta, no una versión dentro de la misma clase.
El borrador filtrado dice textualmente: Capybara es «más grande y más inteligente que nuestros modelos Opus — que hasta ahora eran los más potentes».
Comparación por dimensiones
Programación: «Puntuaciones drásticamente superiores.» Sin cifras, pero inequívoco. ✅ Confirmado (cualitativo)
Razonamiento: Mismo patrón. ✅ Confirmado (cualitativo)
Ciberseguridad: Donde la brecha parece mayor. «Muy por delante de cualquier otro modelo de IA.» La cadena de ataque de 90 minutos con un zero-day de 20 años en el kernel Linux es la evidencia más concreta. ✅ Confirmado (cualitativo)
Latencia: Opus 4.6 tiene un TTFT de ~1,2 s. Mythos no revelado. Al ser «más grande», cabe esperar mayor latencia. ⚠️ Especulación
Ventana de contexto: Opus 4.6 supera el millón de tokens. Sin mención para Mythos. ⚠️ Especulación
Coste: «Muy costoso de operar.» Precios muy por encima de Opus. ⚠️ Especulación (sin datos, pero la expresión está confirmada)
Qué significa «salto cualitativo»
Los documentos internos repiten «step change» (salto cualitativo). No es casual. En contexto técnico, step change significa un salto discreto de un nivel a otro, no una pendiente gradual.
También dicen que Mythos «supera significativamente a Opus 4.6 en todos los benchmarks principales». No algunos — todos. Y «significativamente», no «ligeramente».
La ausencia de cifras exactas es casi con certeza deliberada. Anthropic usa lenguaje descriptivo en vez de cuantitativo.
Confirmado vs sin confirmar
Confirmado: ✅ Claude Mythos es un modelo real. ✅ Capybara es un nivel nuevo por encima de Opus. ✅ Acceso prioritario para defensores cibernéticos. ✅ Internamente: «con diferencia el modelo de IA más potente que hemos desarrollado.»
Sin confirmar: ⚠️ Puntuaciones de benchmark y porcentajes de mejora. ⚠️ Latencia y velocidad de inferencia. ⚠️ Tamaño de ventana de contexto. ⚠️ Precio de API y calendario. ⚠️ Si Capybara tendrá varios modelos.
Qué significa para los usuarios
Desarrolladores: Para problemas difíciles de programación donde Opus ya supera a la competencia pero toca techo, Mythos podría ser transformador. Pero será caro y restringido al inicio.
Empresas: El caso de uso más directo es la ciberseguridad defensiva. Encontrar vulnerabilidades antes que los atacantes es la propuesta de valor.
Mercado general: Mythos pone presión competitiva sobre todos los laboratorios de IA. Si Capybara rinde como describen los documentos, la brecha entre Anthropic y sus competidores podría ampliarse antes de estrecharse.
Lectura adicional
- Comparativa de modelos — Comparación funcional por dimensiones
- ¿Qué es Claude Mythos? — Explicación del modelo y el nivel Capybara
- Claude Mythos y el pánico cibernético — Capacidades y el impacto en el mercado