Claude Mythos vs Opus 4.6: Was die geleakten Benchmarks zeigen
Vergleich von Claude Mythos und Opus 4.6 auf Basis geleakter Dokumente — was bestätigt ist, was Spekulation bleibt und was es für die KI-Landschaft bedeutet.
Kurzfassung: Claude Mythos ist kein besseres Opus — es ist eine völlig andere Stufe. Geleakte interne Dokumente zeigen, dass Mythos ‘Opus 4.6 in allen Kern-Benchmarks deutlich übertrifft’, besonders in Programmierung, Reasoning und Cybersicherheit. Aber die Dokumente verwenden qualitative Sprache, keine harten Zahlen. Was bestätigt ist, was Spekulation bleibt und was die Lücke zwischen beiden Modellen für verschiedene Nutzer bedeutet.
Verschiedene Stufen, nicht verschiedene Versionen
Das häufigste Missverständnis: Claude Mythos sei Opus 4.7. Ist es nicht. Mythos gehört zu Capybara — einer völlig neuen Stufe.
Die vollständige Aufstellung: Haiku, Sonnet, Opus, Capybara. Jede Stufe ist eine eigenständige Leistungsklasse.
Wörtlich aus dem geleakten Entwurf: Capybara ist ‘größer und intelligenter als unsere Opus-Modelle — die bis jetzt unsere leistungsfähigsten waren’.
Vergleich nach Dimensionen
Programmierung: ‘Dramatisch höhere Ergebnisse.’ ✅ Bestätigt (qualitativ)
Reasoning: Ebenso. ✅ Bestätigt (qualitativ)
Cybersicherheit: Die größte Lücke. ‘Weit voraus gegenüber jedem anderen KI-Modell.’ Die 90-Minuten-Red-Team-Kette mit einem 20 Jahre alten Linux-Kernel-Zero-Day ist der konkreteste Beleg. ✅ Bestätigt (qualitativ)
Latenz: Opus 4.6 hat eine TTFT von ca. 1,2 s. Mythos nicht offengelegt. Als ‘größer’ beschrieben — höhere Latenz ist zu erwarten. ⚠️ Spekulation
Kontextfenster: Opus 4.6 hat über 1 Million Token. Keine Angabe für Mythos. ⚠️ Spekulation
Kosten: ‘Sehr teuer im Betrieb.’ Deutlich über Opus-Preisen. ⚠️ Spekulation (keine Preisdaten, aber Formulierung bestätigt)
Was ‘qualitativer Sprung’ wirklich bedeutet
Die internen Dokumente verwenden wiederholt ‘step change’. Bewusste Wortwahl. In technischem Kontext bedeutet step change einen diskreten Sprung von einer Ebene zur nächsten, keine graduelle Steigung.
Mythos ‘übertrifft Opus 4.6 deutlich in allen Kern-Benchmarks’. Nicht einige — alle. Und ‘deutlich’.
Das Fehlen präziser Zahlen ist fast sicher beabsichtigt.
Bestätigt vs unbestätigt
Bestätigt: ✅ Claude Mythos ist ein reales Modell. ✅ Capybara ist eine neue Stufe über Opus. ✅ Vorrangiger Zugang für Cyberverteidiger. ✅ Intern: ‘Bei weitem das leistungsfähigste KI-Modell, das wir je entwickelt haben.’
Unbestätigt: ⚠️ Konkrete Benchmark-Scores und Verbesserungsprozentsätze. ⚠️ TTFT und Inferenzgeschwindigkeit. ⚠️ Kontextfenstergröße. ⚠️ API-Preise und Zeitplan.
Was es für Nutzer bedeutet
Entwickler: Potenziell transformativ für harte Programmierprobleme, an denen Opus an Grenzen stößt. Aber voraussichtlich teuer und anfangs eingeschränkt.
Unternehmen: Der direkteste Anwendungsfall ist defensive Cybersicherheit.
Breiterer Markt: Mythos setzt alle KI-Labore unter Wettbewerbsdruck. Wenn Capybara leistet, was die Dokumente beschreiben, könnte sich der Abstand zwischen Anthropic und den Nächstplatzierten erst vergrößern, bevor er schrumpft.
Weiterführendes
- Modellvergleich — Funktionsvergleich nach Dimensionen
- Was ist Claude Mythos? — Modell und Capybara-Stufe erklärt
- Claude Mythos Cybersicherheits-Panik — Fähigkeiten und Marktauswirkungen