Claude Mythos vs Opus 4.6: Was die geleakten Benchmarks zeigen

Kurzfassung: Claude Mythos ist kein besseres Opus — es ist eine völlig andere Stufe. Geleakte interne Dokumente zeigen, dass Mythos ‘Opus 4.6 in allen Kern-Benchmarks deutlich übertrifft’, besonders in Programmierung, Reasoning und Cybersicherheit. Aber die Dokumente verwenden qualitative Sprache, keine harten Zahlen. Was bestätigt ist, was Spekulation bleibt und was die Lücke zwischen beiden Modellen für verschiedene Nutzer bedeutet.

Verschiedene Stufen, nicht verschiedene Versionen

Das häufigste Missverständnis: Claude Mythos sei Opus 4.7. Ist es nicht. Mythos gehört zu Capybara — einer völlig neuen Stufe.

Die vollständige Aufstellung: Haiku, Sonnet, Opus, Capybara. Jede Stufe ist eine eigenständige Leistungsklasse.

Wörtlich aus dem geleakten Entwurf: Capybara ist ‘größer und intelligenter als unsere Opus-Modelle — die bis jetzt unsere leistungsfähigsten waren’.

Vergleich nach Dimensionen

Programmierung: ‘Dramatisch höhere Ergebnisse.’ ✅ Bestätigt (qualitativ)

Reasoning: Ebenso. ✅ Bestätigt (qualitativ)

Cybersicherheit: Die größte Lücke. ‘Weit voraus gegenüber jedem anderen KI-Modell.’ Die 90-Minuten-Red-Team-Kette mit einem 20 Jahre alten Linux-Kernel-Zero-Day ist der konkreteste Beleg. ✅ Bestätigt (qualitativ)

Latenz: Opus 4.6 hat eine TTFT von ca. 1,2 s. Mythos nicht offengelegt. Als ‘größer’ beschrieben — höhere Latenz ist zu erwarten. ⚠️ Spekulation

Kontextfenster: Opus 4.6 hat über 1 Million Token. Keine Angabe für Mythos. ⚠️ Spekulation

Kosten: ‘Sehr teuer im Betrieb.’ Deutlich über Opus-Preisen. ⚠️ Spekulation (keine Preisdaten, aber Formulierung bestätigt)

Was ‘qualitativer Sprung’ wirklich bedeutet

Die internen Dokumente verwenden wiederholt ‘step change’. Bewusste Wortwahl. In technischem Kontext bedeutet step change einen diskreten Sprung von einer Ebene zur nächsten, keine graduelle Steigung.

Mythos ‘übertrifft Opus 4.6 deutlich in allen Kern-Benchmarks’. Nicht einige — alle. Und ‘deutlich’.

Das Fehlen präziser Zahlen ist fast sicher beabsichtigt.

Bestätigt vs unbestätigt

Bestätigt: ✅ Claude Mythos ist ein reales Modell. ✅ Capybara ist eine neue Stufe über Opus. ✅ Vorrangiger Zugang für Cyberverteidiger. ✅ Intern: ‘Bei weitem das leistungsfähigste KI-Modell, das wir je entwickelt haben.’

Unbestätigt: ⚠️ Konkrete Benchmark-Scores und Verbesserungsprozentsätze. ⚠️ TTFT und Inferenzgeschwindigkeit. ⚠️ Kontextfenstergröße. ⚠️ API-Preise und Zeitplan.

Was es für Nutzer bedeutet

Entwickler: Potenziell transformativ für harte Programmierprobleme, an denen Opus an Grenzen stößt. Aber voraussichtlich teuer und anfangs eingeschränkt.

Unternehmen: Der direkteste Anwendungsfall ist defensive Cybersicherheit.

Breiterer Markt: Mythos setzt alle KI-Labore unter Wettbewerbsdruck. Wenn Capybara leistet, was die Dokumente beschreiben, könnte sich der Abstand zwischen Anthropic und den Nächstplatzierten erst vergrößern, bevor er schrumpft.

Weiterführendes

Modellvergleich — Funktionsvergleich nach Dimensionen
Was ist Claude Mythos? — Modell und Capybara-Stufe erklärt
Claude Mythos Cybersicherheits-Panik — Fähigkeiten und Marktauswirkungen