Claude Mythos vs Opus 4.6: 유출 문서의 벤치마크 비교

핵심 요약: Claude Mythos는 ‘더 나은 Opus’가 아니다. 완전히 다른 등급이다. 유출된 내부 문서는 Mythos가 ‘모든 핵심 벤치마크에서 Opus 4.6을 크게 앞선다’고 보여주며, 특히 코딩, 추론, 사이버보안에서 두드러진다. 다만 문서는 정성적 기술이지 구체적 수치가 아니다. 무엇이 확인됐고, 무엇이 추측이며, 두 모델 간 격차가 사용자에게 무엇을 의미하는지 정리한다.

다른 등급이지, 다른 버전이 아니다

Claude Mythos에 대한 가장 흔한 오해는 Opus 4.7이라는 것이다. 아니다. Mythos는 Capybara——Anthropic 모델 체계의 완전히 새로운 등급에 속한다.

전체 라인업: Haiku, Sonnet, Opus, Capybara. 각 등급은 독립된 성능 클래스이지 같은 클래스 내 버전 업이 아니다.

유출된 블로그 초안 원문: Capybara는 ‘Opus 모델보다 더 크고 더 똑똑한 새 등급의 모델——Opus가 지금까지 가장 강력했다’.

각 차원 비교

코딩: ‘압도적으로 높은 점수’. 구체적 수치는 없지만 소폭 개선이 아닌 건 확실. ✅ 확인(정성적)

추론: 마찬가지로 ‘압도적으로 높은 점수’. ✅ 확인(정성적)

사이버보안: 가장 격차가 큰 부분. ‘사이버 역량에서 모든 AI 모델을 훨씬 앞선다.’ 90분 레드팀 공격 체인에서 20년 된 Linux 커널 제로데이 발견. ✅ 확인(정성적)

레이턴시: Opus 4.6의 TTFT는 약 1.2초. Mythos 레이턴시는 미공개. ‘더 크다’고 기술된 만큼 더 높을 것으로 합리적 예측. ⚠️ 추측

컨텍스트 윈도우: Opus 4.6은 100만 토큰 이상. Mythos 컨텍스트 윈도우 언급 없음. ⚠️ 추측

비용: ‘운영 비용이 매우 높다.’ 현행 Opus 가격을 크게 웃돌 전망. ⚠️ 추측

’질적 도약’이 실제로 의미하는 것

Anthropic 내부 문서는 ‘step change(질적 도약)‘라는 표현을 반복한다. 의도적인 단어 선택이다.

기술 맥락에서 step change는 점진적 경사가 아닌 한 수준에서 다른 수준으로의 이산적 점프를 뜻한다. 상전이의 언어다.

유출 문서는 또한 ‘모든 핵심 벤치마크에서 Opus 4.6을 크게 앞선다’고 적었다. 일부가 아니라 모든 핵심 벤치마크. ‘크게’.

정밀 수치의 부재가 눈에 띈다. Anthropic은 기술적 언어(‘압도적’, ‘훨씬 앞선다’)를 쓰되 정량적 주장은 피한다. 거의 확실히 의도적이다.

확인된 것과 아닌 것

확인: ✅ Claude Mythos는 실재하는 모델. ✅ Capybara는 Opus 위의 새 등급. ✅ Anthropic은 사이버 방어 측에 선행 접근 계획. ✅ 내부 문서: ‘우리가 만든 것 중 압도적으로 가장 강력한 AI 모델.’

추측·미정: ⚠️ 구체적 벤치마크 점수와 Opus 4.6 대비 개선율. ⚠️ TTFT 및 추론 속도. ⚠️ 컨텍스트 윈도우 크기. ⚠️ API 가격과 제공 시기. ⚠️ Capybara 등급에 여러 모델이 나올지 여부.

사용자별 의미

개발자: Opus 4.6이 경쟁 제품을 앞서면서도 벽에 부딪히는 어려운 코딩 문제에서 Mythos는 변혁적일 수 있다. 단, 높은 가격과 초기 제한이 거의 확실하다.

기업: 가장 직접적인 유스케이스는 방어적 사이버보안. 레드팀 평가에서 기술된 속도로 취약점을 공격자보다 먼저 찾는 것이 핵심 가치 제안이다.

넓은 시장: Mythos는 모든 AI 연구소에 경쟁 압력을 가한다. Capybara 등급이 문서 기술대로 성능을 낸다면 Anthropic과 최근접 경쟁사 간 격차가 좁아지기 전에 먼저 벌어질 수 있다.

더 읽기

Claude Mythos 모델 비교 페이지 — 각 차원 기능 비교
Claude Mythos(Capybara)란? — 모델과 Capybara 등급 해설
Claude Mythos 사이버보안 패닉 — 사이버 역량과 시장 충격