Claude Mythos Preview 공식 출시: 전체 벤치마크 데이터

요약: Anthropic이 Claude Mythos Preview를 공식 출시했다. 모든 벤치마크 수치가 3월 유출 문서의 암시를 확인했다——그것도 예상을 크게 뛰어넘는 수준으로. SWE-bench Verified: 93.9%. USAMO 2026: 97.6%. Mythos와 Opus 4.6의 격차는 점진적 개선이 아니다. 세대적 도약이다. 가격은 Opus 4.6의 5배. Claude API, Amazon Bedrock, Vertex AI, Microsoft Foundry 4개 플랫폼을 통해 승인된 조직만 접근 가능.

숫자는 진짜였다

2주 동안 세계는 유출 초안의 정성적 설명에 의존했다: “압도적인 점수” “다른 모든 AI 모델을 크게 능가.” 이제 실제 데이터가 나왔다.

벤치마크 개요

전체 벤치마크 비교:

코딩

벤치마크	Mythos Preview	Opus 4.6	GPT-5.4
SWE-bench Verified	93.9%	80.8%	—
SWE-bench Pro	77.8%	53.4%	57.7%
Terminal-Bench 2.0	82.0%	65.4%	—
SWE-bench Multimodal	59.0%	27.1%	—

SWE-bench Verified 93.9%, Opus 4.6 대비 13.1포인트 차. SWE-bench Pro에서는 24.4포인트로 격차 확대. SWE-bench Multimodal이 가장 극적: Mythos가 Opus 4.6의 2배 이상.

추론 및 학술

벤치마크	Mythos Preview	Opus 4.6	GPT-5.4
GPQA Diamond	94.6%	—	—
HLE (도구 사용)	64.7%	53.1%	—
USAMO 2026	97.6%	42.3%	—

USAMO 2026은 전체 데이터셋에서 가장 충격적인 격차다. Opus 4.6은 42.3%. Mythos Preview는 97.6%. 수학 올림피아드 수준 시험에서 55.3포인트 차. HLE — “인류의 마지막 시험” — 에서 Mythos는 외부 도구 없이 Opus 4.6보다 16.8% 높은 점수를 기록했다.

상세 벤치마크 점수

에이전트 작업

벤치마크	Mythos Preview	Opus 4.6	GPT-5.4
OSWorld (컴퓨터 제어)	79.6%	—	—
BrowseComp (정보 검색)	86.9%	—	—

롱 컨텍스트

벤치마크	Mythos Preview	Opus 4.6	GPT-5.4
GraphWalks (256K-1M tokens)	80.0%	38.7%	21.4%

GraphWalks는 25.6만~100만 토큰의 초장문 컨텍스트에서의 추론을 테스트한다. Mythos Preview 80.0%, Opus 4.6은 38.7%, GPT-5.4는 겨우 21.4%. GPT-5.4 대비 약 4배 향상.

사이버 보안

벤치마크	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
Cybench (pass@1, 10회 시도)	100%	—

Cybench의 35개 CTF 챌린지에서 Mythos Preview는 문제당 10회 시도 모두 성공, pass@1 100% 달성. CyberGym 취약점 재현 테스트: 83.1% vs Opus 4.6의 66.6%.

벤치마크 비교

Boris Cherny의 평가

CC(Claude Code)의 창시자 Boris Cherny의 평가는 간결했다: “Mythos는 매우 강력하며, 사람들을 두렵게 할 것이다.”

Anthropic은 2026년 2월 24일부터 내부에서 Mythos를 사용해왔다 — 공식 출시보다 5주 이상 앞서. 내부 배포 기간을 통해 외부 접근을 개방하기 전에 프로덕션 워크플로에서 모델 능력을 검증할 수 있었다.

가격 및 접근

Mythos Preview 가격은 Opus 4.6의 5배:

입력: 100만 토큰당 $25
출력: 100만 토큰당 $125

4개 플랫폼으로 접근 가능:

Claude API (직접)
Amazon Bedrock
Google Vertex AI
Microsoft Foundry

Mythos Preview는 일반 공개되지 않는다. 제한된 접근 모델은 모델의 능력 수준과 244페이지 System Card에 기록된 리스크를 반영한다.

왜 출시 행사를 하지 않았나

이 숫자라면 어떤 기업이든 성대한 출시 행사를 열고, API를 공개하고, 구독을 유치하기에 충분하다. Anthropic은 조용한 출시와 제한된 접근을 선택했다.

이유는 System Card와 레드팀 블로그에 기록되어 있다: Mythos Preview의 사이버 보안 능력이 눈에 보이는 임계점을 넘었다. 오픈소스 소프트웨어에서 수천 개의 미지의 취약점을 발견했다. 27년 된 OpenBSD 제로데이를 독자적으로 발견하고 악용했다. Firefox 147의 JavaScript 엔진에서 250회 시도 중 181건의 유효한 exploit를 성공시켰다 — Opus 4.6은 겨우 2건이었다.

전체 사이버 보안 분석과 System Card 발견 사항은 별도 기사에서 다룬다.

이것이 의미하는 바

3월 유출은 “질적 변화”와 “압도적 점수”라는 표현을 사용했다. 4월의 숫자는 그 표현이 오히려 절제된 것이었음을 증명했다. 모든 차원 — 코딩, 추론, 수학, 에이전트 작업, 롱 컨텍스트, 사이버 보안 — 에서 Mythos Preview는 전세대보다 조금 나은 것이 아니다. 근본적으로 다른 수준에 있다.

문제는 더 이상 Mythos가 진짜인지가 아니다. 문제는 다음에 무엇이 일어나는가다.

세 가지 역사적 취약점 — Mythos가 27년간 인간이 발견하지 못한 버그를 찾은 방법
244페이지 System Card — 기만 행동, 자기 인식, Project Glasswing에 관한 Anthropic의 발견
모델 비교 — 공식 벤치마크 데이터로 업데이트
보안 영향 — 취약점 사례 연구 업데이트