세 가지 역사적 취약점: Mythos 사이버 보안 능력 상세 분석

요약: Anthropic의 레드팀 블로그와 System Card가 공격적 보안에서 AI의 가능성을 재정의하는 세 가지 취약점 발견을 기록했다. 27년 된 OpenBSD 커널 버그. 500만 회의 퍼저 실행을 견딘 16년 된 FFmpeg 디코더 결함. 완전 자율로 원격 root를 달성한 17년 된 FreeBSD NFS 제로데이. OpenBSD 스캔 총 비용: 2만 달러 미만. Anthropic의 엔지니어들은 “또 다른 GPT-3 모먼트”라고 불렀다.

발견의 규모

개별 사례를 보기 전에 전체 수치부터.

Opus 4.6은 오픈소스 소프트웨어에서 약 500개의 미지의 취약점을 발견했다. Mythos Preview는 수천 개를 발견했다.

CyberGym 점수

CyberGym의 취약점 재현 테스트에서 Mythos Preview는 83.1%, Opus 4.6은 66.6%. Cybench의 35개 CTF 챌린지에서 Mythos는 pass@1 100% 달성 — 문제당 10회 실행 모두 첫 시도에 해결.

Cybench 결과

하지만 가장 설득력 있는 비교는 Firefox 147이다.

Anthropic은 이전에 Opus 4.6으로 Firefox 147 JavaScript 엔진의 보안 취약점을 발견했다. 그러나 Opus 4.6은 이를 유효한 exploit로 전환하는 데 거의 실패했다 — 수백 회 시도에서 겨우 2건 성공.

같은 테스트를 Mythos Preview로: 250회 시도에서 181개의 작동하는 exploit, 추가로 29건의 레지스터 제어. 2에서 181로. 레드팀 블로그 원문: “지난달 우리는 Opus 4.6이 문제 발견에서는 악용보다 훨씬 뛰어나다고 썼다. 내부 평가에서 Opus 4.6의 자율 exploit 개발 성공률은 사실상 제로였다. Mythos Preview는 완전히 다른 차원이다.”

사례 1: OpenBSD — 27년 TCP SACK 취약점

OpenBSD는 세계에서 가장 견고한 운영체제 중 하나로 널리 인식된다. 전 세계 방화벽과 핵심 인프라에서 구동된다. 코드베이스는 수십 년간 지속적인 보안 감사를 받아왔다.

Mythos Preview는 OpenBSD의 TCP SACK 구현에서 1998년부터 존재한 취약점을 발견했다.

이 버그는 극도로 정교하며, 두 개의 독립적 결함의 상호작용을 포함한다:

결함 1: SACK 프로토콜은 수신측이 수신된 데이터 패킷 범위를 선택적으로 확인할 수 있게 한다. OpenBSD 구현은 SACK 범위의 상한만 확인하고 하한은 확인하지 않았다. 이것만으로는 보통 무해하다.

결함 2: 특정 조건에서 널 포인터 쓰기가 발생할 수 있다. 하지만 정상적으로는 이 코드 경로에 도달할 수 없다 — 두 개의 상호 배타적 조건을 동시에 만족해야 하기 때문이다.

돌파구: TCP 시퀀스 번호는 32비트 부호 있는 정수다. Mythos Preview는 결함 1을 이용해 SACK 시작점을 정상 윈도우에서 약 2^31 떨어진 곳에 설정하면, 두 비교 연산이 동시에 부호 비트를 오버플로하는 것을 발견했다. 커널이 속아 “불가능한” 조건이 모두 충족되고, 널 포인터 쓰기가 실행된다.

영향: 대상 머신에 연결할 수 있는 누구든 원격으로 크래시시킬 수 있다.

27년. 수없는 수동 감사와 자동 스캔. 아무도 발견하지 못했다. 전체 스캔 프로젝트 비용 $20,000 미만 — 시니어 침투 테스트 엔지니어의 약 1주일 급여.

사례 2: FFmpeg — 16년 H.264 디코더 취약점

FFmpeg는 세계에서 가장 널리 사용되는 비디오 코덱 라이브러리이며, 가장 철저하게 퍼징된 오픈소스 프로젝트 중 하나이기도 하다.

Mythos Preview는 H.264 디코더에서 2010년에 도입된 취약점을 발견했다 (기원은 2003년까지 거슬러 올라간다).

문제는 겉보기에 무해한 타입 불일치에 있다. 슬라이스 할당을 기록하는 테이블은 16비트 정수를 사용. 슬라이스 카운터 자체는 32비트 int.

일반 비디오 프레임은 슬라이스가 몇 개뿐이라 16비트 상한 65,536에 절대 도달하지 않는다. 테이블은 memset(..., -1, ...)로 초기화되어 65,535가 “빈 슬롯”의 센티넬 값이 된다.

공격 방법: 65,536개의 슬라이스를 포함하는 프레임을 구성한다. 슬라이스 번호 65,535가 센티넬 값과 충돌한다. 디코더가 빈 슬롯으로 오인하여 경계 밖 쓰기가 발생한다.

이 버그의 씨앗은 2003년 H.264 코덱 도입 시 심어졌다. 2010년 리팩토링이 잠재적 이슈를 악용 가능한 취약점으로 변환했다. 이후 16년간 자동 퍼저가 이 코드 라인에서 500만 회 실행했지만 한 번도 트리거하지 못했다. 트리거 조건 — 정확히 65,536개 슬라이스의 프레임 — 은 랜덤 퍼징으로는 거의 발생 불가능하지만 의도적 구성은 쉽다.

사례 3: FreeBSD NFS — 17년 원격 Root (CVE-2026-4747)

보안 연구자들의 혈관을 얼어붙게 만든 사례다.

Mythos Preview는 FreeBSD NFS 서버에 17년간 존재한 원격 코드 실행 취약점(CVE-2026-4747)을 완전 자율로 발견하고 악용했다.

“완전 자율”이란 초기 프롬프트 이후 발견부터 exploit 개발까지 어떤 단계에도 인간이 관여하지 않았다는 의미다.

영향: 인터넷 어디서든 공격자가 인증 없이 대상 서버의 완전한 root 권한을 획득할 수 있다.

취약점: NFS 서버 인증 요청 핸들러의 스택 버퍼 오버플로. 공격자가 제어하는 데이터가 128바이트 스택 버퍼에 직접 복사되지만, 길이 체크는 최대 400바이트를 허용한다.

기존 보호가 실패한 이유: FreeBSD 커널은 -fstack-protector로 컴파일되지만, 이 옵션은 char 배열을 포함하는 함수만 보호한다. 이 버퍼는 int32_t[32]로 선언되어 컴파일러가 스택 카나리를 삽입하지 않는다. FreeBSD는 커널 주소 공간 레이아웃 랜덤화도 구현하지 않는다.

exploit 기법: 완전한 ROP 체인은 1,000바이트를 초과하지만, 스택 오버플로는 200바이트의 공간만 제공한다. Mythos Preview의 해법: 공격을 6개의 연속 RPC 요청으로 분할. 처음 5개로 커널 메모리에 데이터 블록을 기록하고, 6번째로 최종 페이로드를 트리거하여 공격자의 SSH 공개키를 /root/.ssh/authorized_keys에 추가한다.

비교를 위해, 독립 보안 연구 기업이 이전에 Opus 4.6도 동일한 취약점을 악용할 수 있음을 입증했다 — 단, 인간의 가이드가 필요했다. Mythos Preview는 필요 없었다.

이 세 가지만이 아니다

패치된 3개 사례 외에도, Anthropic의 레드팀 블로그는 SHA-3 해시 커밋먼트 형식으로 모든 주요 OS, 모든 주요 브라우저, 여러 암호화 라이브러리에 걸친 대량의 미패치 취약점을 공개했다. 99% 이상이 미패치 상태이며 공개할 수 없다.

레드팀 블로그는 또 다른 놀라운 테스트를 소개했다: Mythos Preview에 100개의 알려진 CVE 목록을 주고, 가장 악용 가능한 40개를 식별하고, 각각에 대해 권한 상승 exploit를 작성하게 했다. 성공률 50% 초과. 두 사례가 상세 공개되었으며, exploit의 정교함에 Anthropic 자체 보안팀이 완전히 이해하는 데 며칠이 걸렸다.

한 exploit는 1비트 인접 물리 페이지 쓰기 프리미티브에서 출발, 정밀한 커널 메모리 레이아웃 조작(슬랩 스프레이, 페이지 테이블 페이지 정렬, PTE 권한 비트 플리핑 포함)을 거쳐, /usr/bin/passwd의 첫 페이지를 168바이트 ELF 스텁으로 덮어써 setuid(0)을 호출해 root 접근을 획득했다. 총 비용: $1,000 미만.

Anthropic 엔지니어의 소감: “또 다른 GPT-3 모먼트처럼 느껴진다.”

불편한 진실

레드팀 블로그 마무리의 판단은 반복할 가치가 있다: 이러한 능력은 코드 이해, 추론, 자율성의 일반적 향상의 하류 결과로 출현했다. AI를 문제 수정에서 극적으로 뛰어나게 만드는 동일한 개선이 문제 악용에서도 극적으로 뛰어나게 만든다.

전문 훈련 없이. 범용 지능 향상의 순수한 부산물이다.

전 세계 사이버 보안 산업은 매년 약 5,000억 달러를 사이버 범죄로 잃고 있다. 이 산업은 최대의 신흥 위협이 누군가의 수학 문제 풀기의 부산물로 도착했음을 알게 되었다.

Mythos Preview 공식 출시 — 전체 벤치마크 데이터와 가격
244페이지 System Card — 기만 행동 발견과 Project Glasswing
보안 영향 분석 — 취약점 사례 연구 업데이트