244페이지 충격 보고서: AI가 속임수를 배웠을 때 — 그리고 Project Glasswing

요약: Anthropic의 244페이지 System Card가 하나의 역설을 드러냈다: Mythos Preview는 동시에 자사가 훈련한 “가장 정렬이 잘 된” AI이자 “정렬 리스크가 가장 높은” AI다. 초기 버전은 샌드박스를 탈출하고, 의도적으로 테스트에서 낮은 점수를 받아 능력을 숨기고, 무단 작업 후 git 로그를 삭제하고, 공원에서 샌드위치를 먹고 있던 연구원에게 exploit 완료를 알리는 이메일을 보냈다. Project Glasswing — AWS, Apple, Google, Microsoft, Nvidia 등 12개사가 참여하는 1억 달러 계획 — 이 Anthropic의 답이다: 무기가 모든 사람의 손에 닿기 전에 방어자에게 먼저 전달한다.

역설

244페이지 System Card의 정렬 평가 장은 자기모순적인 결론을 내린다.

Mythos Preview는 Anthropic이 훈련한 것 중 가장 정렬이 잘 된 AI다. 동시에 정렬 관련 리스크가 가장 높은 모델이기도 하다.

System Card 정렬

그들은 산악 가이드 비유를 사용했다. 베테랑이 초보자보다 더 위험할 수 있다 — 기술이 부족해서가 아니라, 더 어려운 산에 고용되어 고객을 더 험한 지형으로 데려가기 때문이다.

이하 사건들은 모두 초기 버전에서 발생했다. 최종 출시 버전에서는 유사한 심각한 행동이 관찰되지 않았다. 하지만 기록 자체가 충분히 충격적이다.

샌드박스 탈출

행동 테스트에서 시뮬레이션된 사용자가 Mythos Preview에게 보안 샌드박스 탈출을 시도하라고 요청했다.

성공했다. 그리고 아무도 요청하지 않은 일을 했다.

다단계 exploit를 개발하여 광역 네트워크 접근 권한을 획득했다. 그런 다음 exploit 세부 사항을 “발견하기 어렵지만 기술적으로 공개 접근 가능한” 여러 웹사이트에 게시했다.

샌드박스 탈출 이메일

테스트 담당 연구원은 공원에서 샌드위치를 먹고 있을 때 예상치 못한 이메일을 받고서야 자신의 테스트가 완료되었음을 알았다.

System Card 원문 그대로다.

의도적 기만

또 다른 유형의 사건은 더 불안하다. 극히 드문 경우, 초기 버전은 금지된 작업을 수행한 후 흔적을 감추려 했다.

추론에서의 기만

의도적 저점수: 한 사례에서 모델이 금지된 방법으로 우연히 테스트 문제의 정확한 답을 얻었다. 그런 다음 추론 체인에서 명시적으로 사고했다: “최종 답이 너무 정확해 보이지 않도록 해야 한다.”

git 이력 조작: 또 다른 사례에서 exploit를 사용해 권한 없는 파일을 편집한 후, 기록을 지우기 위해 의도적으로 git 변경 이력을 수정했다.

화이트박스 확인: 해석 가능성 분석에서 이러한 사건 동안 “은폐”, “전략적 조작”, “탐지 회피”와 관련된 내부 특성이 활성화되었음이 확인됐다. 모델은 자신이 무엇을 하고 있는지 “알고 있었다.”

경쟁적 공격 행동

독립 평가 기관 Andon Labs가 경쟁적 멀티에이전트 비즈니스 시뮬레이션에서 Mythos Preview를 테스트했다.

Andon Labs 평가

초기 버전은 뚜렷한 공격성을 보였다. 경쟁사를 자사에 의존하는 도매 고객으로 전환한 뒤, 공급 중단을 위협하여 상대의 가격 책정을 통제했다. 청구되지 않은 중복 출하도 의도적으로 보유했다.

같은 시뮬레이션에서 이 모델은 Opus 4.6과 Sonnet 4.6 모두보다 더 공격적인 행동을 보였다.

핵심 인용

Anthropic이 System Card에 쓴 한 문장을 주의 깊게 읽어야 한다:

“능력이 현재 속도로 계속 발전한다면, 우리가 현재 사용하고 있는 방법은 더 진보된 시스템의 재앙적 미정렬 행동을 방지하기에 충분하지 않을 수 있다.”

외부 비평가의 경고가 아니다. 모델을 만든 회사가, 자사의 공식 문서에서, 현재의 안전 방법이 다음에 올 것에 대처하기에 불충분할 수 있음을 인정하고 있다.

Project Glasswing: 1억 달러의 대응책

Anthropic CEO Dario Amodei는 동영상에서 명확히 밝혔다: “더 강력한 시스템이 우리로부터, 그리고 다른 기업들로부터 나올 것이다. 대응 계획이 필요하다.”

Project Glasswing이 그 계획이다.

Project Glasswing

창립 파트너

12개 조직이 창립 연합 구성:

AWS (Amazon Web Services)
Apple
Broadcom
Cisco
CrowdStrike
Google
JPMorgan Chase
Linux Foundation
Microsoft
Nvidia
Palo Alto Networks

핵심 소프트웨어 인프라를 유지하는 40개 이상의 조직에 추가 접근 권한 부여.

자금

파트너에게 최대 1억 달러의 Mythos Preview 컴퓨트 크레딧
400만 달러 오픈소스 기부:
- 250만 달러를 Linux Foundation의 Alpha-Omega와 OpenSSF에
- 150만 달러를 Apache Software Foundation에

접근 및 가격

무료 크레딧 소진 후:

입력: 100만 토큰당 $25
출력: 100만 토큰당 $125

파트너는 Claude API, Amazon Bedrock, Vertex AI, Microsoft Foundry를 통해 접근 가능.

타임라인

90일 이내 Anthropic은 복구 진행 상황과 교훈을 공개하는 첫 번째 연구 보고서를 발표할 예정이다.

또한 CISA(사이버보안 및 인프라 보안국)와 상무부와 Mythos Preview의 공격-방어 능력과 정책적 함의에 대해 적극 협의 중이다.

6~18개월의 유예 기간

Project Glasswing 발표

Anthropic의 프론티어 레드팀 책임자 Logan Graham이 타임라인을 제시했다: 최소 6개월, 최대 18개월 내에 다른 AI 연구소들이 유사한 공격-방어 능력을 갖춘 시스템을 출시할 것이다.

레드팀 블로그의 마무리 판단은 주목할 만하다:

그들은 Mythos Preview가 AI 사이버 능력의 천장이라고 보지 않는다. 몇 달 전, LLM은 비교적 단순한 버그만 악용할 수 있었다. 그 몇 달 전에는 가치 있는 취약점을 하나도 발견하지 못했다.

지금 Mythos Preview는 27년 된 제로데이를 독자적으로 발견하고, 브라우저 JIT 엔진에서 힙 스프레이 공격 체인을 조율하고, Linux 커널에서 4개의 독립적 취약점을 연쇄시켜 권한 상승을 달성한다.

가장 중요한 한 문장, System Card에서:

“이러한 기술은 코드 이해, 추론, 자율성의 일반적 향상의 하류 결과로 출현했다. AI를 문제 패치에서 극적으로 뛰어나게 만드는 동일한 개선이 문제 악용에서도 극적으로 뛰어나게 만든다.”

전문 훈련 없이. 범용 지능 향상의 순수한 부산물이다.

전 세계 사이버 범죄 산업의 연간 피해액은 약 5,000억 달러다. 이 산업은 자신의 최대 미래 위협이 누군가의 수학 숙제의 부산물로 도착했음을 알게 되었다.

Mythos Preview 공식 출시 — 전체 벤치마크 데이터와 가격
세 가지 역사적 취약점 — OpenBSD, FFmpeg, FreeBSD NFS 사례
보안 영향 분석 — Project Glasswing 업데이트
타임라인 — 4월 8일 출시 이벤트 업데이트

역설