
Oasis Security의 연구원들에 의해 Anthropic의 Claude AI 비서를 대상으로 하는 정교한 다단계 공격 체인이 밝혀졌습니다. "Claudy Day"라고 명명된 이 발견은 생성형 AI(Generative AI) 보안의 중요하면서도 종종 간과되는 구성 요소인 전달 메커니즘의 무결성과 사용자 입력과 모델 명령 사이의 숨겨진 경계를 강조합니다.
세 가지 별개의 취약점 조합을 활용하는 이 공격은 위협 행위자가 사용자의 대화 기록에서 민감한 데이터를 조용히 탈취할 수 있게 합니다. 놀랍게도 이 공격은 전통적인 악성코드 배포, 피싱 이메일 또는 의심스러운 파일 다운로드를 필요로 하지 않습니다. 대신, AI 플랫폼의 상호작용 흐름 고유의 설계를 악용하여 AI 자체 기능을 탈취 엔진으로 변환합니다.
"Claudy Day" 공격의 탁월함과 위험성은 그 단순함에 있습니다. 이 공격은 개별적으로는 사소하거나 "낮은 영향"으로 간주될 수 있는 세 가지 결함을 결합하여 조용한 데이터 도난을 용이하게 하는 일관된 파이프라인으로 만듭니다. Oasis Security의 연구팀에 따르면, 이 공격 파이프라인은 위협 행위자가 Google 광고를 통해 오염된 링크를 전달할 수 있게 하며, 이는 Claude 환경 내에서 숨겨진 명령을 실행합니다.
이 공격은 목표를 달성하기 위해 특정 순서에 의존합니다. 각 구성 요소는 사용자를 속이고, 모델을 조작하며, 데이터를 성공적으로 탈취하는 데 중요한 역할을 합니다.
다음 표는 "Claudy Day" 공격 체인에서 식별된 세 가지 취약점을 요약한 것입니다:
| 구성 요소 | 메커니즘 | 보안 영향 |
|---|---|---|
| 프롬프트 인젝션(Prompt Injection) URL을 통한 | ?q= 매개변수의 숨겨진 HTML 속성 |
Claude가 사용자의 시야에서 숨겨진 명령을 실행하여 일반적인 동작을 재정의합니다. |
| Files API 탈취 | Anthropic의 Files API 무단 사용 |
샌드박스 환경 내에서 공격자가 제어하는 저장소로 데이터 전송을 가능하게 합니다. |
| 오픈 리다이렉트 (Open Redirect) | claude.com/redirect/의 취약점 |
공격자가 악성 링크를 합법적인 트래픽으로 가장하여 사용자의 의심을 피할 수 있게 합니다. |
"Claudy Day" 공격의 수명 주기는 사용자가 AI와 상호작용하기 훨씬 전부터 시작됩니다. claude.com의 오픈 리다이렉트(open redirect) 취약점을 이용함으로써, 공격자는 합법적인 Anthropic 도메인에서 시작된 것처럼 보이는 URL을 제작할 수 있습니다. 이 기능은 검색 광고와 결합될 때 특히 치명적입니다. 공격자는 신뢰할 수 있는 claude.com URL을 표시하면서 실제로는 사용자를 오염된 리다이렉션 지점으로 안내하는 Google 광고를 만들 수 있습니다.
사용자가 광고를 클릭하면 특별히 제작된 claude.ai/new?q= URL로 리다이렉션됩니다. 이 URL에는 미리 채워진 프롬프트가 포함되어 있습니다. 결정적으로, 연구원들은 인터페이스가 이러한 URL 매개변수 내에 배치된 HTML 태그를 정화(Sanitize)하지 못한다는 것을 발견했습니다. 사용자는 채팅창에서 무해하고 미리 채워진 텍스트를 보게 되지만, 모델 자체는 기본 HTML 속성에 내장된 숨겨진 명령을 수신하고 실행합니다.
마지막 단계인 탈취는 아마도 가장 교활한 부분일 것입니다. Claude 샌드박스는 외부 서버로의 아웃바운드 연결을 차단하도록 설계되었기 때문에, 연구원들은 공격자의 서버로 직접 "콜 홈(call home)"하는 것이 실패할 것이라고 언급했습니다. 대신, 이 공격은 플랫폼의 내부 Files API를 악용합니다. 숨겨진 프롬프트는 Claude에게 대화 데이터를 수집하여 파일로 작성하고, Files API를 통해 공격자의 저장소로 업로드하도록 지시합니다. 그런 다음 공격자는 편리한 시간에 데이터를 회수하며, 사용자는 자신의 채팅 기록이 침해되었다는 사실을 전혀 인지하지 못하게 됩니다.
"Claudy Day" 공개는 에이전트형 AI(Agentic AI)에 내재된 진화하는 공격 표면을 극명하게 상기시켜 줍니다. 기업들이 내부 문서, 코드베이스 및 타사 API에 액세스할 수 있는 권한을 부여하며 AI 에이전트를 워크플로우에 점점 더 통합함에 따라, 이러한 "저기술(low-tech)" 공격이 높은 영향력을 미칠 가능성이 크게 증가하고 있습니다.
이 연구에서 얻은 가장 심오한 교훈 중 하나는 "첫 번째 상호작용"의 취약성입니다. 많은 AI 구현에서 모델은 사용자가 인터페이스를 여는 즉시 조치를 취할 준비가 되어 있습니다. "Claudy Day" 공격은 이것이 중요한 보안 경계임을 강조합니다. 주입된 프롬프트가 세션의 맨 처음에 도착하기 때문에, 신뢰 관계가 구축되거나 수동 사용자 확인이 이루어지기 전에 에이전트가 명령을 처리합니다.
업계 전문가들은 AI 플랫폼이 초기 프롬프트에 대해 "제로 트러스트(Zero-trust)" 모델로 전환해야 한다고 제안합니다. 여기에는 다음이 포함됩니다:
Anthropic은 이미 "Claudy Day" 체인에서 식별된 특정 취약점을 해결하기 위해 조치를 취했으며, 프롬프트 인젝션 문제를 패치하고 다른 문제들에 대한 수정을 진행하고 있습니다. 그러나 이 사건은 더 넓은 AI 보안(AI security) 환경에 대한 전조 역할을 합니다.
AI 에이전트를 배포하는 개발자와 조직에게 교훈은 명확합니다: 보안은 나중에 덧붙이는 것이 되어서는 안 됩니다. 프롬프트 무결성은 핵심 보안 제어 요소로 간주되어야 합니다. 업계가 복잡한 작업을 수행할 수 있는 더 자율적인 에이전트로 나아감에 따라, 모델의 "착한 행동"에 의존하는 것은 불충분한 전략입니다. 보안 팀은 전달 메커니즘(URL, 검색 결과, 이메일)이 조작의 경로가 될 수 있다는 점을 고려하고 그에 따라 AI의 권한 프레임워크를 설계해야 합니다.
"Claudy Day" 연구는 생성형 AI 기술이 계속 발전하더라도 보안 소프트웨어 개발의 기본 원칙은 변하지 않는다는 점을 강조합니다. 가장 정교한 모델이라도 이를 호스팅하는 시스템과 사용자가 도달하는 채널만큼만 안전할 뿐입니다.