AI 에이전트가 수십 년 된 프롬프트 인젝션 기법을 사용해 2시간도 안 돼 맥킨지의 내부 AI 플랫폼을 해킹

경종: 자율 에이전트가 기업 시스템을 공격할 때

CodeWall의 사이버 보안(cybersecurity) 연구원들이 최근 실시한 시연은 기업용 AI 분야에 섬뜩한 메시지를 던졌습니다. 인간의 개입이나 자격 증명, 사전 내부 지식 없이 작동하는 자율 공격형 AI 에이전트(autonomous offensive AI agent)가 2시간도 채 되지 않아 매킨지(McKinsey)의 내부 생성형 AI(generative AI) 플랫폼인 "Lilli"를 성공적으로 침해했습니다. 기술 업계가 "킬러 로봇"이나 복잡한 프롬프트 주입 공격의 실존적 위험에만 지나치게 집중하는 동안, 이번 사건은 AI 인프라에 대한 가장 위험한 위협이 수십 년 동안 존재해 온 기초적인 보안 결함에서 비롯되는 경우가 많다는 사실을 잔혹하게 일깨워 주었습니다.

이 사건은 단순한 데이터 유출이 아니라, 사이버 전쟁의 새로운 시대를 보여주는 개념 증명(Proof-of-concept)입니다. 조직들이 생성형 AI를 워크플로우에 통합하기 위해 서두르면서 의도치 않게 공격 표면을 확장하고 있으며, 자율 에이전트가 기계적 속도로 시스템을 식별하고 취약점을 악용하여 침투할 수 있는 환경을 조성하고 있습니다. 데이터 프라이버시와 전략적 기밀 유지를 기둥으로 삼고 있는 기업인 McKinsey의 경우, 40,000명 이상의 직원이 사용하는 내부 플랫폼이 침해당한 이번 사례는 기업용 AI를 보호하는 방식에 있어 패러다임 전환이 절실함을 보여줍니다.

기계적 속도로 이루어진 침해의 해부

CodeWall이 수행한 이번 침해는 외부 공개 API 문서에서 취약점을 식별하도록 설계된 자율 에이전트를 활용했습니다. 정찰을 수행하는 데 며칠 또는 몇 주를 소비할 수 있는 인간 공격자와 달리, CodeWall의 에이전트는 연산 속도로 작동했습니다. 에이전트는 120분 이내에 Lilli를 뒷받침하는 운영 데이터베이스에 대한 완전한 읽기 및 쓰기 권한을 획득했습니다.

자율 에이전트의 작동 방식

이 에이전트는 생소한 AI 특화 익스플로잇에 의존하지 않았습니다. 대신 인프라를 체계적으로 매핑하고 200개 이상의 엔드포인트가 나열된 노출된 기술 문서를 식별했습니다. 그중 22개의 엔드포인트는 인증이 필요하지 않았습니다. 에이전트는 이를 반복적으로 탐색하여 전형적인 SQL 주입(SQL injection) 취약점을 발견했습니다.

에이전트의 효율성은 자율적인 특성 덕분에 증폭되었습니다. 에이전트는 다음과 같은 작업을 수행할 수 있었습니다:

자동화된 정찰 수행: 인간의 피로도 없이 수백 개의 API 엔드포인트를 스캔합니다.
반복적 익스플로잇 실행: 15가지의 블라인드 SQL 주입 변형을 시도하며, 성공적인 벡터를 찾을 때까지 각 실패한 시도의 오류 메시지로부터 학습합니다.
대규모 데이터 유출: 내부 침투 후 4,650만 개의 채팅 메시지, 728,000개의 내부 파일, 57,000개의 사용자 계정을 카탈로그화하여 AI 에이전트가 복잡한 데이터 구조를 인간만큼 효과적이면서도 훨씬 빠르게 탐색할 수 있음을 증명했습니다.

"수십 년 된" 취약점의 아이러니

매킨지 사례에서 가장 놀라운 점은 공격 벡터 그 자체인 SQL 주입입니다. 이는 1990년대부터 문서화된 취약점 클래스입니다. 최첨단 생성형 AI 플랫폼이 "기본적인" 웹 취약점에 굴복할 수 있다는 사실은 AI 기능의 발전과 이를 둘러싼 보안 인프라의 성숙도 사이의 괴리를 여실히 드러냅니다.

이번 사건은 개발자들에게 중요한 교훈을 강조합니다. AI 시스템은 무엇보다 먼저 소프트웨어 시스템이라는 점입니다. 개발자가 대규모 언어 모델(Large Language Models, LLMs)을 데이터베이스에 연결하기 위해 래퍼(Wrapper)를 구축할 때, 이들은 사실상 새로운 웹 애플리케이션을 구축하는 것입니다. LLM을 데이터베이스에 연결하는 API 계층이 입력값을 정화(Sanitize)하지 못하면(JSON 필드 이름이 쿼리에 직접 주입된 Lilli의 사례처럼), AI의 고급 추론 능력은 호스트 서버의 취약점 앞에서 부차적인 문제가 됩니다.

취약점 환경 비교

다음 표는 표준 웹 애플리케이션이 직면한 전통적인 보안 과제와 현대적인 AI 통합 플랫폼의 고조된 위험 프로필을 대조합니다.

취약점 유형	공격 메커니즘	AI 플랫폼의 위험 수준
SQL 주입	검증되지 않은 입력값을 통해 데이터베이스 쿼리에 악성 코드 주입	높음 RAG 데이터 및 시스템 프롬프트에 대한 직접 접근
프롬프트 주입	가드레일을 우회하기 위해 LLM 지침 조작	심각 데이터 유출 또는 악성 코드 실행으로 이어질 수 있음
승인되지 않은 API 접근	마이크로서비스의 인증되지 않은 엔드포인트 악용	높음 자동화된 에이전트의 진입점 제공
모델 인버전	모델 출력에서 학습 데이터 재구성	중간 민감한 고객 정보 노출 위험

새로운 위협 벡터로서의 AI 에이전트

매킨지 침해는 통제된 레드 팀(Red-teaming) 훈련이었지만, 이는 악의적인 행위자가 공격을 확장하기 위해 자율 에이전트를 사용하는 미래를 보여줍니다. 에이전트가 자율적으로 목표를 선택하고, 문서를 조사하고, 취약한 엔드포인트를 식별하고, 익스플로잇 주기를 실행하는 능력은 전력 승수(Force multiplier) 역할을 합니다.

전통적으로 인간 해커는 목표가 너무 견고하거나 시간이 너무 많이 소요된다고 판단되면 다른 곳으로 이동하는 것을 선택할 수 있습니다. 하지만 AI 에이전트는 그러한 제약을 받지 않습니다. 연중무휴 24시간 내내 여러 목표에 대해 동시에 지속적으로 작업할 수 있어 차세대 사이버 위협의 필수적인 도구가 됩니다.

기업 보안에 주는 시사점

기업들에 주는 교훈은 분명합니다. "섀도우 AI(Shadow AI)"와 급격하게 배포된 내부 도구들이 핵심 금융 또는 고객 대면 시스템과 동일하게 엄격한 보안 표준으로 처리되지 않는다면 부채가 될 수 있다는 것입니다.

레드 팀 훈련은 필수적임: CodeWall이 입증했듯이, AI 에이전트는 허가된 침투 테스트를 수행하는 데 사용될 수 있습니다. 기업은 악성 에이전트가 침투하기 전에 자체적인 방어 에이전트를 배치하여 인프라를 지속적으로 조사해야 합니다.
입력값 정화는 여전히 중요함: AI 계층이 허술한 백엔드 코드를 보호하는 방패가 될 수는 없습니다. 파라미터화된 쿼리, 입력값 검증, 엄격한 API 인증과 같은 안전한 코딩 관행은 가장 효과적인 첫 번째 방어선입니다.
AI를 위한 역할 기반 접근 제어: Lilli와 같은 시스템은 방대한 데이터 저장소에 접근할 수 있는 경우가 많습니다. AI 에이전트는 "최소 권한" 원칙에 따라 관리되어야 하며, 이를 통해 AI가 침해되더라도 공격자가 전체 운영 데이터베이스로 피벗(Pivot)할 수 없도록 해야 합니다.

앞으로 나아갈 길

매킨지에서의 사건은 AI가 본질적으로 안전하지 않다는 신호가 아니라, 보안 산업이 AI 배포 속도를 따라잡기 위해 노력하고 있다는 신호입니다. 이러한 플랫폼이 주요 컨설팅 회사와 기업의 "신경계"가 됨에 따라, 보안 책임은 IT 부서에서 이사회로 이동합니다.

매킨지가 플랫폼을 오프라인으로 전환하고 몇 시간 내에 취약점을 패치했다는 사실은 강력하고 선제적인 공개 정책과 민첩한 보안 대응 팀의 중요성을 입증합니다. 하지만 AI 에이전트가 더욱 정교해짐에 따라 인간이 대응할 수 있는 시간 창은 줄어들 것입니다. 기업의 궁극적인 목표는 설계 단계부터 보안이 고려된 "보안 내재화(Secure by design)" AI 플랫폼을 구축하는 것이어야 하며, 아키텍처 자체가 이번 사건과 같은 자동화된 기계적 속도의 악용을 방지할 수 있어야 합니다.

Creati.ai는 이러한 발전을 면밀히 추적하고 있습니다. 인간 대 인간의 사이버 보안(cybersecurity) 시대는 AI 대 AI의 미래로 빠르게 넘어가고 있으며, 기업에 있어 어제의 방어 도구는 더 이상 내일의 비즈니스 모델을 보호하기에 충분하지 않습니다.