Anthropic, 증류 공격으로 중국 AI 연구소들이 Claude를 채굴했다고 비난

Anthropic, 주요 중국 AI 연구소 연루된 대규모 증류(Distillation) 조직 적발

진행 중인 인공지능 군비 경쟁이 크게 격화되는 가운데, 앤스로픽(Anthropic)은 딥시크(DeepSeek), 문샷 AI(Moonshot AI), 미니맥스(MiniMax) 등 세 곳의 저명한 중국 AI 연구소가 자사의 클로드(Claude) 모델로부터 능력을 추출하기 위한 체계적이고 산업적인 규모의 캠페인을 벌였다고 공개적으로 비난했습니다. 월요일에 발표된 새로운 보안 보고서에 상세히 기술된 이 혐의는, 이들 조직이 수천 개의 사기 계정을 활용해 클로드의 고급 추론 및 코딩 능력을 자신들의 독자 모델로 "증류(Distillation)"했다고 주장합니다.

이번 폭로는 미국 워싱턴에서 반도체 수출 통제의 실효성에 대한 논쟁이 심화되는 가운데, 글로벌 AI 산업의 중요한 시점에 나왔습니다. 미국 정책 입안자들이 중국의 첨단 하드웨어 접근을 제한하기 위해 고군분투하는 상황에서, Anthropic의 조사 결과는 모델 증류를 통한 지적 재산권 절도가 경쟁사들이 하드웨어 제약을 우회하고 성능 격차를 줄이는 주요 경로가 되었음을 시사합니다.

"증류" 작업의 규모

앤스로픽의 조사에 따르면, 약 24,000개의 사기 계정으로 구성된 정교한 네트워크를 통해 Claude 모델과 1,600만 건 이상의 대화가 생성된 조직적인 시도가 있었습니다. 출처를 숨기기 위해 상업용 프록시 서비스를 통해 관리된 것으로 알려진 이 계정들은 클로드에 체계적으로 쿼리를 보내고 그 출력을 기록하여 더 작은 규모의 자국 모델을 훈련하는 데 사용되었습니다. 머신러닝에서는 이 과정을 "증류"라고 합니다.

증류는 개발자가 자신의 거대 모델을 더 효율적인 버전으로 압축하기 위해 사용하는 정당한 기술이지만, 권한 없이 경쟁사의 모델에서 데이터를 추출하는 것은 서비스 약관을 위반하며 지적 재산권 절도에 해당합니다. 앤스로픽의 데이터는 이 작업이 단순한 실험이 아니라 가치가 높은 인지적 행동을 고도로 조직적으로 추출한 것임을 나타냅니다.

공격 규모는 피고발 기관마다 크게 달랐으며, MiniMax가 가장 공격적인 가해자로 나타났습니다. 다음은 혐의가 제기된 활동의 범위를 나타낸 내역입니다.

표: 연구소별 증류 활동 혐의 내역

연구소 이름	추정 대화 수	주요 표적 능력
MiniMax	~1,300만 건	에이전트 코딩, 도구 오케스트레이션 및 복잡한 추론 시퀀스
Moonshot AI	~340만 건	에이전트 추론, 데이터 분석 및 컴퓨터 비전 작업
DeepSeek	>150,000건	기초 논리, 정렬 프로토콜 및 정책 민감 쿼리

AI 강탈의 해부학

앤스로픽이 설명한 방법론은 대규모 언어 모델(Large Language Model, LLM) 훈련 파이프라인에 대한 정교한 이해를 보여줍니다. 공격자들은 단순히 무작위 질문을 던진 것이 아니라, 처음부터 복제하기 어렵고 비용이 많이 드는 특정 "교사" 행동을 표적으로 삼았습니다.

가장 큰 가해자로 지목된 MiniMax는 새 모델이 출시된 지 24시간 이내에 자체 트래픽의 거의 절반을 클로드로 리디렉션하여, 앤스로픽의 인프라를 활용해 자체 시스템의 능력을 비약적으로 향상시킨 것으로 보고되었습니다. 사용자 프롬프트를 클로드에 입력하고 고품질의 응답을 사용하여 자신의 모델을 훈련함으로써, 이들 연구소는 이론적으로 컴퓨팅 자원의 극히 일부만을 소비하면서도 최첨단 미국 모델과 거의 대등한 수준을 달성할 수 있었습니다.

보고서에서 식별된 주요 전술은 다음과 같습니다:

사고 사슬 유도(Chain-of-Thought Elicitation): 클로드에게 "작업 과정을 보여달라"거나 추론 단계를 설명하도록 유도하여, 학생 모델에게 정답뿐만 아니라 생각하는 법을 가르치는 풍부한 훈련 데이터를 생성합니다.
프록시 네트워크 난독화(Proxy Network Obfuscation): 분산된 주거용 프록시 네트워크를 사용하여 요청을 분산시킴으로써, 트래픽이 수천 명의 서로 다른 정당한 사용자로부터 오는 것처럼 보이게 만듭니다.
표적 가드레일 제거(Targeted Guardrail Stripping): 클로드가 안전 요청을 어떻게 거부하거나 처리하는지 이해하기 위해 민감한 주제를 구체적으로 쿼리하며, 잠재적으로 유사한 제한을 우회하는 모델을 훈련합니다.

국가 안보 차원: 제거된 안전 장치

지적 재산권 절도의 상업적 영향 외에도, 앤스로픽은 안전 가드레일의 제거라는 중대한 안전 문제를 강조했습니다. 클로드와 같은 미국의 프런티어 모델은 생물 무기 제조, 사이버 공격 또는 허위 정보 캠페인을 지원하지 못하도록 엄격한 "헌법적 AI(Constitutional AI)" 훈련을 받습니다.

모델이 불법적으로 증류될 때, "학생" 모델은 종종 "교사"의 안전 억제력은 물려받지 않은 채 능력만을 습득합니다. 앤스로픽은 이러한 "굴레가 벗겨진" 복제 모델이 독특한 확산 위험을 초래한다고 경고합니다. 증류된 모델이 클로드의 코딩 숙련도는 유지하면서 악성코드 생성을 거부하는 메커니즘이 부족하다면, 악의적인 행위자들에게 강력한 무기가 됩니다.

앤스로픽은 증류 공격(Distillation Attacks) 탐지 및 방지라는 제목의 연구 논문에서 "불법적으로 증류된 모델은 필요한 안전 장치가 부족하여 심각한 국가 안보 위험을 초래한다"고 밝혔습니다. 회사는 외국 기관이 미국의 AI 능력을 복제하도록 허용하는 것이 미국 정부가 업계에 채택을 촉구해 온 안전 프로토콜 자체를 훼손한다고 주장합니다.

새로운 방어 조치: 행동 지문 채취

앤스로픽은 고발과 동시에 증류 시도를 실시간으로 식별하고 차단하기 위해 설계된 새로운 방어 메커니즘의 세부 사항을 공개했습니다. 이 방어의 핵심은 API 사용의 통계적 패턴을 분석하는 기술인 "행동 지문 채취(Behavioral Fingerprinting)"입니다.

유기적이고 다양한 상호작용 패턴을 보이는 일반 사용자들과 달리, 증류 스크립트는 종종 미묘한 통계적 특징을 남깁니다. 여기에는 다음이 포함됩니다:

비자연적인 프롬프트 분포: 즉각적인 사용자 문제를 해결하기보다는 모델의 전체 "지식 공간"을 포괄하도록 설계된 높은 빈도의 프롬프트.
체계적인 파라미터 스위핑(Systematic Parameter Sweeping): 동일한 프롬프트에 대해 다양한 출력을 추출하기 위해 온도(Temperature) 또는 샘플링 설정을 체계적으로 변경하는 행위.
지연 시간 상관관계(Latency Correlation): 제3자 사용자 입력에 대응하여 API가 프로그래밍 방식으로 호출되고 있음을 시사하는 타이밍 패턴("중간자 공격" 설정).

앤스로픽은 모델 마이닝에 대한 업계 전반의 방어 그리드를 구축하기 위해 이러한 기술적 지표를 다른 주요 미국 AI 연구소(OpenAI 및 Google DeepMind 등), 클라우드 제공업체 및 정부 당국과 공유하고 있다고 발표했습니다.

지정학적 파장: 칩 전쟁과의 연관성

이 사건은 복잡한 미중 기술 관계에 큰 차질을 빚게 합니다. 특히 미 상무부가 엔비디아(NVIDIA)의 H100 및 최신 블랙웰(Blackwell) 시리즈와 같은 첨단 GPU를 중국 기업에 판매하는 것을 금지하는 수출 통제의 효과를 검토하고 있는 시점이기에 더욱 민감합니다.

현재의 수출 금지에 비판적인 이들은 중국 연구소들이 미국 모델의 지능을 복사함으로써 하드웨어 부족 문제를 단순히 "지적으로 우회"할 수 있다면 금지 조치가 불충분하다고 주장합니다. 만약 한 연구소가 클로드를 증류하여 10%의 컴퓨팅 파워만으로 경쟁력 있는 모델을 훈련할 수 있다면, 중국의 AI 발전을 늦추기 위한 "컴퓨팅 장벽"은 훨씬 더 허술해집니다.

정책적 시사점:

더 엄격한 API 통제: 익명의 해외 접근을 방지하기 위해 금융 규제와 유사한 AI API 접근에 대한 "고객 알기(KYC)" 표준을 요구하는 미국 규제 당국을 보게 될 수도 있습니다.
수출 통제 확대: "수출"의 정의가 물리적 칩이나 모델 가중치뿐만 아니라, 훈련에 사용될 수 있는 모델 추론 API에 대한 접근까지 포함하도록 확장될 수 있습니다.
보복 조치: 이러한 공개적인 지목과 비난은 베이징의 보복성 사이버 활동이나 제재를 유발하여 글로벌 AI 생태계를 더욱 양분화할 수 있습니다.

결론

앤스로픽이 제기한 혐의는 AI 분야에서 이론적인 위험이 문서화된 갈등으로 전환되었음을 의미합니다. 모델의 가치가 높아짐에 따라, 모델은 더 이상 단순한 제품이 아니라 전략적인 국가 자산이 되었습니다. 이번 "증류 강탈" 사건은 디지털 시대에 능력은 구축하는 것만큼이나 쉽게 훔칠 수 있다는 사실을 극명하게 상기시켜 줍니다. 이제 업계의 초점은 단순히 더 똑똑한 모델을 만드는 것에서 더 훔치기 어려운 모델을 만드는 것으로 옮겨가야 하며, 미국 혁신의 결실이 의도치 않게 추월하려던 경쟁국에 힘을 실어주지 않도록 보장해야 합니다.