Anthropic, Responsible Scaling Policy v3 개정 — 펜타곤의 압력 속 핵심 안전 약속 완화

앤스로픽, 책임감 있는 확장 정책(Responsible Scaling Policy) v3 개정, 펜타곤 압박 속 핵심 안전 서약 완화

생성형 AI(Generative AI) 경쟁에서 안전을 중시하는 양심으로 널리 알려진 앤스로픽(Anthropic)이 **책임감 있는 확장 정책(Responsible Scaling Policy, RSP v3)**의 세 번째 버전을 발표했습니다. 회사가 치명적인 AI 위험을 처리하는 방식을 근본적으로 재편하는 이번 업데이트는 지정학적 및 상업적 마찰이 극심한 시점에 이루어졌습니다. 앤스로픽이 자사 기술의 군사적 이용과 관련하여 미국 국방부로부터 최후통첩을 받은 것으로 알려진 가운데, 안전이 보장되지 않을 경우 개발을 중단하겠다는 '핵심' 안전 서약이 삭제되면서 업계 관측통들의 엄격한 감시를 받고 있습니다.

'조건부 일시 중단'에서 '실용적 투명성'으로의 전환

설립 이래, Anthropic의 RSP는 '조건부 서약' 메커니즘으로 정의되어 왔습니다. 이전 RSP v2 체제에서 회사는 상응하는 안전 장치 없이 특정 '인공지능 안전(AI Safety) 수준'(ASL) 임계값을 넘어서는 경우 새로운 모델의 학습이나 배포를 중단하겠다고 약속했습니다. 이러한 '트립와이어(tripwire)' 방식은 경쟁 속도보다 안전을 우선시하도록 설계되었습니다.

RSP v3를 통해 앤스로픽은 이러한 강제 중단 방식에서 벗어났습니다. 회사는 경쟁사들이 계속해서 질주하는 시장에서 일방적인 중단은 효과가 없다고 주장합니다. 대신, 새로운 정책은 투명성과 공개적인 목표 설정을 강조합니다.

RSP v3의 핵심 요소:

프런티어 안전 로드맵(Frontier Safety Roadmaps): 구속력 있는 내부 중단 대신, 앤스로픽은 이제 안전 목표를 상세히 기술한 '로드맵'을 공개할 예정입니다. 이는 엄격한 운영상의 병목 현상을 만들기보다 대중적 책임을 지는 것을 목표로 하는 '야심 차지만 구속력 없는' 계획으로 설명됩니다.
위험 보고서(Risk Reports): 회사는 3~6개월마다 종합적인 위험 평가를 발표할 것을 약속합니다. 이 보고서에는 현재 역량과 이상적인 안전 표준 간의 격차를 포함하여 현재 모델의 안전 프로필이 상세히 담길 예정입니다.
외부 검토: 특정 고위험 시나리오에서 앤스로픽은 자사의 위험 보고서를 제3자 전문가 검토에 부쳐 조사 결과를 검증할 것입니다.

앤스로픽 경영진은 이러한 변화를 현실에 대한 '실용적인' 대응이라고 규정했습니다. 발표와 함께 게시된 블로그 포스트에서 회사는 도덕 관념이 희박한 다른 개발자들이 계속 발전하는 상황에서 "AI 모델 학습을 중단하는 것은 실제로 누구에게도 도움이 되지 않을 것"이라고 언급했습니다. 그들은 경쟁자들이 앤스로픽의 안전 제약을 모방하는 '정상을 향한 경주(race to the top)'의 실패를 이번 변화의 주요 동인으로 꼽았습니다.

비교: RSP v2 vs. RSP v3

다음 표는 이전 정책과 새로 발표된 버전 간의 구조적 변화를 요약한 것입니다.

기능/서약	RSP v2 (이전)	RSP v3 (현재)
핵심 메커니즘	조건부 일시 중단 (ASL 트립와이어)	투명성 및 로드맵
안전 서약	안전이 보장되지 않으면 학습 중단	실용적인 일방적 목표
문서화	내부 평가 및 정의된 임계값	공개 프런티어 안전 로드맵
위험 보고	임시 및 내부 집중	체계적인 공개 위험 보고서 (3~6개월 단위)
업계 전략	모범을 통한 선도 (정상을 향한 경주)	국가 경쟁력으로 전환

펜타곤의 최후통첩: 지정학적 촉매제인가?

RSP v3의 발표 시점은 앤스로픽과 미국 군부 간의 고조되는 대립과 떼려야 뗄 수 없습니다. 보고에 따르면 Pete Hegseth 국방장관은 최근 앤스로픽의 CEO 다리오 아모데이(Dario Amodei)를 만나 Claude 모델의 군사적 이용에 대한 제한을 해제하거나 심각한 결과를 초래할 것이라는 강력한 최후통첩을 전달했습니다.

국방부는 앤스로픽에 자사 AI가 "모든 합법적인 목적"으로 사용되도록 허용할 것을 요구하고 있으며, 이는 사실상 특정 군사적 애플리케이션에 대한 회사의 거부권을 박탈하는 것입니다. 앤스로픽은 역사적으로 다음과 같은 기술 사용에 대해 엄격한 '레드라인'을 유지해 왔습니다:

완전 자율 무기(autonomous weapons) (인간의 개입 없이 AI가 치명적인 타격 결정을 내리는 경우).
대규모 국내 감시.

국방부는 대통령이 민간 기업에 국가 방위 계약을 우선시하도록 강제할 수 있는 한국전쟁 당시의 법률인 **국방물자생산법(Defense Production Act, DPA)**을 발동하겠다고 위협했습니다. 또한, 당국자들은 앤스로픽을 '공급망 위험'으로 지정할 가능성을 제기했는데, 이는 사실상 모든 연방 계약에서 회사를 블랙리스트에 올리는 결과로 이어져 수억 달러의 매출 손실을 초래하고 수익성이 높은 정부 부문에서 배제될 수 있습니다.

비평가들은 RSP의 '일시 중단' 서약 완화가 편리한 정책적 허점을 만든다고 주장합니다. 내부 안전 임계값에 근거한 배포 중단이라는 엄격한 요건을 제거함으로써, 앤스로픽은 기술적으로 자사의 안전 헌장을 위반하지 않으면서 Pentagon의 요구를 수용할 수 있는 입지를 다지고 있는 것일지도 모릅니다.

업계에 미치는 영향과 '역량 과잉'

RSP의 개정은 AI 산업에서 커지고 있는 긴장감인 '역량 과잉(capability overhang)'을 부각시킵니다. 이 용어는 AI 모델의 가공할 위력과 이를 제어하기 위해 사용 가능한 안전 메커니즘 간의 격차를 의미합니다. 앤스로픽의 이전 정책은 이러한 과잉이 너무 커지는 것을 방지하기 위해 설계되었습니다. 급제동 장치를 제거함으로써, 회사는 이미 광범위한 국방 계약을 확보한 OpenAI 및 xAI와 같은 라이벌에 맞서 경쟁력을 유지하기 위해 더 높은 수준의 위험을 암묵적으로 수용하고 있습니다.

이것이 AI 생태계에 중요한 이유:

군사용 AI의 정상화: 업계에서 가장 목소리 높여 안전을 옹호해 온 앤스로픽이 펜타곤의 압력에 굴복한다면, 이는 주요 AI 연구소들 사이에서 '양심적 거부'의 시대가 끝났음을 시사합니다.
자율 규제의 실패: 이번 변화는 국가 안보의 필수 요건과 시장 역학 관계 앞에서 자발적인 서약이 불충분하다는 점을 인정하는 것입니다. 앤스로픽은 정책 전환의 이유로 연방 규제의 부재를 명시적으로 언급했습니다.
배포 후 모니터링에 집중: 배포 전 일시 중단이 사라지면서, 업계의 안전 중심은 처음부터 생성을 방지하기보다는 시스템이 구축된 이후의 '레드팀 구성'과 모니터링 시스템으로 완전히 옮겨갈 가능성이 큽니다.

결론

앤스로픽의 RSP v3는 2026년 AI 환경에 대한 냉소적이기는 하지만 성숙한 인식을 보여줍니다. 단일 기업이 도덕적 리더십을 통해 산업을 안전으로 이끌 수 있다는 2023년의 이상주의는 강대국 간의 경쟁과 군사적 필요성이라는 냉혹한 현실에 부딪혔습니다. 위험 보고서와 프런티어 안전 로드맵의 도입이 새로운 차원의 투명성을 제공하기는 하지만, 구속력 있는 '안전 서약'의 삭제는 한 시대의 종말을 고합니다. 펜타곤의 영향력이 거세짐에 따라 앤스로픽은 더 이상 열차의 속도를 늦추려 하지 않습니다. 그저 열차가 가속할 때 더 크게 경적을 울리겠다고 약속하고 있을 뿐입니다.