펭귄 랜덤 하우스, ChatGPT 저작권 침해로 OpenAI를 고소

뮌헨에서 시작된 법적 공방: 펭귄 랜덤 하우스, OpenAI에 소송 제기

창작 산업과 인공지능(AI) 부문 간의 지속적인 갈등이 크게 고조되는 가운데, 출판계의 거물 펭귄 랜덤 하우스(Penguin Random House)가 뮌헨에서 OpenAI를 상대로 공식적인 법적 절차를 시작했습니다. 이 소송은 국제 저작권법에 있어 중요한 전환점이 될 것으로 보이며, 논의의 초점을 미국 중심에서 유럽의 법적 환경으로 옮기고 있습니다. 소송의 핵심은 OpenAI의 ChatGPT 모델이 승인 없이 저작물을 수집했을 뿐만 아니라, 인기 있는 꼬마 공룡 코코넛(Der kleine Drache Kokosnuss) 시리즈의 콘텐츠를 직접 재현하는 능력을 보여줌으로써 출판사의 지식재산권을 침해했을 가능성이 있다는 주장에 관한 것입니다.

이번 소송 제기는 주요 미디어 기업들이 AI 개발업체에 맞서는 증가하는 추세를 대변합니다. 생성형 AI(Generative AI) 모델이 점차 정교해짐에 따라, 이러한 모델을 학습시키는 데 필요한 방대한 데이터 세트와 콘텐츠 창작자의 권리 사이의 마찰은 한계점에 도달했습니다. 펭귄 랜덤 하우스에게 있어 이것은 단순한 단일 도서 시리즈에 대한 분쟁이 아닙니다. 이는 출판 산업을 지탱하는 경제 모델에 대한 근본적인 도전입니다.

"꼬마 공룡 코코넛": AI 침해 사례 연구

이 소송의 핵심은 독일의 사랑받는 아동 도서 시리즈인 *꼬마 공룡 코코넛(Coconut the Little Dragon)*입니다. 법원에 제출된 서류에 따르면, 원고 측은 OpenAI의 거대 언어 모델(Large Language Models, LLMs)이 사전 동의나 보상 없이 코코넛 시리즈 전체를 포함한 독점 자료를 학습했다고 주장합니다. 원고는 ChatGPT가 프롬프트 입력 시 해당 시리즈의 저작권이 있는 서사와 실질적으로 유사하거나 토씨 하나 틀리지 않은 복사본인 텍스트를 생성했다고 단언합니다.

이러한 주장은 OpenAI에 특히 치명적인데, 이는 논쟁의 초점을 학습 목적의 "공정 이용(fair use)"에서 모델의 실제 출력물로 옮기기 때문입니다. 만약 뮌헨 법원이 모델의 학습 데이터 수집이 표현력이 풍부한 저작권 콘텐츠의 무단 복제로 이어졌다고 판결한다면, 이는 유럽연합(EU) 내 OpenAI의 운영에 위험한 선례를 남길 수 있습니다. "학습이 복제인가"에 대한 추상적인 논쟁과 달리, 출력물 기반의 침해 증명은 저작권 위반 주장에 대한 구체적인 근거를 제공합니다.

생성형 AI의 광범위한 법적 지형

뮌헨에서의 소송은 결코 고립된 사건이 아닙니다. 이는 작가, 예술가, 뉴스 기관 및 소프트웨어 개발자가 연루된 복잡하고 세계적인 법적 도전의 일부입니다. 출판계는 지식재산권이 모델 최적화를 위한 단순한 원자재로 취급되는 AI 학습의 "블랙박스(black box)"적 성격에 대해 점점 더 경계하고 있습니다.

펭귄 랜덤 하우스 소송의 맥락을 이해하려면 현재 업계를 형성하고 있는 여러 다른 주요 법적 조치들과 비교해 보는 것이 필수적입니다. 아래 표는 권리 보유자와 AI 기업 간의 가장 중대한 대립 상황 중 일부를 개괄적으로 보여줍니다.

AI 분야의 주요 저작권 분쟁

원고	피고	주요 주장	상태
펭귄 랜덤 하우스	OpenAI	아동 도서의 무단 수집 및 복제	2026년 4월 제기
뉴욕 타임스	OpenAI	원본 보도와 경쟁하기 위한 뉴스 기사 학습	소송 진행 중
다양한 시각 예술가들	Stability AI/Midjourney	잠재 확산 모델을 위한 저작권 이미지 사용	집단 소송 진행 중
작가 길드	OpenAI	동의 없는 저작권 소설의 대량 수집	증거 개시 단계

표에서 볼 수 있듯이 법적 지형은 파편화되어 있습니다. 원고들은 입력 데이터(학습 데이터)에 집중하거나 출력 데이터(복제)에 집중하는 등 서로 다른 전략을 활용하고 있습니다. 펭귄 랜덤 하우스의 뮌헨 소송은 역사적으로 지식재산권에 대해 강력한 보호 장치를 제공하는 유럽 저작권법을 활용한다는 점에서 특히 주목할 만하며, 이는 미국의 유사한 사례보다 더 빠른 판결로 이어질 가능성이 있습니다.

침해 증명의 과제

이러한 소송에서의 기술적 어려움은 생성형 AI의 특성에 있습니다. ChatGPT와 같은 모델은 전통적인 의미의 "복사해서 붙여넣기"를 하지 않습니다. 대신 텍스트에서 발견된 패턴의 통계적 표현을 저장합니다. 모델이 꼬마 공룡 코코넛과 유사한 텍스트를 출력할 때, 이는 저장된 도서 데이터베이스에 접근하는 것이 아니라 학습을 바탕으로 가장 가능성이 높은 다음 토큰을 예측하는 것입니다.

따라서 출판사 측 법무팀은 다음과 같은 막중한 입증 책임을 지게 됩니다:

학습 증명: 학습 데이터가 공개되지 않는 경우가 많음에도 불구하고 특정 저작권 텍스트가 학습 코퍼스에 포함되었음을 입증해야 함.
실질적 유사성: AI의 출력물이 단순히 "영감을 받았거나" 스타일적 트렌드를 따르는 것이 아니라 2차적 저작물을 구성함을 증명해야 함.
손해액 산정: 콘텐츠를 요약하거나 재현하는 AI의 능력으로 인해 소비자가 원본 도서를 구매할 필요성이 줄어들어 발생하는 재정적 피해를 계산해야 함.

기술적 및 규제적 시사점

OpenAI 측은 공개된 데이터나 라이선스를 얻은 데이터로 AI를 학습시키는 것이 "공정 이용" 또는 기존 권리를 침해하지 않는 변형적 이용에 해당한다고 일관되게 주장해 왔습니다. 그들은 모델이 책을 암기하는 것이 아니라 개념, 문법 및 사실을 학습한다고 주장합니다. 그러나 펭귄 랜덤 하우스가 주장한 것과 같은 축자적 복제(verbatim replication)의 증거가 나타나면서 이러한 주장을 유지하기가 더 어려워지고 있습니다.

콘텐츠 라이선스와 AI의 미래

앞으로 이 소송은 출판 산업의 새로운 기준을 세우는 촉매제 역할을 할 수 있습니다. 우리는 다음과 같은 변화를 보게 될 가능성이 높습니다:

직접 라이선스 계약: 주요 출판사들은 음반사가 스트리밍 플랫폼에 음악 라이선스를 부여하는 것과 유사하게 AI 기업과 대규모 라이선스 계약을 협상할 수 있습니다.
거부(Opt-Out) 메커니즘: 자동 크롤러가 독점 콘텐츠를 수집하는 것을 방지하는 표준화된 메타데이터를 존중하도록 AI 연구소에 가해지는 압력이 커질 것입니다.
기술적 감사: 파운데이션 모델을 학습시키는 데 어떤 데이터 세트가 사용되는지에 대한 투명성 요구가 높아질 것이며, 주요 기업용 AI의 경우 제3자 감사가 표준 요건이 될 것입니다.

Creati.ai가 이러한 전개를 계속 주시하고 있는 상황에서, "AI 골드러시" 시대가 성숙기에 접어들고 있음은 분명해 보입니다. 무분별하고 익명으로 이루어지던 데이터 스크래핑의 시대는 끝나가고 있습니다. 법조계는 마침내 기술을 따라잡고 있으며, 이번 분쟁의 결과는 향후 수년간 AI 개발자와 인간의 창의성 세계 간의 교전 규칙을 규정하게 될 것입니다. 판결 결과와 상관없이 출판계의 메시지는 분명합니다. 책임의 시대가 도래했다는 것입니다.