Penguin Random House poursuit OpenAI en justice pour violation du droit d’auteur par ChatGPT

La bataille juridique commence à Munich : Penguin Random House défie OpenAI

Dans une escalade significative du conflit en cours entre l'industrie créative et le secteur de l'intelligence artificielle, le géant de l'édition Penguin Random House a officiellement entamé des poursuites judiciaires contre OpenAI à Munich. Ce procès marque un moment charnière pour le droit international d'auteur, déplaçant le centre d'intérêt du débat centré sur les États-Unis vers le paysage juridique européen. Le cœur de la plainte tourne autour d'allégations selon lesquelles le modèle ChatGPT d'OpenAI a non seulement ingéré des œuvres protégées par le droit d'auteur sans autorisation, mais a également démontré la capacité de reproduire du contenu directement à partir de la série populaire Coconut le petit dragon (Der kleine Drache Kokosnuss), violant potentiellement les droits de propriété intellectuelle de l'éditeur.

Ce dépôt de plainte représente une tendance croissante de grandes entreprises médiatiques confrontées aux développeurs d'IA. À mesure que les modèles d'IA générative（Generative AI）deviennent de plus en plus sophistiqués, la friction entre les ensembles de données massifs requis pour entraîner ces modèles et les droits des créateurs de contenu a atteint un point de rupture. Pour Penguin Random House, il ne s'agit pas seulement d'un différend sur une seule série de livres ; c'est un défi fondamental concernant le modèle économique qui soutient l'industrie de l'édition.

« Coconut le petit dragon » : Une étude de cas sur la violation par l'IA

Le point central de ce procès est la célèbre série de livres pour enfants allemande, Coconut le petit dragon. Selon le dossier juridique, le plaignant soutient que les grands modèles de langage（Large Language Models - LLMs）d'OpenAI ont été entraînés sur des documents propriétaires, y compris l'intégralité de la série Coconut, sans consentement préalable ni compensation. Les plaignants affirment que ChatGPT, lorsqu'il est sollicité, a produit du texte substantiellement similaire à, ou des copies textuelles de, récits protégés par le droit d'auteur de la série.

Cette allégation est particulièrement préjudiciable pour OpenAI car elle déplace l'argument de l'« usage loyal（Fair Use）» à des fins d'entraînement vers la production réelle du modèle. Si un tribunal de Munich estime que l'ingestion de données d'entraînement du modèle a entraîné la réplication non autorisée de contenu expressif protégé, cela pourrait créer un précédent dangereux pour les opérations d' OpenAI au sein de l'Union européenne. Contrairement au débat abstrait sur le point de savoir si « l'entraînement est une copie », la démonstration d'une violation basée sur la production fournit une base concrète pour des réclamations de violation du droit d'auteur.

Le paysage juridique plus large de l'IA générative

Le procès à Munich est loin d'être un incident isolé. Il fait partie d'une mosaïque mondiale complexe de défis juridiques impliquant des auteurs, des artistes, des organisations de presse et des développeurs de logiciels. L'industrie de l'édition se méfie de plus en plus de la nature de « boîte noire » de l'entraînement de l'IA, où la propriété intellectuelle est traitée comme une simple matière première pour l'optimisation des modèles.

Pour comprendre le contexte du dépôt de plainte de Penguin Random House, il est essentiel de l'examiner à la lumière de plusieurs autres actions en justice de haut niveau qui façonnent actuellement l'industrie. Le tableau ci-dessous présente certains des affrontements les plus importants entre les détenteurs de droits et les entités d'IA.

Principaux litiges relatifs au droit d'auteur dans le secteur de l'IA

Plaignant	Défendeur	Allégation principale	Statut
Penguin Random House	OpenAI	Ingestion et reproduction non autorisées de littérature jeunesse	Déposé en avril 2026
New York Times	OpenAI	Entraînement sur des articles de presse pour concurrencer les reportages originaux	Litige en cours
Divers artistes visuels	Stability AI/Midjourney	Utilisation d'images protégées pour des modèles de diffusion latente	Statut d'action collective
Authors Guild	OpenAI	Ingestion massive de romans protégés sans consentement	Phase de découverte

Comme le montre le tableau, le paysage juridique est fragmenté. Les plaignants utilisent différentes stratégies — certains se concentrant sur l'entrée (données d'entraînement) et d'autres sur la sortie (reproduction). Le procès de Penguin Random House à Munich est particulièrement notable car il s'appuie sur les protections européennes du droit d'auteur, qui offrent historiquement des garanties solides pour la propriété intellectuelle, offrant potentiellement une voie plus rapide vers un jugement que des cas similaires aux États-Unis.

Défis pour prouver la violation

La difficulté technique de ces procès réside dans la nature même de l'IA générative. Les modèles comme ChatGPT ne font pas de « copier-coller » au sens traditionnel. Au lieu de cela, ils stockent des représentations statistiques de motifs trouvés dans le texte. Lorsqu'un modèle produit un texte qui ressemble à Coconut le petit dragon, il prédit essentiellement les prochains jetons (tokens) les plus probables en fonction de son entraînement, et n'accède pas à une base de données de livres stockés.

Les équipes juridiques des éditeurs sont donc confrontées à une lourde charge de la preuve :

Prouver l'entraînement : Établir que des textes protégés spécifiques ont été inclus dans le corpus d'entraînement, même lorsque les données d'entraînement sont souvent non divulguées.
Similitude substantielle : Démontrer que la production de l'IA constitue une œuvre dérivée plutôt que d'être simplement « inspirée par » ou correspondant à des tendances stylistiques.
Quantification des dommages : Calculer le préjudice financier causé par la capacité de l'IA à résumer ou à reproduire du contenu, ce qui pourrait réduire le besoin pour les consommateurs d'acheter les livres originaux.

Implications techniques et réglementaires

Le procès de Munich souligne la tension entre la philosophie du « move fast and break things » (avancer vite et casser des choses) du boom de l'IA de la Silicon Valley et l'environnement réglementaire de l'Union européenne. Avec l'entrée en vigueur de la Loi sur l'IA de l'UE（EU AI Act）, les entreprises opérant en Europe doivent désormais naviguer avec une conformité plus stricte concernant la transparence et le respect du droit d'auteur.

OpenAI, pour sa part, a constamment soutenu que l'entraînement de l'IA sur des données publiques ou sous licence constitue un « usage loyal », ou une utilisation transformatrice qui ne porte pas atteinte aux droits existants. Ils soutiennent que les modèles apprennent des concepts, de la grammaire et des faits, plutôt que de mémoriser des livres. Cependant, à mesure que des preuves de réplication textuelle — comme celle alléguée par Penguin Random House — font surface, cet argument devient plus difficile à soutenir.

Si le tribunal statue en faveur de l'éditeur, cela pourrait forcer OpenAI à mettre en œuvre des « filtres de droit d'auteur » plus rigoureux pendant le processus d'entraînement, ou potentiellement conduire à un modèle de compensation obligatoire. Un tel résultat transformerait efficacement le paysage de l'entraînement de l'IA, ralentissant potentiellement le développement au profit d'une économie de contenu sous licence où les entreprises d'IA doivent payer des redevances pour accéder aux œuvres protégées.

L'avenir de l'octroi de licences de contenu et de l'IA

À l'avenir, ce procès pourrait servir de catalyseur pour une nouvelle norme dans l'industrie de l'édition. Nous verrons probablement :

Accords de licence directe : Les grands éditeurs pourraient négocier des accords de licence de masse avec les entreprises d'IA, à l'instar de la manière dont les labels de musique accordent des licences aux plateformes de streaming.
Mécanismes d'exclusion (Opt-Out) : Une pression accrue sur les laboratoires d'IA pour respecter les métadonnées standardisées qui empêchent les robots d'indexation automatisés d'ingérer du contenu propriétaire.
Audits technologiques : Une plus grande demande de transparence sur les ensembles de données utilisés pour entraîner les modèles de fondation, l'audit par des tiers devenant une exigence standard pour l'IA d'entreprise majeure.

La décision du tribunal de Munich sera suivie de près par les parties prenantes du monde entier. Elle déterminera non seulement le sort de l'affaire de droit d'auteur sur Coconut le petit dragon, mais servira également de baromètre sur la manière dont les lois européennes traditionnelles sur la propriété intellectuelle s'adapteront à la réalité de l'IA générative.

Alors que Creati.ai continue de surveiller ce développement, il est clair que l'ère de la « ruée vers l'or de l'IA » atteint un point de maturation. Les jours de la collecte de données anonyme et sans restriction semblent comptés. Le secteur juridique rattrape enfin la technologie, et l'issue de ce différend dictera probablement les règles d'engagement entre les développeurs d'IA et le monde de la créativité humaine pour les années à venir. Quel que soit le verdict, le message du monde de l'édition est sans ambiguïté : l'ère de la responsabilité est arrivée.