Merriam-Webster et Encyclopedia Britannica poursuivent OpenAI pour une violation de droits d'auteur

Un nouveau front juridique : Britannica et Merriam-Webster défient OpenAI

Dans une escalade significative des batailles juridiques redéfinissant l'industrie de l'intelligence artificielle (Artificial Intelligence), Encyclopedia Britannica et sa filiale Merriam-Webster ont déposé une plainte au niveau fédéral contre OpenAI. La plainte, soumise au tribunal de district des États-Unis pour le district sud de New York le 13 mars 2026, allègue que le géant de l'IA s'est livré à une violation « massive » du droit d'auteur en utilisant près de 100 000 articles protégés des éditeurs pour entraîner ses grands modèles de langage (Large Language Models) sans autorisation ni compensation.

Cette action en justice représente un moment charnière dans le conflit en cours entre les institutions d'édition traditionnelles et les développeurs d'IA générative (Generative AI). Alors que la dépendance à l'IA pour la recherche d'informations s'accroît, la tension entre l'accessibilité des données et la protection de la propriété intellectuelle a atteint un point de rupture. Les plaignants soutiennent que leur contenu, minutieusement recherché, vérifié et financé par abonnement, est réutilisé pour alimenter des outils qui les concurrencent directement, menaçant leurs modèles commerciaux et l'intégrité de l'information.

Les principales allégations : au-delà du simple moissonnage

Le procès se concentre sur l'ingestion systématique de propriété intellectuelle protégée. Selon les documents judiciaires, OpenAI aurait exploré et extrait (scraped) le contenu des sites web de Britannica et Merriam-Webster pour entraîner son chatbot phare, ChatGPT, et les systèmes associés. Les éditeurs soutiennent que ce processus n'était pas simplement une collecte passive d'informations publiques, mais une appropriation non autorisée d'œuvres protégées de grande valeur.

La plainte met l'accent sur deux modes de préjudice principaux :

Ingestion de données d'entraînement : L'allégation selon laquelle près de 100 000 articles ont été utilisés comme données d'entraînement fondamentales pour les modèles GPT, apprenant essentiellement à l'IA à reproduire la synthèse unique de connaissances des éditeurs.
Exploitation de la génération augmentée de récupération (RAG) : Au-delà de l'entraînement, le procès note que les systèmes d'OpenAI utilisent la technologie de génération augmentée de récupération (Retrieval-Augmented Generation), ou RAG, pour puiser dans le contenu de Britannica en temps réel, fournissant des résumés qui dispensent les utilisateurs de visiter les sources originales.

Les plaignants soutiennent que ce cycle crée une relation parasitaire où l'IA bénéficie de l'investissement des éditeurs dans l'expertise humaine tout en n'offrant aucun retour financier aux créateurs. En détournant le trafic qui irait normalement vers les sites officiels, OpenAI est accusé de cannibaliser les revenus d'abonnement et de publicité qui financent la maintenance de ces plateformes de référence.

Préoccupations liées aux marques et le problème des « hallucinations »

L'aspect le plus distinct de ce défi juridique est peut-être l'accent mis sur la dilution de marque (trademark dilution) et la désignation d'origine mensongère. Les éditeurs soutiennent que le problème va au-delà du simple copiage de texte ; il s'étend à l'intégrité de leurs marques. Lorsque ChatGPT subit des « hallucinations » — où il génère des informations inexactes ou fabriquées — il attribue parfois faussement ces données à Britannica ou à Merriam-Webster.

Cette pratique, affirment les éditeurs, viole directement la loi Lanham (Lanham Act). Ils affirment que les systèmes d'OpenAI exploitent la réputation de confiance de ces institutions centenaires pour ajouter un vernis de crédibilité au contenu généré, même lorsque ce contenu est incorrect. Ce problème d'« hallucination » fait plus que simplement dérouter les utilisateurs ; il menace activement la réputation de longue date des marques en matière d'exactitude et de fiabilité.

Résumé du conflit juridique

Le tableau suivant résume les principaux points de discorde et les positions opposées tenues par les plaignants et le défendeur.

Revendication/Problème	Position des plaignants (Britannica/Merriam-Webster)	Position du défendeur (OpenAI)
Données d'entraînement protégées	Utilisation non autorisée de plus de 100 000 articles pour l'entraînement des LLM	Les données publiquement disponibles relèvent de l' usage loyal (fair use)
Impact sur les revenus	Les systèmes d'IA détournent le trafic et cannibalisent les revenus d'abonnement	Les modèles favorisent l'innovation et ne remplacent pas les sources originales
Intégrité des marques	Les hallucinations attribuent faussement des inexactitudes aux éditeurs	L'IA génère des sorties transformatrices et nouvelles
Portée de la responsabilité	Moissonnage généralisé, systémique et non autorisé	Le fonctionnement s'aligne sur les pratiques standard de l'industrie de l'IA

Le paysage juridique plus large

Ce procès n'est pas un incident isolé mais s'inscrit dans une vague croissante de litiges enveloppant actuellement le secteur de l'IA. Avec plus de 90 poursuites similaires pour violation du droit d'auteur déposées contre des entreprises d'IA aux États-Unis, le précédent juridique concernant l'entraînement de l' intelligence artificielle (artificial intelligence) est encore en cours d'écriture.

L'affaire contre OpenAI rejoint un environnement complexe de litiges multidistricts dans le district sud de New York. D'autres géants des médias, dont The New York Times, ont déjà entamé des procédures similaires. Les observateurs et les experts juridiques suivent de près ces développements, car ils dicteront probablement l'avenir de l'« usage loyal » (fair use) appliqué à l'apprentissage automatique (machine learning). OpenAI a toujours maintenu que ses modèles reposent sur des données publiquement disponibles, affirmant que la technologie transforme les informations en sorties entièrement nouvelles plutôt qu'en reproductions directes.

Implications économiques et stratégiques

Pour les lecteurs de Creati.ai et les observateurs de l'industrie, cette affaire souligne un point d'inflexion critique pour les modèles commerciaux numériques. Les éditeurs soutiennent que leur investissement dans un contenu de haute qualité, créé par l'homme, est sapé sans compensation. Alors que les modèles d'IA deviennent l'interface principale pour la découverte d'informations, le plaidoyer des éditeurs pour une « juste rémunération » reflète une anxiété plus large parmi les créateurs de contenu concernant la durabilité de l'écosystème Internet.

Si le tribunal statuait en faveur de Britannica et Merriam-Webster, cela pourrait nécessiter un changement radical dans la manière dont les entreprises d'IA abordent l'acquisition de données. À l'inverse, une décision défavorable aux plaignants pourrait encourager les développeurs à continuer d'utiliser des ensembles de données publiquement disponibles sans accords de licence. Au fur et à mesure que l'affaire avance, l'industrie surveillera de près la manière dont le tribunal interprète la nature transformatrice de l'intelligence artificielle générative face aux droits protégés des détenteurs de propriété intellectuelle. La résolution de ce litige établira probablement une norme fondamentale pour la prochaine décennie de développement de l'IA.