Merriam-Webster y Encyclopedia Britannica demandan a OpenAI por una infracción de derechos de autor 'masiva'

Un nuevo frente legal: Britannica y Merriam-Webster desafían a OpenAI

En una escalada significativa de las batallas legales que están reconfigurando la industria de la inteligencia artificial, Encyclopedia Britannica y su subsidiaria Merriam-Webster han presentado una demanda federal contra OpenAI. La denuncia, presentada ante el Tribunal de Distrito de los EE. UU. para el Distrito Sur de Nueva York el 13 de marzo de 2026, alega que el gigante de la IA participó en una infracción de derechos de autor "masiva" al utilizar casi 100,000 artículos protegidos por derechos de autor de las editoriales para entrenar sus modelos de lenguaje extenso sin autorización ni compensación.

Esta acción legal representa un momento crucial en el conflicto en curso entre las instituciones editoriales tradicionales y los desarrolladores de IA generativa (Generative AI). A medida que crece la dependencia de la IA para la recuperación de información, la tensión entre la accesibilidad de los datos y la protección de la propiedad intelectual ha alcanzado un punto crítico. Los demandantes argumentan que su contenido, meticulosamente investigado, verificado y financiado por suscripciones, está siendo reutilizado para alimentar herramientas que compiten efectivamente con ellos, amenazando sus modelos de negocio y la integridad de la información.

Las alegaciones principales: más allá del simple rastreo

La demanda se centra en la ingestión sistemática de propiedad intelectual protegida. Según los documentos judiciales, OpenAI supuestamente rastreó y extrajo contenido de los sitios web de Britannica y Merriam-Webster para entrenar a su chatbot insignia, ChatGPT, y sistemas relacionados. Las editoriales sostienen que este proceso no fue simplemente una recopilación pasiva de información pública, sino una apropiación no autorizada de obras protegidas por derechos de autor de alto valor.

La denuncia enfatiza dos modos primarios de daño:

Ingestión de datos de entrenamiento: La alegación de que casi 100,000 artículos se utilizaron como datos de entrenamiento fundamentales para los modelos GPT, enseñando esencialmente a la IA a reproducir la síntesis única de conocimiento de las editoriales.
Explotación de la generación aumentada por recuperación (RAG, Retrieval-Augmented Generation): Más allá del entrenamiento, la demanda señala que los sistemas de OpenAI utilizan la tecnología RAG para extraer contenido de Britannica en tiempo real, ofreciendo resúmenes que anulan la necesidad de que los usuarios visiten las fuentes originales.

Los demandantes argumentan que este ciclo crea una relación parasitaria donde la IA se beneficia de la inversión de las editoriales en experiencia humana sin proporcionar ningún retorno financiero a los creadores. Al desviar el tráfico que de otro modo iría a los sitios web oficiales, se acusa a OpenAI de canibalizar los ingresos por suscripción y publicidad que financian el mantenimiento de estas plataformas de referencia.

Preocupaciones de marca registrada y el problema de la "alucinación"

Quizás el aspecto más distintivo de este desafío legal es el enfoque en la dilución de marca registrada (trademark dilution) y la designación falsa de origen. Las editoriales argumentan que el problema va más allá de la mera copia de texto; se extiende a la integridad de sus marcas. Cuando ChatGPT experimenta "alucinaciones" —donde genera información inexacta o fabricada— a veces atribuye falsamente estos datos a Britannica o Merriam-Webster.

Esta práctica, afirman las editoriales, viola directamente la Ley Lanham (Lanham Act). Aseveran que los sistemas de OpenAI aprovechan la reputación de confianza de estas instituciones centenarias para añadir una apariencia de credibilidad al contenido generado, incluso cuando ese contenido es incorrecto. Este problema de "alucinación" hace más que solo confundir a los usuarios; amenaza activamente la reputación de larga data de las marcas en cuanto a precisión y confiabilidad.

Resumen del conflicto legal

La siguiente tabla resume los puntos principales de discordia y las posiciones opuestas mantenidas por los demandantes y el demandado.

Reclamación/Asunto	Posición de los demandantes (Britannica/Merriam-Webster)	Posición del demandado (OpenAI)
Datos de entrenamiento con derechos de autor	Uso no autorizado de más de 100,000 artículos para entrenar LLMs	Los datos disponibles públicamente entran en el uso legítimo (fair use)
Impacto en los ingresos	Los sistemas de IA desvían el tráfico y canibalizan los ingresos por suscripción	Los modelos potencian la innovación y no reemplazan las fuentes originales
Integridad de la marca registrada	Las alucinaciones atribuyen falsamente inexactitudes a las editoriales	La IA genera resultados que son transformadores y nuevos
Alcance de la responsabilidad	Rastreo generalizado, sistémico y no autorizado	La operación se alinea con las prácticas estándar de IA de la industria

El panorama legal más amplio

Esta demanda no es un incidente aislado, sino parte de una marea creciente de litigios que actualmente envuelven al sector de la IA. Con más de 90 demandas por derechos de autor similares presentadas contra empresas de IA en los Estados Unidos, el precedente legal con respecto al entrenamiento de la inteligencia artificial todavía se está escribiendo.

El caso contra OpenAI se une a un complejo entorno de litigios multidistritales en el Distrito Sur de Nueva York. Otros gigantes de los medios, incluido The New York Times, ya han iniciado procedimientos similares. Los observadores y expertos legales están siguiendo estos desarrollos de cerca, ya que probablemente dictarán el futuro del "uso legítimo" (fair use) aplicado al aprendizaje automático (machine learning). OpenAI ha mantenido consistentemente que sus modelos dependen de datos disponibles públicamente, afirmando que la tecnología transforma la información en resultados completamente nuevos en lugar de reproducciones directas.

Implicaciones económicas y estratégicas

Para los lectores de Creati.ai y los observadores de la industria, este caso resalta un punto de inflexión crítico para los modelos de negocio digitales. Las editoriales argumentan que su inversión en contenido de alta calidad creado por humanos está siendo socavada sin compensación. A medida que los modelos de IA se convierten en la interfaz principal para el descubrimiento de información, la petición de las editoriales de una "compensación justa" refleja una ansiedad más amplia entre los creadores de contenido con respecto a la sostenibilidad del ecosistema de Internet.

Si el tribunal falla a favor de Britannica y Merriam-Webster, podría requerir un cambio radical en la forma en que las empresas de IA abordan la adquisición de datos. Un fallo en contra de los demandantes, por el contrario, podría envalentonar a los desarrolladores para continuar utilizando conjuntos de datos disponibles públicamente sin acuerdos de licencia. A medida que el caso avanza, la industria monitoreará de cerca cómo el tribunal interpreta la naturaleza transformadora de la inteligencia artificial generativa frente a los derechos protegidos de los titulares de propiedad intelectual. La resolución de este conflicto probablemente establecerá un estándar fundamental para la próxima década del desarrollo de la IA.