Droit d'auteur: Britannica y Merriam-Webster atacan a OpenAI en justicia

Derechos de autor: Britannica y Merriam-Webster demandan a OpenAI

El conflicto entre editores y empresas de IA entra en una nueva fase. Tras las acciones emprendidas por varios grupos de prensa y titulares de derechos, Encyclopaedia Britannica y su filial Merriam-Webster han presentado una demanda contra OpenAI, acusándola de haber utilizado sin autorización una gran cantidad de contenidos protegidos para entrenar sus modelos.

La demanda ha sido presentada ante el tribunal federal de Manhattan, y se centra en el copyright, los usos tipo RAG y el derecho de marcas.

Acusaciones de Britannica y Merriam-Webster contra OpenAI

En el centro del caso, Britannica afirma que OpenAI ha copiado cerca de 100,000 artículos de enciclopedias y diccionarios para entrenar a ChatGPT y otros modelos. Los demandantes sostienen también que algunos resultados generados por ChatGPT reproducen formulaciones muy similares, incluso casi textualmente, de sus contenidos. Según ellos, esto convierte a la IA en un sustituto directo de sus servicios editoriales, arriesgando desviar parte del tráfico que de otro modo habría llegado a sus sitios.

La demanda no se limita al entrenamiento inicial de los modelos. Britannica también cuestiona el uso de sus contenidos en las respuestas enriquecidas por la recuperación de información reciente, conocido generalmente como RAG. La empresa sostiene que OpenAI recupera, copia y reutiliza total o parcialmente sus contenidos cuando un usuario hace una pregunta, lo que reforzaría aún más el efecto de sustitución económica.

Otro ángulo de ataque: el derecho de marcas. Britannica acusa a ChatGPT de atribuir a veces erróneamente ciertas respuestas o alucinaciones a Britannica o Merriam-Webster, lo que, según los demandantes, puede inducir a los usuarios a error y dañar la credibilidad de marcas construidas precisamente sobre la fiabilidad de la información. La compañía solicita daños no especificados y una orden para impedir nuevos usos litigiosos.

Un caso más en un litigio cada vez más estructurante

Este proceso se suma a una serie de litigios ya iniciados contra los grandes actores de la IA generativa. Reuters recuerda que OpenAI defiende, por su parte, que el entrenamiento sobre datos accesibles públicamente constituye uso justo, una línea de defensa que se ha vuelto central en la industria. Britannica, de hecho, ya había presentado una acción separada contra Perplexity AI, señal de que la ofensiva legal busca más ampliamente los usos no licenciados de contenidos de referencia por motores y agentes de IA.

¿Qué puede suceder ahora?

La realidad es que el marco jurídico sigue siendo inestable. Los tribunales estadounidenses han comenzado a trazar líneas, pero aún no hay una regla simple y definitiva que indique si el entrenamiento de un modelo sobre obras protegidas constituye, en sí mismo, una violación de derechos de autor. Sin embargo, un punto parece despejarse: la cuestión del modo de adquisición de los contenidos y la salida del modelo son tan importantes como el entrenamiento mismo.

El precedente más citado es el de Anthropic. En el caso Bartz v. Anthropic, un juez federal determinó que el entrenamiento con libros adquiridos legalmente podría considerarse de uso transformador y, por lo tanto, de uso justo. En cambio, el uso de libros obtenidos a través de bibliotecas piratas se trató por separado como un problema de infracción, y Anthropic concluyó posteriormente un acuerdo de 1.5 mil millones de dólares con autores y editores, acuerdo aprobado preliminarmente por el tribunal.

Es precisamente esto lo que hace que el caso de Britannica sea potencialmente importante. Si el tribunal considera que las respuestas de ChatGPT compiten directamente con un editor de referencia al reproducir su valor editorial, el caso podría tener repercusiones más amplias que el mero debate abstracto sobre el entrenamiento. Abarcaría entonces la cuestión más sensible para los editores: la del reemplazo de la audiencia, el tráfico y, al final de la cadena, el modelo económico. Esta interpretación sigue siendo un análisis, no una conclusión judicial.

En última instancia, esta demanda deja claro el momento actual de la IA generativa: tras una fase de rápida expansión, ha llegado el momento del enfrentamiento con los productores de contenido que quieren recuperar el control sobre el valor de sus archivos. Y cuanto más capaces sean los modelos de responder directamente en lugar de los sitios, más central se volverá esta lucha por el futuro de la web.