El incierto futuro de la demanda del NYT contra la IA

La "Dama Gris" del periodismo mundial ha desatado la cruzada contra las empresas de IA que han usado sus contenidos para entrenar los modelos. INFORMACIÓN

El New York Times, considerado por propios y extraños como el periódico más influyente del mundo, ha decidido poner pie en pared con respecto a las libertades que empresas implicadas en el desarrollo de la Inteligencia Artificial pudieron tomarse con sus contenidos y ha demandado a OpenAI, creadora de los modelos GPT-4 y de ChatGPT, y a Microsoft, que usa la tecnología del mismo LLM en varios de sus programas más populares, ante los tribunales estadounidenses. Tras muchos meses de negociaciones infructuosas, como admitió una portavoz de OpenAI, y pocas semanas después de que se conociera que el grupo Springer había decidido pactar con la empresa de Sam Altman y evitar llevar sus diferencias a los tribunales, el periódico de la familia Sulzberger abre una arriesgada batalla judicial en la defensa de sus intereses que se adivina como larga e incierta. Aunque pueda parecer lo contrario, no está claro que el NYT pueda ganar este litigio con facilidad ni que las empresas de IA no tengan derecho a usar los contenidos protegidos que usaron. Pase lo que pase, el fallo judicial, si no se produce algún acuerdo que pare el proceso, será histórico y marcará un antes y un después en el uso, hoy por hoy imprescindible, de contenidos con derechos de autor en el entrenamiento de los modelos de IA.

Ya explicamos en la primera entrada de “La máquinAInteligente” cómo se descubrió, en una investigación liderada por el Washington Post, el uso indiscriminado de estos contenidos con “copyright” por parte de las empresas creadoras de estos “modelos fundacionales” de IA, una práctica que realizaron sin consultar en ningún momento a los legítimos propietarios de esos datos lo que estaban haciendo con ellos.

El NYT no solo demuestra en su demanda (aquí disponible) con pruebas ese uso no permitido, sino que va más allá y revela también las consecuencias de ese uso. El periódico demuestra que el contenido de artículos del periódico, incluso cerrados tras su muro de pago, son plenamente accesibles en ChatGPT si se le hace al chatbot una pregunta concreta. El periódico de Nueva York utiliza una referencia tan popular como el artículo “Avalancha”, considerado como el modelo fundacional de las nuevas narrativas periodísticas en Internet. ChatGPT responde alegremente dando el primer párrafo del artículo y el segundo, cuando así se le requiere. Según la demanda, copia incluso el estilo redaccional del periódico neoyorquino al resumir el contenido de “Snowfall”. En otro ejemplo de Bing, el buscador de Microsoft que ya utiliza tecnología de ChatGPT, se cita textualmente contenido de un artículo del periódico sin que en ningún momento se enlace con el contenido original. Ambos ejemplos demostrarían, por un lado, que los millones de contenidos de la prensa mundial utilizados no solo sirvieron de base para el entrenamiento y que luego la IA los olvidó una vez utilizados, sino que siguen ahí, y, por otro, que hay un uso inapropiado de contenido original sin cita. Por ello, el periódico destaca en la demanda que estos modelos de IA compiten directamente con el NYT, usando sus noticias además, en un rol “como fuente de información confiable”. Una competencia, si compartimos el punto de vista del periódico, altamente desleal. Por si fuera poco, no solo compiten con contenido ajeno, sino que las alucinaciones de la IA hunden el prestigio del periódico al atribuirle artículos que no son suyos.

Detalle de la demanda del NYT en el que se aprecia que el artículo original y la respuesta de ChatGPT son casi idénticas. INFORMACIÓN / NYT

¿Significa todo esto que el NYT tiene muchas posibilidades de ganar la demanda? Hay bastantes motivos para pensar que sí y que por eso han dado ese paso, en el que hay un evidente objetivo legal de reparación del daño en forma de cuantiosas indemnizaciones pero también mucho de acto testimonial para marcar límites: el estandarte del periodismo mundial contra los grandes mandarines de la tecnología, intocables hasta ahora. Pero también hay muchos otros argumentos que indican que esa victoria es difícil. De entrada, ni siquiera en la “IA Act”, la ley europea de Inteligencia Artificial, se establece la obligatoriedad para que, retroactivamente, los desarrolladores de los modelos fundacionales de IA revelen cuáles son las fuentes del contenido que utilizaron en el entrenamiento. Sí lo será a partir de la entrada en vigor de la nueva norma. No obstante, aunque la legislación europea protege con mucha fuerza los derechos de autor, tanto como la norteamericana, hay notables excepciones a ese derecho, especialmente en esta última, a las que las empresas digitales se han agarrado como un clavo ardiendo consiguiendo notables victorias judiciales.

Un ejemplo claro es la demanda que Google ganó a Authors Guild, el sindicato de autores más antiguo de EEUU, por una práctica habitual en Google Books: copiar sin permiso partes de decenas de millones de libros, a veces capítulos enteros, que se ofrecían gratuitamente como “aperitivo” o “reclamo” para los lectores como medio de facilitar la compra dando a conocer su contenido. Los autores, con evidentes derechos de copyright sobre sus propias obras, no fueron consultados por esta práctica y acudieron a los tribunales. Pero, sorprendentemente, estos le dieron la razón a Google. Según los jueces, lo que hizo el buscador fue una estrategia “altamente transformadora”, que creaba un concepto nuevo a partir de contenido ajeno, y por tanto, al proporcionar utilidad social, era un ejemplo de “uso legítimo”. El tweet de X sobre estas líneas compara ambos casos y se pregunta hasta qué punto no pueden estar relacionados.

Quédense con esos tres conceptos: “transformador”, “utilidad social” y “uso legítimo”. Los tres tienen muchas posibilidades de constituir la clave de bóveda más que probable de la estrategia legal que tanto OpenAI como Microsoft desplegarán, no se sabe si por separado o conjuntamente, para demostrar que pese a utilizar contenido protegido del NYT en realidad no hicieron nada ilegal. Es más su carácter transformador y su utilidad social justificarían que el uso de contenido protegido fue un caso de “uso legítimo”.

La doctrina del “uso legítimo” (“fair use” en inglés), que contempla la ley norteamericana de derechos de autor, ha sido muy utilizada en los últimos años en casos que implican litigios sobre creaciones tecnológicas y supone un límite claro a esos derechos dando carta blanca al uso de contenidos protegidos. Una abogada norteamericana especializada en estos litigios, Jenny Quang, a la que ya he citado en alguna entrada anterior del blog, publicó en enero de este año un largo artículo muy revelador titulado “¿Viola el entrenamiento de la IA la Ley sobre Derechos de Autor?” en una publicación jurídica sobre temas tecnológicos de la Universidad de Berkeley. Quang, que trabaja en el bufete Kirkland&Ellis (uno de los más grandes del mundo en asuntos relacionados con fondos de inversión, habituales inversores de la IA), defiende que no hay delito en el uso de contenidos como los artículos del NYT en el entrenamiento de una inteligencia artificial. Aunque asume la doctrina del “fair use” como única estrategia legal posible para defender ese uso, admite que no es nada segura porque los tribunales han estimado tantas veces esa doctrina para favorecer al autor en la defensa de sus derechos como lo contrario. De hecho, su artículo es una reclamación pública de que sea el Congreso quien cree un “puerto seguro” para que la IA pueda desarrollarse, primando el interés social del desarrollo de esta tecnología sobre los intereses privados de los dueños de los datos que se usaran en crear los LLM. Por tanto, de confirmarse esta estrategia, los grandes de la IA también estarían haciendo una apuesta arriesgada y altamente testimonial si invocan esos principios: una forma de crear un gran debate social sobre el futuro de una tecnología que ha sido puesta al nivel de la electricidad en el desarrollo humano. Y, por supuesto, poner contra las cuerdas a los jueces por todo lo que hay en juego. De hecho Jenny Quang, hábilmente, no quiere dejar a la IA al albur inseguro del “uso legítimo” y desliza en su argumentario sin disimulo que el objetivo de EEUU de mantenerse y afianzar el liderazgo de la IA a nivel mundial bien vale que el Congreso de EEUU se moje en el asunto.

Pese a que las revelaciones de NYT en su demanda han indignado a muchos contra las grandes empresas de Inteligencia Artificial, hay otros muchos que piensan que la IA es hoy por hoy un “bien mayor” y que frenarla, ahora que se ha “democratizado”, sería un paso atrás inadmisible. Hay que tener en cuenta que se habla de “democratización” porque el acceso a la mayoría de las herramientas de IA es hoy por hoy mayoritariamente gratuito, aunque está claro que no será siempre así. Ejemplo de esta postura es el artículo firmado por varios profesores de leyes y científicos de datos titulado “El entrenamiento lo es todo”, en el que se señala que dado que esa IA necesita de esos datos para su “training” y que sin ellos no hay IA, es necesario crear una variante en la ley de derecho de autor de EEUU del “uso legítimo”: lo denominan “formación justa” e inciden en el indudable poder transformador de esta tecnología (recuerden el argumento en el caso de los libros y Google).

Y ya que hablamos de la “gran G”, una nota final sobre una posible debilidad de la demanda del NYT: ¿por qué solo están incluidos OpenAI y Microsoft cuando el periódico de los Sulzberger sabe, perfectamente, que otros modelos de IA han utilizado su contenido en sus entrenamientos respectivos? ¿Demasiado ir contra todos en una sola demanda? ¿Divide y vencerás?