La IA y la ley del embudo

Así interpretó DALL-E, el generador de imágenes por IA de Chat-GPT, el entrenamiento de una Inteligencia Artificial. DALL-E

Un artículo de Tomás Mayoral

La IA va a cambiar el mundo tal y como lo conocemos. En muchos casos, para mejor. Pero también para peor y no todo es en función de los debatidos efectos sobre el mercado laboral o sobre un apocalíptico fin del mundo, muy cinematográfico pero poco real. El aquí y ahora de ese lado oscuro de la Inteligencia Artificial no tiene que ver solo con los resultados, sino con cómo se está construyendo el edificio de este inmenso poder de las nuevas máquinas inteligentes y de quienes las crean. Nadie sabe con qué criterios éticos se está actuando más allá de los principios de crear un descomunal negocio. Gran parte de este debate, que nos muestra un lado oscuro preocupante, ha provocado los intentos de poner límites legales pese al riesgo de que el proceso de desarrollo de la IA se ralentice, algo en lo que Europa y Estados Unidos, una vez más, no acaban de estar de acuerdo.

Una noticia reciente nos muestra ese lado oscuro del que hablaba. Todo empezó poco después de que se lanzara ChatGPT-4 en marzo de este año. Alguien en el Washington Post (es importante recordar que este clásico rotativo del periodismo estadounidense es propiedad del creador de Amazon, Jeff Bezos, quien también ha anunciado un nuevo proyecto de IA generativa que se lanzará en breve) se planteó saber de dónde venía el volumen de conocimientos que exhiben chatbots como el de OpenAI. Es maravilloso que parezca que me entiende cuando le pregunto y no menos aún que sea capaz de responderme con coherencia, pese a que ninguna de ambas cosas sea cierta. La herramienta es un “loro estocástico” genial, pero sin ninguna capacidad de comprensión, solo utiliza la gigantesca cantidad de datos (texto, para ser exactos) que ha procesado durante su sofisticado entrenamiento para calcular probabilidades. El volumen tratado es tan grande que solo los resultados dan idea de su tamaño. La cuestión que quería analizar el periódico, por tanto, no era cómo me responden los chatbots de Inteligencia Artificial, sino qué me responden y, sobre todo, de dónde ha sacado el contenido de esas respuestas. Obviamente, la explicación es que han extraído esos datos de Internet. Es fácil acceder a ellos porque ya tienen una configuración digital que hace más fácil su tratamiento para el procesado posterior.

El Washington Post detectó que cuando se preguntaba a las grandes empresas de tecnología con modelos generativos de IA de qué fuentes de internet en concreto habían obtenido los datos, las respuestas se volvían vagas o inexistentes. OpenAI, por ejemplo, se negó (siempre lo ha hecho) a explicar qué fuentes ha utilizado para entrenar a los distintos modelos de ChatGPT. Cuando los periodistas del rotativo de la capital de EEUU filtraron, con la ayuda de una empresa especializada, las bases de millones de dominios que habían sido utilizados, afloró lo inesperado: el contenido original de millones de sitios web dedicados al periodismo, al entretenimiento, al desarrollo de software, a la medicina y a la creación de contenidos en general había sido canibalizado en el entrenamiento de la IA e “integrados” en la base de su “conocimiento”. Todos esos sitios web incluían claras advertencias de que su contenido estaba protegido por derechos de autor y nunca autorizaron a nadie a ese acceso. Sin embargo, ahora su información formaba parte de la IA, que podía usarlo en sus respuestas sin citar ningún origen.

El Washington Post encontró entre los materiales usados para entrenar modelos de IA hasta 200 millones de referencias de contenido con "copyright"

El pirateo de datos fue, en algunos casos, doble, ya que allí donde los robots de acceso no llegaban por el camino abierto, se dio un rodeo: el Washington Post encontró 27 sitios que habían sido identificados por el gobierno de Estados Unidos como “mercados” de libros pirateados, algunos cerrados después por las autoridades. Las empresas tecnológicas habían creado un gran agujero negro en el entrenamiento de sus modelos de IA que se había tragado sin permiso miles de gigabytes de datos originales. Hasta 200 millones de veces aparecía contenido con copyright en la lista de webs utilizadas. Por supuesto en ese agujero negro habían caído todos los medios de comunicación digitales, lo cual ahora mismo es como decir “todos” los medios de comunicación de EEUU. De hecho, de los 10 sitios web que más habían “aportado” al entrenamiento de la IA, cinco eran medios de comunicación. También había millones de blogs de autor creados en Word Press, Tumblr, Blogspot o de páginas web creadas en plataformas como sites.google.com.

Un gigantesco embudo que devora millones de datos: así ve la propia IA su proceso de entrenamiento. DALL-E

Al conocer estos hechos, un razonable pánico recorrió a las empresas y particulares que viven de crear contenido original. Las grandes firmas tecnológicas que trabajan en IA se habían gastado mucho dinero en poder de computación y espacio en la nube para desarrollar sus modelos de Inteligencia Artificial. Por supuesto, abonaron a los grandes proveedores de estos servicios, Google y Amazon entre ellos, mucho dinero. Hay miles de millones obtenidos en las rondas de financiación porque los inversores saben que estos proyectos pueden generar ingresos multimillonarios. Pero ni un céntimo había ido a parar a los miles de creadores de conocimiento y contenidos o a las empresas que los sustentan. Estos no figuraban como beneficiarios de los futuros beneficios de esta tecnología, pero es que además corrían el riesgo de que el valor de sus creaciones y sus trabajos se diluyera quedando en nada porque muchas de esas herramientas de IA no reconocen de dónde obtienen el contenido original y evitan, además, citar las fuentes.

Hace apenas 10 días, la News/Media Alliance, que es la poderosa organización que agrupa a los medios de comunicación de EEUU, publicó un libro blanco (puedes bajarlo en este enlace) que analizaba pormenorizadamente este pirateo sistemático de los contenidos de sus asociados “sin autorización ni compensación”. La organización señalaba su apoyo a la IA, “pero no a expensas de los editores y periodistas que invierten tiempo y recursos considerables en producir material que mantenga a nuestras comunidades informadas, seguras y entretenidas, y que mantenga bajo control a nuestros funcionarios gubernamentales y otros tomadores de decisiones”. La Alianza que agrupa a más de 2.000 medios de comunicación norteamericanos trasladó el tema a la Oficina de Derechos de Autor de Estados Unidos, que abrió la puerta a corregir esta injusta situación y solicitó a todas las partes involucradas sus comentarios.

Meta, propietaria de Instagram, Facebook o WhatsApp, y creadora de Llama 2, otro modelo de IA generativa, no tardó en responder. Calificó de “imposible” esa compensación en derechos de autor. OpenAI, Microsoft y Google dijeron lo mismo. El argumento de esta última llama la atención. Alphabet, su matriz, afirmó que ellos habían hecho una “recolección de conocimiento” durante el entrenamiento al que están autorizados por las leyes de derechos de autor vigentes. Una respuesta poco creíble para empresas que presentan cada año cientos de demandas por vulneración de las patentes de las que son propietarios y que tienen sus algoritmos y nuevos desarrollos blindados legalmente ante cualquier intento de analizar sus efectos en el mercado digital. Es la ley del embudo: si tocas mi conocimiento te demando, pero yo puedo usar el tuyo a mi antojo.

Hay una última nota que revela que, sin embargo, cuando estas diferencias surgen entre las grandes compañías tecnológicas, envueltas en su particular juego de tronos, el argumento del contenido con copyright sí es válido. Elon Musk y Microsoft andan a la greña desde que la empresa de Bill Gates se convirtió en el gran baluarte de OpenAI y sustituyó a Musk como principal inversor de la firma que dirige Sam Altman. Cuando Microsoft sacó a X, el antiguo Twitter, de su plataforma publicitaria, Musk se revolvió y amenazó a la empresa de Satya Nadella con llevarla a los tribunales por haber entrenado sus proyectos de AI con datos de la antigua red social del pajarito. Muy revelador.