Inteligencia Artificial

Podríamos quedarnos sin información para "alimentar" a la IA en 2026

Esto alteraría la trayectoria de la revolución de la Inteligencia Artificial, que se encuentra en pleno auge

Un nuevo análisis indica que el stock de datos lingüísticos de alta calidad para entrenar a los modelos de IA se agotará pronto, probablemente antes de 2026, de acuerdo a las tendencias actuales.

Un nuevo análisis indica que el stock de datos lingüísticos de alta calidad para entrenar a los modelos de IA se agotará pronto, probablemente antes de 2026, de acuerdo a las tendencias actuales. / Crédito: kiquebg en Pixabay.

Pablo Javier Piacente

Los investigadores advierten que podríamos quedarnos sin datos para nutrir a la Inteligencia Artificial (IA) en solamente tres años. Los científicos creen que la industria podría estar quedándose sin datos de entrenamiento, el "combustible" que hace funcionar los potentes sistemas de IA. Esto podría frenar el crecimiento de los modelos de Inteligencia Artificial, sobretodo en el caso de los modelos de lenguaje grande o extenso (MLL, según las siglas en inglés).

Un artículo publicado recientemente en The Conversation y un estudio que apareció en 2022 en ArXiv concluyen que existen amplias probabilidades de que la industria ligada a la Inteligencia Artificial (IA) afronte la carencia de datos de alta calidad para alimentar y entrenar a sus modelos sobre 2026. De confirmarse esta situación, se podría producir un freno en el desarrollo de la IA, que actualmente alcanza la cima de su popularidad.

¿La IA se queda sin datos para entrenarse?

La Inteligencia Artificialsustenta su capacidad para construir discursos coherentes y ofrecer soluciones útiles para la humanidad a partir de un “alimento” básico: los datos y la información. Los mismos hacen posible el entrenamiento de los modelos de lenguaje grande (MLL), que han propiciado avances como ChatGPT, la aplicación de chatbot que presenta una conversación fluida similar a la comunicación humana.

De esta manera, la calidad y cantidad de los datos empleados en estos entrenamientos son vitales para el éxito de los sistemas de IA, como indica en The Conversation la especialista Rita Matulionyte, de la Universidad Macquarie, en Australia. Por ejemplo, ChatGPT se entrenó con 570 gigabytes de datos de texto, o alrededor de 300 mil millones de palabras. Pero la cantidad no es suficiente: también se requiere información confiable y precisa.

La calidad de los datos puede marcar el camino que tomará la IA: sistemas artificiales que propician el desarrollo tecnológico y económico o propuestas que pueden volverse hasta peligrosas para la humanidad. Por ejemplo, el texto tomado de las plataformas de redes sociales puede ser sesgado o prejuicioso, o puede incluir desinformación o contenido ilegal que el modelo podría replicar. Cuando Microsoft intentó entrenar su robot de IA utilizando contenido de Twitter, el modelo aprendió a producir resultados racistas y misóginos.

Un cuello de botella a superar

Debido a esto, las empresas que compiten por el dominio del segmento de la IA requieren una cantidad cada vez mayor de datos e información de calidad, provenientes de portales digitales reconocidos, artículos científicos, textos elaborados por expertos e incluso contenido digitalizado que se produjo antes de Internet, disponible en principio en libros o enciclopedias, por ejemplo. Al parecer, esta necesidad creciente podría derivar en la saturación de la oferta disponible.

Según un estudio liderado por el científico Pablo Villalobos, que apareció el año pasado en ArXiv, esta situación propiciará que el texto de alta calidad disponible para el entrenamiento de IA se agote antes de 2026, si continúan las tendencias actuales. Los investigadores también estimaron que los datos lingüísticos de baja calidad se agotarán entre 2030 y 2050, y los datos de imágenes de baja calidad entre 2030 y 2060.

Para hacer frente a este “cuello de botella” que deberá superar la IA, algunas empresas del sector están optando por el llamado contenido sintético, o sea un tipo de contenido elaborado artificialmente para el propio consumo de los sistemas de IA. Al mismo tiempo, los expertos creen que otra posible salida será ofrecer un mayor reconocimiento económico a los creadores de contenidos digitales, cuyo material es aprovechado actualmente de forma gratuita en el entrenamiento de la mayoría de los modelos de IA.

Referencia

Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. Pablo Villalobos et al. ArXiv (2022). DOI:https://doi.org/10.48550/arXiv.2211.04325