Saltar al contenido principalSaltar al pie de página

Secciones

Universidad

Investigadores de Alicante se alían con el Centro Nacional de Supercomputación para traducir al instante lenguas minoritarias

El objetivo es facilitar a personas migrantes el acceso al médico o la justicia con sistemas automáticos que puedan funcionar sin internet

Investigadores de Alicante se alían con el Centro Nacional de Supercomputación para traducir al instante lenguas minoritarias

Investigadores de Alicante se alían con el Centro Nacional de Supercomputación para traducir al instante lenguas minoritarias / Pilar Cortés

A. Fajardo

A. Fajardo

Investigadores de la Universidad de Alicante (UA) trabajan con el Centro Nacional de Supercomputación (Barcelona Supercomputing Center) y la Universitat Oberta de Catalunya para traducir al instante lenguas minoritarias o marginales, a través de sistemas automáticos que puedan funcionar sin conexión a internet, directamente en dispositivos móviles.

El objetivo es facilitar a las personas que las hablan el acceso a los servicios básicos, como el médico, gracias a la ayuda de la inteligencia artificial (IA). Una iniciativa que podría tener una gran utilidad para las personas migrantes en situación de vulnerabilidad, que residen en España y en particular en la provincia de Alicante, la tercera del país con un mayor número de población extranjera, donde más allá del inglés, el francés, el alemán o el ucraniano, se puede escuchar el bereber (tamazight), hablado por comunidades marroquíes y argelinas, con dialectos como el rifeño (Marruecos), el cabilio (Argelia) o el Chaoui, otra lengua bereber hablada en el este de Argelia.

Con ello, sus autores persiguen que las lenguas que hoy día no están en los traductores automáticos puedan beneficiarse de las tecnologías del siglo XXI, a pesar de la escasez de texto escrito en formato digital. Tras haber trabajado ya con lenguas minoritarias de la Península Ibérica como el aranés, el asturiano o el aragonés, de África o la India, las tres instituciones se han aliado para impulsar un nuevo proyecto, "Traducción para lenguas y culturas con pocos recursos e inteligencia artificial", financiado por la Agencia Estatal de Investigación y el Ministerio de Ciencia e Innovación, que tendrá una duración de tres años. Se trata de un trabajo coordinado, estructurado en tres subproyectos, uno por cada institución participante, aunque el liderazgo global recae en la Universidad de Alicante.

Un migrante residente en Alicante, con un texto traducido.

Un migrante residente en Alicante, con un texto traducido. / MANUEL LILLO

La principal línea de trabajo de la Universidad de Alicante se centra en la adquisición de recursos lingüísticos para lenguas en una situación de extrema escasez digital. En concreto, el equipo trabajará con lenguas mayas, una elección que, según Felipe Sánchez, uno de los coordinadores de la investigación, llegó tras la incorporación de un doctorando guatemalteco al equipo, que hizo visible la situación de marginación que viven estas lenguas en su país de origen.

"Son lenguas oficiales en teoría, pero nadie les hace caso. Muchas de las personas que las hablan viven en comunidades rurales aisladas, con graves dificultades de acceso tanto a infraestructuras como a internet", explica Sánchez, quien dirige el proyecto junto a Víctor Manuel Sánchez Cartagena.

El primer reto del proyecto consiste en recuperar y digitalizar materiales existentes: libros, diccionarios, gramáticas y recursos bilingües que solo existen en formato físico o en documentos escaneados. Estos materiales serán procesados mediante técnicas de reconocimiento de caracteres.

El trabajo necesita recuperar y digitalizar libros, diccionarios, gramáticas y recursos bilingües que solo existen en formato físico

"No es una tarea fácil", advierte Sánchez, "porque no existen modelos de inteligencia artificial entrenados específicamente para estas lenguas". Aun así, el equipo está logrando avances gracias al uso de grandes modelos de lenguaje, como Gemini de Google, que facilitan el trabajo incluso en contextos de datos extremadamente escasos.

El grupo de investigación Transducens de la Universidad de Alicante

El grupo de investigación Transducens de la Universidad de Alicante / PILAR CORTES

Enseñar a las máquinas como aprende una persona

El segundo gran objetivo del proyecto es enseñar a traducir a las máquinas de una forma distinta a la habitual. Frente a los enfoques tradicionales, que requieren enormes cantidades de textos paralelos ya traducidos, los investigadores exploran cómo los modelos pueden aprender a partir de recursos heterogéneos y no estructurados, de manera similar a como lo hace un ser humano. "Le damos diccionarios, libros de gramática, descripciones del idioma, ejemplos dispersos... La idea es que el modelo aprenda a traducir a partir de todo eso, porque no tenemos otra cosa", agrega Víctor Manuel Sánchez. Este enfoque supone un reto científico de primer nivel, especialmente en un contexto dominado por modelos entrenados con cantidades ingentes de datos extraídos de internet.

La tercera pata del trabajo en Alicante es la destilación de conocimiento, una técnica que permite transferir lo aprendido por modelos muy grandes a otros más pequeños y eficientes."Queremos que ese traductor no dependa de servidores de empresas externas", advierten los investigadores del grupo Transducens de la UA, quienes platean que estos traductores puedan estar en el móvil para poder usarlos siempre que se necesiten.

Los investigadores de la UA, con uno de los textos traducidos gracias a la IA

Los investigadores de la UA, con uno de los textos traducidos gracias a la IA / PILAR CORTES

Este enfoque es clave para contextos como la atención médica o jurídica en comunidades rurales. "Hay personas mayores que van al médico y el médico solo habla español y una traducción incorrecta en temas de salud puede tener consecuencias graves", apuntan.

El Barcelona Supercomputing Center trabajará principalmente con lenguas de migrantes del norte de África

Centro puntero en Europa

El Barcelona Supercomputing Center, un centro puntero en Europa, trabajará principalmente con lenguas de migrantes del norte de África, aunque la colaboración con la UA permitirá compartir técnicas, modelos y conocimientos, especialmente en ámbitos como la adquisición de recursos y la destilación de conocimiento. Esta institución aporta al proyecto su experiencia en traducción multimodal, es decir, sistemas que traducen combinando texto e imágenes.

Por su parte, la Universitat Oberta de Catalunya se encargará de aplicar las tecnologías desarrolladas a lenguas minorizadas de la Península Ibérica y de realizar evaluaciones humanas detalladas de los sistemas de traducción.

Suscríbete para seguir leyendo

Tracking Pixel Contents