Esta investigadora española prepara un “esperanto matemático” para que las máquinas entiendan lenguas minoritarias como el euskera

El proyecto LUNAR, financiado con fondos europeos, estudia cómo crear una “representación universal del lenguaje” para que la inteligencia artificial traduzca mejor lenguas con pocos recursos
— Si es hombre lleva un martillo, pero si es mujer es un secador: así actúan los sesgos de la Inteligencia Artificial

24 de noviembre de 2020 22:41 h

Actualizado el 25/11/2020 05:31 h

En el mundo existen unas 6.500 lenguas diferentes, pero los traductores automáticos basados en inteligencia artificial apenas pueden operar entre un puñado de ellas. El que reconoce un mayor número es el de Google, que admite algo más de un centenar (108 en el momento de redacción de esta información). ¿Por qué no llega a los demás? Principalmente, porque no tiene datos para aprender a hacerlo.

Los sistemas basados en algoritmos de inteligencia artificial necesitan datos de los que aprender, y en el caso de los traductores automáticos, utilizan la información disponible en Internet para funcionar. Por ejemplo, la web del Parlamento Europeo es la inmejorable base de datos de traducción entre lenguas europeas, ya que todos los reglamentos y directivas comunitarias se transcriben a los idiomas oficiales de los 27 países miembros de la UE. Eso supone miles de documentos de los que los algoritmos pueden extraer ejemplos sobre cómo se han traducido esas frases y expresiones anteriormente entre esas lenguas.

A mayor volumen de datos, mejores traducciones. ¿Pero qué pasa cuando esos datos no están disponibles, porque ese bagaje escrito no está digitalizado o es muy limitado? “Es muy fácil para un traductor automático traducir entre inglés y castellano porque hay muchos ejemplos, pero cuando quieres traducir entre otros sobre los que tienes muchos menos recursos, como checo y euskera por ejemplo, es mucho más complicado”, explica Marta R. Costa-jussá, investigadora de la Universitat Politècnica de Catalunya.

La situación hace que los idiomas más hablados cada vez tengan más recursos para traducir, pero, a la vez, va dejando atrás a aquellos minoritarios. La idea de esta investigadora para solucionarlo es crear un “esperanto matemático”, una “representación universal del lenguaje” pensada para máquinas. El objetivo es que no haga falta que los traductores automáticos cuenten con ejemplos del mismo texto en dos lenguas concretas para aprender a traducir entre ellas.

El proyecto recibe el nombre de LUNAR (Lifelong Universal Language Representation), transcribe de voz a texto y ya cuenta con algunos prototipos. El Consejo Europeo de Investigación le ha concedido una subvención de 1,5 millones de euros de fondos comunitarios para que explore el potencial del “esperanto matemático” en los próximos cinco años. En el estudio participarán un total de 15 investigadores y comenzará en diciembre. El euskera fue uno de los idiomas citado como ejemplo por Costa-jussá en la competición por los fondos.

“El esperanto está pensado como un idioma sencillo que funcione como lengua universal. Aquí no estamos hablando de una lengua con reglas humanas, sino de crear una representación matemática y automática común a todos los idiomas”, explica la investigadora. “Esa representación matemática ahora es diferente para cada lengua. Pero si conseguimos que sea la misma, podremos beneficiarnos mucho porque ya no importará tanto tener recursos de traducción entre todos los idiomas”.

“Alto riesgo, alto beneficio”

Como todos los proyectos que financia el Consejo Europeo de Investigación, la investigación de Costa-jussá se considera de “alto riesgo, alto beneficio”. Uno de los pocos requisitos para optar a esta línea de financiación europea es presentar ideas “rompedoras”, explica la propia institución, con capacidad para representar un antes y un después en sus respectivos campos. A ella pueden optar investigadores de todo el mundo especializados en cualquier materia: la única condición es que el estudio se desarrolle en Europa.

La idea de crear “esperanto matemático” para ayudar a las máquinas a entender mejor las lenguas minoritarias también ha recibido financiación privada. Google la había premiado por dos veces antes de conseguir los fondos comunitarios. El secreto es que de tener éxito no solo los sistemas de traducción podrían mejorar sustancialmente, sino que el impacto podría extenderse a múltiples tecnologías, como la de búsquedas o los asistentes virtuales.

No obstante, “alto riesgo, alto beneficio” también supone que existen posibilidades de que el objetivo final de la investigación no se consiga y no se desarrolle un “esperanto matemático” común para traducir todos los idiomas. “Lo que sí es seguro es que habrá beneficios tangibles”, adelanta la investigadora: “Las técnicas que vamos a estudiar en profundidad van a mejorar nuestros sistemas de traducción de voz y texto, para que haya más idiomas en nuestros sistemas de traducción con mejor calidad y que los traductores automáticos no se limiten a los idiomas con más hablantes”.

Hacia los traductores multilingües instantáneos

Las multinacionales digitales han puesto en su punto de mira la tecnología de traducción instantánea. En los últimos meses tanto Google como Apple y Facebook han publicado diversos avances, como la capacidad de transcribir entre diversos idiomas sin pasar por el inglés. posibilidad de que sus asistentes virtuales funcionen como intérpretes en tiempo real. La última vuelta de tuerca ha sido la posibilidad de activar estos asistentes a partir de auriculares inalámbricos conectados al teléfono móvil, lo que permite ejecutar la herramienta de traducción instantánea sin siquiera sacar el teléfono del bolsillo.

La tecnología de traducción aún está en desarrollo, como evidencia la investigación de Costa-jussá y la necesidad de encontrar una forma de que su rendimiento no se resienta cuando trabaje con idiomas minoritarios. Las máquinas aún no pueden sustituir a un intérprete humano, para lo cual además tendrían que mejorar el reconocimiento de emociones implícitas en el lenguaje. Sin embargo, el sector espera que este tipo de sistemas de reconocimiento del lenguaje basados en inteligencia artificial pueden ver avances significativos en el próximo lustro.

Etiquetas