Una tesis de la UR identifica las limitaciones de la IA en el estudio del inglés antiguo

Rioja2

0

Sara Domínguez Barragán ha obtenido el grado de doctora por la Universidad de La Rioja con una tesis en la que identifica las limitaciones de las herramientas de Inteligencia Artificial (IA) en el estudio del inglés antiguo. Además, aporta soluciones -entre ellas las destinadas a maximizar datos y refinar modelos- que pueden mejorar el uso de la IA con lenguas minoritarias, históricas o en peligro de desaparición.

Desarrollada en el Departamento de Filologías Modernas -en el marco del programa 682D Doctorado en Filología Inglesa (Real Decreto 99/2011)- la tesis ‘Universal dependencies of old english. Automatic parsing with a computational model of language’ ha sido dirigida por Ana Elvira Ojanguren López y Francisco J. Martín Arista y ha obtenido la calificación de sobresaliente ‘cum laude’.

 Del lenguaje humano al idioma de las máquinas

Aplicaciones como ChatGPT han popularizado el uso de la Inteligencia Artificial (IA) para realizar tareas relacionadas con el lenguaje, desde generar textos o hacer traducciones en apenas unos minutos hasta resolver dudas a través de una sencilla conversación. Para que los ordenadores tengan esta capacidad de comprender e interpretar el lenguaje humano es preciso el procesamiento del lenguaje natural (PLN), un sistema que utiliza técnicas de aprendizaje automático y redes neuronales (métodos de IA que imitan las conexiones del cerebro).

Así, las máquinas aprenden a traducir nuestras palabras o textos a lenguaje de programación, con el que pueden trabajar. Para entrenarles en estas tareas se utilizan modelos de lenguaje, que analizan los patrones del lenguaje natural y predicen palabras.

Pero, ¿qué pasa cuando el idioma que empleamos es minoritario o ya no está en uso? Es el caso del inglés antiguo, la lengua hablada en Inglaterra entre los siglos VII y XI, de la que se conservan sólo tres millones de palabras. En su tesis, Sara Domínguez ha analizado el empleo de herramientas de IA en el estudio de este idioma, detectando algunos de los principales problemas de los modelos computacionales del lenguaje y proponiendo estrategias para abordarlos.

 Detectar lo puntos débiles

La primera dificultad encontrada es general a este tipo de idiomas: la escasez de texto conservado, en contraste con la gran cantidad de datos requeridos por las redes neuronales para ofrecer buenos resultados.

“Esto nos obliga a maximizar los datos, aportando un análisis bien fundamentado teóricamente y adecuado para el tratamiento computacional. Es también necesario mejorar los modelos computacionales del lenguaje”, explica la investigadora.

Una vez obtenido un conjunto de 25.000 palabras en inglés antiguo -denominado en lingüística “corpus de oro”-, llega la fase de anotación: un proceso para introducir datos (en este caso, palabras o “tokens”) y asignarles manualmente etiquetas con información (categorial, morfológica, sintáctica y semántica).

Los datos se analizan automáticamente con un modelo computacional del lenguaje que utiliza IA. La comparación del análisis manual con el análisis automático no sólo permite medir la precisión y alcance del modelo computacional, sino que también ayuda a proponer estrategias para refinar los datos o el propio modelo.

En este proceso, la doctora ha encontrado una dificultad añadida: adaptarse al marco internacional de Dependencias Universales, las directrices que rigen la anotación correcta para poder formar parte de los “bancos de árboles” de idiomas del mundo.

“Para el inglés antiguo, no hay trabajos previos -señala Sara Domínguez-. Por tanto, se ha adaptado este marco general de anotación a las características específicas de la lengua de análisis, de manera que el banco de datos resultante sea procesable computacionalmente y válido para la comparación lingüística, la traducción y la enseñanza de lenguas”.

Sara Domínguez ha evaluado la precisión de un modelo automático de anotación mediante una biblioteca de PLN con IA (SpaCy) sobre el “corpus de oro” de inglés antiguo y lo ha comparado con los resultados obtenidos mediante anotación manual.

Así, “hemos identificado las principales limitaciones del modelo automático –explica la investigadora- detectando las áreas de error o etapas del procesamiento que presentan una mayor dificultad a la hora de asignar rasgos morfológicos, categorías gramaticales y funciones sintácticas”.

Optimizar datos y mejorar modelos

Conocer cuáles son estas áreas de error es el paso previo para mejorar las herramientas de Inteligencia Artificial de anotación automática.

“Por ejemplo, si el modelo ha mostrado problemas o bajo rendimiento en la etapa de ”tokenización“ (separar el texto en ”tokens“), habría que hacer modificaciones en esa área. Los modelos también podrían mejorarse aumentando los datos de entrenamiento anotados o la cantidad de texto plano (sin anotar)”, precisa la doctora. 

Esta tesis ha permitido una mayor comprensión lingüística del inglés antiguo, que puede aplicarse a otras lenguas con características similares. También se han identificado deficiencias en los modelos automáticos empleados y propuesto soluciones válidas para otras lenguas históricas o minoritarias.

“Los grandes modelos de lenguaje, como ChatGPT, necesitan muchos datos y una gran capacidad de computación y almacenamiento para ser eficientes. Su aplicación a lenguas minoritarias, históricas o en peligro de desaparición tiene el desafío de maximizar los datos y refinar los modelos”, concluye el codirector de la tesis Francisco J. Martín Arista. Un proceso en el que informáticos y lingüistas van de la mano. Para el desarrollo de su tesis, Sara Domínguez ha disfrutado de un contrato predoctoral -beca FPI del Ministerio de Ciencia, Innovación y Universidades (2019-2023)- y ha realizado una estancia de investigación de seis meses en el Dictionary of Old English de la Universidad de Toronto (Canadá).