Así funciona el traductor de Google: siempre en inglés y tirando de estadística
En pleno siglo XXI, parece que una de las muchas obsesiones de las grandes compañías tecnológicas es superar una de las mayores barreras que separan a los seres humanos: el idioma.
Si en 2014 parece haber una carrera por lanzar al mercado el 'wearable' definitivo, desde hace años se disputa otra carrera, esta de fondo, para ver qué compañía desarrolla el traductor perfecto. Microsoft, IBM y, por supuesto, Google, protagonizan una lucha encarnizada con el objetivo de crear una herramienta que, gracias a la inteligencia artificial, permita traducirlo todo, incluso conversaciones de forma simultánea.
Google a la cabeza
Con más de mil millones de traducciones al día, no es una sorpresa que el intérprete de Google sea el más popular. Aunque se haga algún chiste que otro sobre los errores que comete, quien más y quien menos ha recurrido alguna vez el invento de los chicos de Mountain View. Sin embargo, pocos sabrían responder a la gran pregunta: ¿cómo diantres funciona?
Si crees que la clave está en el grupo de lingüistas que trabajan para Google, estás equivocado: el equipo de investigación de la 'gran G' encargado de la traducción automática, dirigido por el informático alemán Franz Joseph Oz, no cuenta con filólogos ni lingüistas entre sus filas, pero eso no le ha impedido romper la barrera del idioma.
Tal y como explica Peter Norvig, director de investigación de Google, tratar de enseñarle al sistema el vocabulario y las reglas gramaticales de todos los idiomas que traduce es poco menos que inviable. A día de hoy, Google Translate trabaja con 80 lenguas distintas. Si enseñarle a un ordenador 80 gramáticas diferentes ya sería un esfuerzo titánico, la complejidad se incrementa aún más si tenemos en cuenta las excepciones que tiene todo idioma y lo peor de todo: la evolución de cada uno de ellos.
“El lenguaje es tan fluido y extenso que los programadores no pudieron con las millones de palabras y las miles de millones de combinaciones que se pueden dar entre ellas, y sobre cómo cambian con el tiempo”, señala Norvig en uno de los blogs de Google.
¿Cómo superar entonces los problemas derivados de las excepciones lingüísticas y de los cambios del lenguaje? La solución tiene poco que ver con la gramática: Translate funciona a golpe de estadística.
Con una base de datos que recopila millones de textos traducidos a todos los idiomas con los que trabaja, el sistema interpreta cómo debe traducir cada cosa en cada momento. Gracias a esos textos, la herramienta establece qué patrones debe seguir a la hora de realizar las traducciones.
En otras palabras, el traductor de Google funciona simple y llanamente rebuscando entre las traducciones realizadas por profesionales de carne y hueso, a través de un proceso denominado “traducción automática estadística”: “esta frase en inglés parece que se traduce en esta otra frase al español, pero sólo si está cerca de esta otra palabra”, resume Norvig.
De esta forma, los errores que suelen encontrarse en las traducciones son comprensibles, pero ¿no podrían evitarse? Poco a poco. La calidad de la interpretación solo puede mejorarse aumentando la cantidad de textos trabajados por profesionales que Google almacena en su base de datos.
El secreto mejor guardado
Aún hay un pequeño detalle del mecanismo de traducción de Google que quizás te interese saber: la herramienta de la 'gran G' no traduce directamente entre idiomas distintos del inglés, sino que hace un alto en el camino para visitar la lengua de Shakespeare.
Cuando intentas traducir algo del suajili al maorí (o del español al francés), Translate no lo hace directamente. Primero se encarga del trabajo sucio en inglés y después presenta al usuario el resultado definitivo. Sin embargo, al contrario de lo que puedas estar pensando, no lo hace por una cuestión de etnocentrismo anglosajón, sino por cuestiones de economía pura y dura.
Para entender por qué Google se lleva todas nuestras palabras al inglés antes de traducirlas, lo primero que debemos hacer es irnos a un aeropuerto. Bueno, realmente debemos imaginar la red de aeropuertos de un país. Si una aerolínea quiere conectar todas y cada una de las ciudades de un país puede hacerlo de dos formas: enviando aviones desde y hacia todas las ciudades, o bien enviando los aviones a una ciudad central desde la cual se distribuyan los vuelos hacia el resto. Aunque el resultado es el mismo, los dos modelos son totalmente distintos.
Se trata del paradigma de distribución 'spoke-hub' - o paradigma de distribución radial - y permite un ahorro sustancial de recursos. Para el ejemplo clásico se utilizan los aeropuertos estadounidenses: si una compañía aérea quiere operar en una ciudad de cada uno de los cincuenta estados del país, necesita, como mínimo, más de dos mil vuelos diarios:
50 estados x 49 ciudades= 2450 vuelos diarios
Sin embargo, utilizando el paradigma de distribución radial, la cantidad se reduce sustancialmente. Continuando con el ejemplo yanqui, el modelo plantea llevar un avión desde cada estado hasta Denver y que, desde allí, los aviones partan hacia su destino final.
En este caso, se multiplicarían 49 vuelos diarios por 2 (el viaje hasta Denver y el vuelo desde Denver hasta el destino final). El resultado: tan solo 98 vuelos al día.
Pues bien, con el sistema empleado por Google sucede exactamente lo mismo. La 'gran G' podría traducir directamente entre sí los 80 idiomas con los que trabaja, pero resulta mucho más económico, en lo que a recursos se refiere, llevar 79 lenguas al inglés y desde ahí, traducir al idioma que desea el usuario.
Además, hay otro motivo de peso que va más allá del paradigma de la distribución radial. Para Google es mucho más fácil recopilar documentos traducidos desde cualquier idioma al inglés que entre las distintas lenguas que traduce su sistema. Obviamente, a los chicos de Mountain View no les faltarán textos traducidos del francés al español; sin embargo, es bastante probable que no abunden los documentos traducidos del igbo nigeriano al criollo haitiano. Es mucho más probable que de estos dos idiomas circulen textos traducidos al inglés que entre sí.
Visto así, todo encaja: Google tiene almacenadas toneladas de textos que tienen como origen o destino el inglés, lo que convierte a la lengua de Shakespeare en el Denver de Google. Sin embargo, este método también provoca algunos fallos de traducción que, si Google Translate funcionara de otra forma, probablemente no existirían.
El fallo hispano-francés
Es muy sencillo pillar al traductor de Google. Tan solo hay que tratar de traducir al castellano la segunda persona del plural del verbo francés “être”. En nuestro idioma, el “vous êtes” puede traducirse por dos formas verbales diferentes: o bien por un “vosotros sois” de toda la vida; o por la fórmula de cortesía en plural, es decir, “ustedes son”.
¿Qué opción elige por defecto Google para esta traducción tan sencilla? Ninguna de las dos. Google Translate lo traduce de forma errónea por “eres”.
Si aún no has caído en cuál puede ser el motivo, solo tienes que realizar la traducción al estilo Google; es decir, haciendo una parada previa en el inglés.
La segunda persona del presente del verbo francés “être” se traduce al inglés siempre de la misma forma. Da igual que sea en singular, en plural o con la fórmula de cortesía. En inglés “vous êtes” es “you are”. Una vez que Google tiene en las manos esa expresión tan polifacética del inglés, y con el matiz del plural y la cortesía totalmente perdidos, ¿cómo traducirlo al español?
La respuesta es sencilla: siguiendo los parámetros que la traducción automática estadística obtiene de los textos traducidos del inglés al español que almacenan en su base de datos. Vale, igual no es tan sencilla, pero viene a significar que cambiará “you are” por la fórmula más repetida en los textos que pasan del inglés al español: “eres”.
Estimados amigos de Google, pasarlo todo por el tamiz anglosajón hace que vuestro traductor, el más utilizado en el mundo, cometa algún que otro fallo entre idiomas tan cercanos como el español y el francés. Algún texto traducido habrá entre esos idiomas, ¿no? ¡Que somos vecinos, hombre!