Este artículo forma parte de la revista 'Inteligencia Artificial. Riesgos, verdades y mentiras', exclusiva para socios y socias de elDiario.es. Recibe en casa uno de los últimos ejemplares en papel de regalo con un año de elDiario.es
La inteligencia artificial está por todos lados y el campo del lenguaje no es una excepción. La combinación entre tecnología y lengua lleva décadas siendo muy prolífica, pero en los últimos meses hemos presenciado algunos avances particularmente vistosos que han tenido una gran recepción entre el público general. Hemos visto ‘chatbots’ como ChatGPT mantener conversaciones fluidas con los usuarios, proporcionar respuestas creativas y desplegar una finura lingüística que oscila entre lo asombroso y lo espeluznante. La interacción con estos sistemas es tan natural que un extrabajador de Google llegó a afirmar que el modelo de inteligencia artificial LaMDA era un ser sintiente. ¿Tienen estos cachivaches parlantes una capacidad lingüística similar a la de los humanos? ¿Podemos considerar que albergan una mente que es capaz de sentir y pensar como nosotros? Vamos a intentar contextualizar algunos de los aspectos que atañen a la relación entre lengua e inteligencia artificial y a explicar por qué no podemos decir que tengan una habilidad lingüística equivalente a la nuestra.
Una fluidez deslumbrante
Por apabullante que sea su fluidez, estos sistemas funcionan de una manera bien distinta a como hacemos las personas. Detrás de los sistemas conversacionales que hemos visto últimamente hay lo que se conoce como un gran modelo de lenguaje (LLM, por sus siglas en inglés, ‘Large Language Models’). Los LLM son modelos computacionales que han sido expuestos a inmensas cantidades de texto: pensemos en toda la Wikipedia, páginas de internet, mensajes de redes sociales, libros, hemerotecas completas, y un larguísimo etcétera. Estos sistemas son muy buenos encontrando patrones estadísticos, así que, a fuerza de ver millones de frases de ejemplo en un idioma, recopilan información sobre las palabras: qué términos suelen aparecer juntos, qué palabras tienen propiedades similares porque suelen aparecer en contextos parecidos o qué secuencias de palabras son más probables que otras. Gracias a su capacidad de cálculo y a su habilidad para generalizar, estos sistemas son muy buenos prediciendo qué palabras es esperable encontrar en ciertos contextos. Así, si le proporciono el comienzo de una frase a uno de estos sistemas, podrá aventurar cómo continuar la oración y hasta confeccionar un texto aparentemente coherente concatenando secuencias probables.
Crean secuencias de palabras muy probables que dan la apariencia de ser verídicas y relevantes, pero sólo son verborrea
Sabiendo pues cómo funcionan estos, no resulta tan sorprendente que las respuestas que vemos dar a sistemas automáticos como ChatGPT y otros ‘bots’ de pelaje similar cuando interaccionamos con ellos sean totalmente inventadas: lo que estos sistemas están haciendo es concatenar palabras para crear secuencias altamente probables que den la apariencia de ser verídicas y relevantes. Pero nada de lo que estos cachivaches dicen está respaldado por datos, bases de conocimiento ni se cimentan sobre información real. Son, ni más ni menos, sistemas optimizados para que su producción lingüística suene verosímil, de ahí su capacidad para soltar verborrea muy convincente. Pero sonar convincente no es lo mismo que ser verídico.
La manera en que funcionan estos sistemas de inteligencia artificial puede resultarnos al mismo tiempo decepcionante y sorprendente. Por un lado, uno se siente un poco estafado al descubrir que lo que subyace a los fuegos artificiales de ChatGPT y sus secuaces es un mero autocompletar con ínfulas. Por el otro, parece mentira que un sistema entrenado simplemente para combinar palabras de manera que optimicen una probabilidad pueda producir resultados tan deslumbrantes que nos hagan dudar de si no habrá una mente humana detrás.
¿Llamaríamos a lo que hace ChatGPT competencia lingüística? Rotundamente no. Es un mero autocompletar con ínfulas
¿Es esto equiparable a la comunicación humana? ¿Llamaríamos a esto competencia lingüística? Rotundamente no. Al fin y al cabo, lo que los humanos hacemos cuando hablamos no es simplemente concatenar palabras probables para crear secuencias adecuadas. Muy al contrario, lo que reside en el corazón de nuestras habilidades lingüísticas es la capacidad para pensar algo y la intención de trasladarlo a nuestros congéneres. Los humanos compartimos un contexto, conocemos el significado de las palabras y somos conscientes de que los ruiditos, trazos o gestos que utilizamos para referirnos a las cosas no son la cosa misma. Por sofisticados que sean los malabarismos que un ordenador pueda hacer combinando símbolos, estos malabarismos serán puramente formales. En el campo de la tecnología lingüística algunos se han referido a estos bichos como “loros estocásticos”: aunque los sistemas conversacionales producen algo con apariencia lingüística, en realidad no entienden nada de lo que dicen y su funcionamiento se limita a repetir con una cierta aleatoriedad muy bien diseñada secuencias inspiradas en lo que el sistema leyó antes. Si no hay conocimiento del mundo, si la interacción no está anclada en un contexto material compartido, la semántica (esto es, el significado que las formas lingüísticas transportan) está más allá de lo que un ordenador puede manejar.
El problema de los náufragos
Para ilustrar este asunto los lingüistas Emily M. Bender y Alexander Koller proponen el siguiente experimento mental: supongamos que hay dos náufragos, cada uno en una isla desierta diferente. En cada una de las islas hay un sistema de telegrafía y ambas islas están conectadas por un cable de telégrafo submarino. Los náufragos descubren que pueden comunicarse usando el telégrafo y conversan habitualmente entre ellos. Un pulpo extremadamente inteligente que vive en las profundidades del mar que separa ambas islas descubre el hilo del telégrafo por el que se comunican los náufragos y se conecta a él. El pulpo no sabe nada sobre lengua, ni sobre la vida en las islas, ni puede ver a los náufragos, pero a fuerza de escuchar las conversaciones entre los náufragos, aprende los patrones de comunicación entre ambos, hasta tal punto que cuando uno de los náufragos manda un mensaje, el pulpo es capaz de inmiscuirse en la conversación y suplantar al otro náufrago proporcionando una respuesta lo suficientemente adecuada y relevante como para que el otro náufrago no detecte el fraude. Pero imaginemos que un día uno de los náufragos es atacado por un oso y pide ayuda al otro náufrago a través del sistema telegráfico: “¡Socorro! ¡Un oso me está atacando! ¿Cómo puedo defenderme?”. El pulpo, que hasta ahora había logrado inmiscuirse en las conversaciones entre los náufragos sin ser descubierto, se encuentra ante una situación nueva: no sabe qué cosa es un oso, ni puede proponer instrucciones para construir un sistema de defensa, ni tiene capacidad para inventar una solución creativa. El pulpo, por hábil que haya sido imitando las conversaciones entre los náufragos, no entiende nada de lo que ha estado diciendo. El pulpo solo ha estado repitiendo los patrones de conversación entre los náufragos que vio previamente y será incapaz de proponer soluciones adecuadas ante esta situación porque reconocer patrones en secuencias de caracteres es muy diferente a comprender el significado de esas secuencias. La moraleja de este experimento mental es que un sistema computacional expuesto exclusivamente a frases y palabras pero desprovisto de un contexto anclado en el mundo que asocie la forma al significado no podrá nunca aprender verdaderamente el significado de las cosas.
Un mundo compartido
Si bien las conclusiones sobre el experimento del pulpo no suscitan el acuerdo de todos los lingüistas, sí parece que considerar que lo que hacemos los humanos cuando hablamos es simplemente intercambiar secuencias de palabras probables y relevantes no hace justicia a la complejidad que exhibe nuestra habilidad lingüística.
Lo que reside en el corazón de nuestras habilidades lingüísticas es la capacidad para pensar algo y la intención de trasladarlo al otro
La comunicación entre dos humanos supone un conocimiento compartido de cómo funciona la lengua y de cómo se usan las palabras, pero también un conocimiento del mundo y de la realidad que comparten los interlocutores. Construimos nuestras frases a tenor de lo que pensamos que nuestro interlocutor ya sabe o ignora e interpretamos sus respuestas asumiendo que detrás hay una mente humana que está intentando comunicarnos algo desde su propio estado mental. En el proceso de emitir y descodificar mensajes nos ponemos en la piel del otro: decidimos qué decimos y cómo lo decimos porque sabemos (o presuponemos, al menos) qué es lo que nuestro interlocutor sabe del mundo, cuál es el contexto compartido y qué conocimiento es común entre las partes. La facultad para atribuir creencias, pensamientos y estados en la mente de los otros (lo que se conoce como teoría de la mente) es uno de los aspectos que subyacen a nuestra capacidad para la comunicación. Los humanos interactuamos dando por sentado que al otro lado de nuestras interacciones hay otros humanos que piensan, que sienten y que tienen una idea del mundo. Proyectamos sobre ellos una presuposición de humanidad.
Y ese es justamente el talón de Aquiles que nos lleva a ver seres sintientes y mentes pensantes donde solo hay secuencias de palabras probables. Su fluidez es tan hipnótica, sus respuestas nos resultan tan familiares que, acostumbrados a ver esas habilidades solo en seres humanos (que piensan, sienten y padecen), no dudamos en atribuir habilidades humanas a la máquina. Puesto que la conversación humana exitosa conlleva necesariamente que atribuyamos intenciones y humanidad a nuestro interlocutor, la interacción con estos sistemas conversacionales nos lleva irremediablemente a hacer lo mismo con las respuestas que nos devuelve la máquina. Nuestra ingenuidad nos hace pensar que detrás de semejante locuacidad tiene que haber necesariamente un ser que piensa, que sabe y que siente. Vemos coherencia, ingenio e intención porque no podemos evitar proyectar estados mentales donde no hay mente alguna. Pero es puro espejismo. Detrás de estas máquinas, solo estamos nosotros y nuestros sesgos.
Para saber más:
Bender, Emily M., et al. “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?ð¦.” Proceedings of the 2021 ACM conference on fairness, accountability, and transparency. 2021.
Bender, Emily M., and Alexander Koller. “Climbing towards NLU: On meaning, form, and understanding in the age of data.” Proceedings of the 58th annual meeting of the Association for Computational Linguistics. 2020.