Recibí el doctorado honoris causa por la Universidad Nacional San Luis Gonzaga en 2007. Entonces tuve la ocasión de conocer Pisco, la capital del departamento de Ica, ciudad situada a algo más de 200 km. al sudoeste de Lima. Pisco significa pájaro en quechua, y da nombre a una muy famosa bebida, un aguardiente de uva cuyo origen, aun hoy, se disputan acaloradamente Perú y Chile. Pues resulta que por tierras de Ica han descubierto el Perucetus colossus, un animal que se cree que era aún más grande que la ballena azul. Podría haber superado las 300 toneladas de peso. El hallazgo ha sido publicado recientemente en la revista Nature.
Nos maravillan los animales tan grandes y sigue investigándose el porqué del gigantismo de los dinosaurios, uno de los enigmas de la paleontología. Ser muy grande requiere de un metabolismo adecuado para poder disponer de la energía necesaria. En general, el ritmo metabólico de los animales baja conforme son más grandes, aprovechando mejor la energía. Moverse y reproducirse es más costoso cuando uno es un coloso (perdón por el pareado), así que hay que aprovechar bien los recursos. La relación entre la superficie de una esfera y su volumen decrece conforme aumenta el tamaño de esta. Un animal disipa tanto más calor cuanto mayor es su superficie corporal, que crece en relación con el cuadrado de la dimensión lineal del animal, pero lo genera en función de su volumen, que lo hace al cubo. Entre animales de temperatura constante, esto supone que aquellos más pequeños han de producir más calor por unidad de masa para mantener el ritmo de la pérdida de calor superficial, lo que explica que haya osos en el Ártico, pero no gatos.
A menudo pensamos que el gigantismo en la naturaleza es algo del Jurásico, millones de años atrás, pero no es cierto. Se considera que ha sido así hasta hace solo unos cuantos miles de años. A lo largo de la historia de la vida ha habido momentos donde las condiciones del entorno favorecieron el que los animales alcanzaran tamaños enormes, y otros donde ser grande se volvió un problema para la evolución de las especies. Los cambios en la composición de la atmósfera fueron determinantes en este sentido. Cuando esta era rica en oxígeno, los animales crecieron a lo bestia, y menguaron cuando no. El impacto de un cuerpo extraterrestre, como nos dice la hipótesis más probable, eliminó los dinosaurios de la Tierra al cubrir el cielo de polvo y privar a nuestro planeta de buena parte de la energía procedente del Sol. Tras asentarse el polvo sobre la superficie terrestre, se produjo un aumento brusco de la temperatura, derivado de los gases de efecto invernadero que persistían en la atmósfera. Todo ello cambió radicalmente las condiciones de vida sobre la Tierra, acabando con lo que era gigante.
El caso es que yo no pretendía hablarles de bichos, ni grandes ni pequeños, sino de los denominados grandes modelos de lenguaje (GML). Un GML, como GPT-3 y GPT-4, en los que se basa ChatGPT, es un tipo de modelo de aprendizaje automático entrenado con texto. Usando enormes corpus de datos textuales, y a través de procesos de entrenamiento intensivo, estos modelos pueden generar textos similares a los humanos en las distintas lenguas para las que han sido entrenados. De esta forma, los GML son capaces de comprender nuestras consultas y responder a ellas con resultados sorprendentes, por mucho que cometan errores, incluso muy groseros a veces. Se trata de una comprensión del texto no como la nuestra, por supuesto, pero suficiente como para poder responder a preguntas, resumir documentos, escribir código informático, traducir entre idiomas, escribir ensayos o hasta poesía.
Un GML aprende ajustando el valor de millones, a veces cientos de miles de millones de parámetros. Entrenando esta inteligencia artificial con enormes cantidades de texto, y a través de estrategias de aprendizaje automático, se acaba fijando el valor de los parámetros del modelo para que la respuesta que dé ante una entrada dada, a modo de consulta en lenguaje natural, sea la más probable en función de lo que ha “leído” durante su adiestramiento. Por ejemplo, si en el corpus de texto utilizado para entrenar el modelo la palabra “tinto” aparece con frecuencia después de la expresión “el mejor vino es el”, el modelo ajustará sus parámetros para que “tinto” sea la palabra que predice con una mayor probabilidad si escribimos como entrada la expresión anterior. El entrenamiento de los modelos de lenguaje supone un sinfín de cálculos hasta acabar ajustando el peso de todos los parámetros de acuerdo con unos criterios de convergencia, pero precisamente hacer cuentas es lo que hacen mejor las máquinas.
Los millones de parámetros ajustados en función de los textos de entrenamiento son como la síntesis numérica de las palabras vistas y de los patrones o secuencias en los que aparecen. A partir de ahí, el modelo aporta como respuestas a nuestras consultas lo que mejor encajaría a continuación de estas. No se trata de “entender” el texto en el sentido humano, pero aprender a predecir lo que razonablemente podría seguir a una secuencia de palabras basándose en los patrones estadísticos que ha observado durante el entrenamiento, acaba siendo igualmente útil en la práctica.
Es importante señalar que estos modelos de lenguaje no retienen información sobre documentos, hechos o fuentes específicos de sus datos de entrenamiento. No son capaces de acceder a documentos o bases de datos concretos y usarlos para sus respuestas. Acaban siendo “sabedores”, no buscadores, como los he llamado en alguna ocasión.
Desde los primeros grandes modelos de lenguaje, el tamaño de estos no ha hecho más que crecer. De los millones de parámetros se pasó rápidamente a los miles de millones, y hoy los más grandes tienen cientos de miles de millones, habiendo superado el billón en algún caso. De hecho, aunque no se sabe a ciencia cierta, se especula que GPT-4, desarrollado por OpenAI, podría superar el billón de parámetros. Para OpenAI, a mayor tamaño mejores resultados en los modelos. Sin embargo, esto está comenzando a ser cuestionado, al menos en parte.
Los modelos más grandes tienen costes computacionales ingentes. Entrenar GPT-3, con 175.000 millones de parámetros, supone un consumo de en torno a 1GWh, lo que supone varios millones de euros solo en consumo de energía. Podríamos pensar que no se entrena un modelo así cada dos por tres, pero es que utilizarlos también tiene consumos energéticos muy importantes. Se calcula que las consultas diarias a ChatGPT consumen unos 250 MWh, lo que equivale al consumo medio anual de 25.000 hogares en España.
Más allá de la energía consumida y la huella de carbono que ocasiona, estos modelos solo están al alcance de unas pocas empresas. Las universidades, por ejemplo, hace tiempo que han quedado atrás en esta carrera, lo que tiene consecuencias muy negativas para el avance de la IA, la mejora de los modelos de lenguaje y, sobre todo, para garantizar un mejor uso de los mismos y para el conjunto de la sociedad, no solo de acuerdo con los intereses comerciales de algunas empresas.
Como los seres vivos, el tamaño de estos modelos no puede seguir creciendo de forma ilimitada. Los chips, de hecho, no evolucionan al ritmo al que se incrementa el tamaño de los GML. Tampoco tiene sentido seguir aumentando su tamaño, si no lo hacen los datos con los que se entrenan. Ya hay algún estudio que apunta a que los datos utilizados para entrenar modelos cada vez más grandes podrían agotarse pronto. Sobre todo los considerados textos de alta calidad (aquellos de carácter profesional, o más cuidados en sus contenidos y redacción), que no crecen tanto como los de baja calidad (redes sociales, por ejemplo), y, desde luego, lo hacen mucho menos de prisa que la demanda.
DeepMind, la empresa de Alphabet (matriz también de Google), que se disputa con OpenAI la vanguardia de la IA, al menos en el ámbito empresarial, demostró que utilizar más datos (y de mayor calidad), incluso con modelos más pequeños, podía aumentar de un modo muy importante el rendimiento de los mismos. Por ejemplo, el modelo denominado Chinchilla, con 70.000 millones de parámetros, pudo superar a GPT-3 al ser entrenado con bastantes más datos. También ocurrió con modelos incluso más pequeños, como LLaMa, un modelo de Meta (antigua Facebook), incluso en una versión de “solo” 13.000 millones de parámetros.
Alimentar los modelos con más datos durante su entrenamiento no es la única forma de mejorar sus prestaciones. Existen otras estrategias, normalmente complementarias, que han demostrado una gran utilidad. Por ejemplo, utilizar un gran número de consultas-respuestas de un modelo muy grande, como GPT-3, pongamos por caso, permite perfeccionar un modelo bastante más pequeño (es lo que se hizo con LLaMa para obtener Alpaca). También resulta muy práctico partir de modelos fundacionales, como GPT-3 (así se les llama), para después ajustarlos a dominios concretos (salud, jurídico…), o a ciertas aplicaciones (traducción, modelos conversacionales o el análisis del sentimiento expresado en textos, por ejemplo).
Ser pequeño entre los seres vivos supone necesitar menos energía para sobrevivir y reproducirse, lo que favorece, en general, una mayor diversidad de especies que en momentos donde los tamaños de los seres vivos eran muy superiores. Entre los modelos de lenguaje está ocurriendo algo semejante. De hecho, remedando el modo en el que funciona nuestro cerebro, con zonas que presentan cierta especialización funcional, el uso de comités de modelos expertos en cometidos diversos, pero de menor tamaño, permite atender con gran eficiencia y eficacia la diversidad funcional de los modelos más grandes.
Aunque sigan desarrollándose estrategias para que los modelos de lenguaje más pequeños mejoren mucho sus prestaciones, predigo que los grandes modelos de lenguaje seguirán creciendo, haciéndose muy grandes, incluso masivos. Por una parte, se verá favorecido por el incremento constante en la potencia de cálculo, de almacenamiento y de datos para entrenar los modelos, sean estos obtenidos de fuentes humanas o artificiales. Además, parece inevitable que sea así, cuando hay una especie de carrera por ver quién tiene el modelo más grande.
En todo caso, con los modelos de IA, como en la vida, conviene tener en cuenta que lo muy grande puede llegar a ser insostenible cuando las circunstancias del entorno cambian.