Las inteligencias artificiales “colapsan” si se quedan sin obras humanas de las que aprender

La revolución de la inteligencia artificial apenas acaba de comenzar. Sin embargo, ya se ha encontrado con un obstáculo en el camino que amenaza el desarrollo potencial de la tecnología: la disponibilidad limitada de obras humanas de las que aprender. Estos sistemas necesitan analizar grandes cantidades de datos, de los que extraen patrones que les permiten generar su propio contenido, ya sea texto, imagen o vídeo. Cuanta más diversa es esa información, mejor será su capacidad de generalizar o hacer predicciones complejas.

El problema es que se sabe que empresas como OpenAI ya han utilizado todos los datos de alta calidad disponibles de forma pública en la red para entrenar modelos como ChatGPT. Su necesidad de seguir suministrando información a su máquina para que esta sigan mejorando ha provocado que recurra a datos de menos calidad, como lo de las redes sociales (YouTube la ha acusado de transcribir y volcar a sus bases de datos los vídeos de su plataforma, algo que prohíben sus términos de servicio) o a aquellos protegidos con derechos de autor (OpenAI ha reconocido que si hubiera respetado el copyright, habría sido “imposible” entrenar a ChatGPT).

Para evitar este tipo de charcos la industria lleva tiempo trabajando sobre una idea: ¿si los contenidos generados por inteligencia artificial tienen sentido y son técnicamente material nuevo, por qué no utilizarlos en el entrenamiento de nuevas inteligencias artificiales? Información creada por máquinas para que las máquinas puedan seguir aprendiendo. El sector los llama “datos sintéticos” y ahora mismo representan su gran esperanza de poder seguir mejorando exponencialmente los sistemas de IA sin frenar su curva de aprendizaje.

Un buen número de expertos han expresado dudas acerca de la idea por la posibilidad de que estos sistemas se conviertan en gigantescas piscinas de conocimiento endogámico, exagerando cada vez más los errores que separan a los sistemas automáticos de las creaciones humanas. Ahora, un nuevo estudio publicado Nature les da la razón. “Descubrimos que el uso indiscriminado de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes”, alertan los investigadores: “Nos referimos a este efecto como 'colapso del modelo'”.

“Colapso del modelo”

El estudio está firmado por investigadores de las universidades de Oxford, Cambridge, el Imperial College de Londres y del Instituto Vector de Canadá. Han analizado qué ocurriría si los datos sintéticos empiezan a tener un peso importante en el corpus de entrenamiento de cada nueva IA, algo que de momento no ocurre pero podría llegar mucho más pronto de lo esperado. El motivo es que los contenidos generados artificialmente están expandiéndose por Internet muy rápido, llenando ya páginas y páginas de contenido en formato texto así como audiovisual en redes sociales.

Si los nuevos modelos de IA se siguen entrenando con recursos públicos de Internet empezarán a canibalizar sus propias creaciones, “contaminando” con datos sintéticos su corpus de entrenamiento. El resultado será ese “colapso” del que avisan los investigadores: “Al ser entrenados con datos contaminados, entonces perciben erróneamente la realidad”. Pierden diversidad, repiten cada vez más elementos o frases y su capacidad para manejar situaciones nuevas o no anticipadas en su entrenamiento disminuye drásticamente.

Finalmente se llega a un circulo vicioso, “un proceso de aprendizaje degenerativo en el que los modelos comienzan a olvidar eventos improbables con el tiempo, a medida que el modelo se envenena con su propia proyección de la realidad”.

Los datos humanos, cada vez más valiosos

El estudio señala varias consecuencias de sus hallazgos. La primera es que “la ventaja del primero que llega” es aún más notoria, ya para las empresas que comenzaron a entrenar sus modelos de IA antes que la red empezara a llenarse de contenidos generados artificialmente será más sencillo impedir el envenenamiento de sus modelos.

La segunda es la importancia de los datos generados por humanos. “El valor de los datos recopilados sobre interacciones humanas genuinas con los sistemas será cada vez más valioso en presencia de contenido generado por inteligencias artificiales en datos extraídos de Internet”, destacan los investigadores.

En las últimas semanas ha habido sendas muestras del valor creciente de esos datos. Meta ha sido amonestada por las autoridades de protección de datos de la UE por tratar de utilizar los comentarios y fotografías publicadas por los usuarios de Facebook e Instagram sin avisarlos adecuadamente. Su objetivo era entrenar una nueva inteligencia artificial multipropósito. La empresa ha terminado renunciando a usar los datos de los europeos, pero en contrapartida no permitirá que su IA se utilice en territorio europeo.

Elon Musk ha realizado un movimiento similar. El dueño de Twitter (ahora renombrada a X) ha introducido sin avisar una nueva opción en la que el usuario acepta entrar a su IA, Grok, con los datos que genera en la red social. “Para mejorar continuamente tu experiencia, podemos utilizar tus posts en X, así como tus interacciones, entradas y resultados como usuario con Grok para fines de entrenamiento y perfeccionamiento. Esto también significa que tus interacciones, entradas y resultados pueden compartirse con nuestro proveedor de servicio xAI con dichos fines”, avisa en una casilla que viene marcada por defecto. Puede desactivarse en este enlace.

La jugada de Musk ha salido a la luz en los últimos días y varios abogados especialistas en protección de datos han avisado que puede contravenir la legislación europea. La autoridad de privacidad irlandesa, de la que depende la red social comprada por el multimillonario, ya ha anunciado que está investigando el asunto.