La curva de aprendizaje de la inteligencia artificial está en riesgo: su ansia de datos es infinita pero no las obras humanas

Desde que ChatGPT vio la luz a finales de 2022, una parte del mundo se ha esforzado por explicarle a la otra cómo es posible que una máquina replique tan bien la forma en la que se expresan los humanos. Y es que en el fondo, la base inteligencia artificial generativa, tanto la que produce textos como la que hace música, imágenes o vídeos es siempre la misma: sus sistemas procesan ingentes cantidades de datos sobre cómo escriben, tocan o dibujan las personas, extraen patrones y luego los aplican para crear producciones nuevas.

Las tecnológicas le han dado de comer datos a millones, sin filtros. Esto ha hecho que las inteligencias artificiales aprendan bastante rápido, pero ha traído consigo algunos problemas. Uno de ellos es que la IA ha absorbido los sesgos racistas o machistas de la sociedad de la que aprende y puede reproducirlos. También está la cuestión del copyright, con autores que no quieren que sus obras se usen con este fin. Ahora llega una inesperada tercera consecuencia: los escritos humanos disponibles online, como las páginas de la Wikipedia, los libros o los artículos de prensa, no son infinitos. Las tecnológicas se están quedando sin ellos, pero la IA necesita muchos más para seguir mejorando.

El Instituto de Investigación Epoch, centrado en analizar la trayectoria y la Gobernanza de la IA, calculó que el principal recurso de la IA podría agotarse muy pronto. “Según nuestras previsiones, habremos agotado la reserva de datos lingüísticos de baja calidad entre 2030 y 2050, la de datos lingüísticos de alta calidad antes de 2026 y la de datos de visión entre 2030 y 2060”. El centro hace una distinción entre datos de baja o alta calidad porque es este último “el tipo de datos que se suele utilizar para entrenar grandes modelos lingüísticos”. Al menos, hasta ahora.

“A medida que surjan más aplicaciones, la demanda de datos para entrenar modelos crece exponencialmente”, explica Julián Estévez, profesor de Robótica e IA en la Universidad del País Vasco. “Factores como la privacidad de los datos personales y los derechos de autor sobre el contenido en línea restringen cada vez más la disponibilidad de datos utilizables para el entrenamiento”, añade.

Se trata de una cuestión clave no solo a nivel tecnológico sino también financiero, ya que las tecnológicas han logrado que los mercados tengan grandes expectativas en la IA y la rieguen con capital. Microsoft, que ha vuelto a ser la empresa más valiosa del mundo gracias a la IA, es el mejor ejemplo de ello. Sin embargo OpenAI, su principal socio en este campo, podría enfrentarse a la carestía de datos muy pronto.

Para entrenar a GPT-4 (la tecnología base de ChatGPT), OpenAI utilizó 12.000 millones de tokens. En este sentido, un token es una unidad básica de texto o información de la que la IA puede aprender. Para entrenar a GPT-5, OpenAI necesitaría en 60.000 y 100.000 millones de tokens si quiere mantener el ritmo de mejora actual. Cómo planea conseguir esos datos es uno de los mayores secretos corporativos del campo de la IA, puesto que todas sus rivales se enfrentan al mismo problema.

Es una cuestión que ha vuelto a rodear de polémica las prácticas de OpenAI. Según una exclusiva del New York Times publicada este sábado, la desesperación de la empresa por conseguir nuevos datos la llevó a diseñar un programa para saltarse las restricciones de YouTube y transcribir millones de horas de vídeos a texto con el que poder alimentar a GPT-4. Tan solo unos días antes, el director ejecutivo de YouTube había avisado que esto supondría “una clara violación” de los términos de uso de la plataforma.

El ejecutivo hizo estas declaraciones ante la sospecha general de que OpenAI ha usado vídeos de YouTube, Facebook e Instagram para otro de sus nuevos sistemas, Sora, capaz de generar vídeos realistas a partir de un texto introducido por el usuario. La investigación del Times revela que hace meses que la empresa dirigida por Sam Altman habría superado ese punto en su búsqueda de datos, puesto que ChatGPT salió al mercado a mediados de 2023.

“Cuando un creador sube su trabajo a nuestra plataforma, tiene ciertas expectativas. Una de ellas es que se respeten las condiciones del servicio. No se permite que se descarguen cosas como transcripciones o fragmentos de vídeo, y eso es una clara violación de nuestras condiciones de servicio. Esas son las reglas del juego en cuanto a contenidos en nuestra plataforma”, había afirmado Neal Mohan solo dos días antes de que el Times revelara que eso es justo lo que había estado haciendo OpenAI.

La acción de OpenAI también abre el dilema sobre la curva de mejora de la IA, puesto que las transcripciones de vídeos de YouTube se consideran “datos de baja calidad” para el entrenamiento de estos modelos lingüísticos.

Una portavoz oficial de YouTube ha rechazado hacer comentarios sobre los próximos movimientos de la plataforma o esta se plantea emprender acciones legales ante las preguntas de este medio. OpenAI no ha contestado a los requerimientos de información. La desarrolladora de ChatGPT ya ha sido denunciada por el sindicato que agrupa a más de 9.000 autores estadounidenses, entre ellos George R. R. Martin (Canción de Hielo y Fuego), así como por el propio New York Times, por utilizar contenidos protegidos para entrenar a su IA sin permiso. OpenAI afirmó que habría sido “imposible” entrenar ChatGPT respetando el copyright.

IA para entrenar a la IA

“Datos sintéticos”. Es una de las soluciones que plantean OpenAI, Google o Anthropic (en la que Amazon ha invertido 4.000 millones) y otras empresas de IA para hacer crecer las bases de datos con las que entrenar a la inteligencia artificial a pesar de que ya no haya más obras generadas por humanos de las que aprender. Consiste en entrenar a la inteligencia artificial con contenidos generados por otra inteligencia artificial.

Julián Estévez, de la Universidad del País Vasco, expone que los datos sintéticos pueden ser útiles “sobre todo son adecuados cuando los datos reales no recogen suficientes casos extremos o situaciones poco frecuentes”. No obstante, “tienen limitaciones importantes en cuanto a su capacidad para capturar toda la complejidad y diversidad de los datos del mundo real. Esto significa que no pueden cubrir por completo la creciente necesidad de datos”, continúa.

“Los datos sintéticos no es la solución definitiva a estos problemas”, afirma, refiriéndose al fin de la disponibilidad de obras humanas online para entrenar a la IA.

Desde el instituto Epoch añaden una nueva variable que podría dar aire a las empresas que desarrollan sistemas de generación texto artificial. “Hemos actualizado el estudio, y la versión actualizada será publicada en breve. La principal actualización es que ahora creemos que los datos de baja calidad, como transcripciones de vídeos de YouTube y posts en redes sociales, serán útiles para entrenar modelos de alta capacidad”, revela el director del centro, Jaime Sevilla.

La nueva fecha alarga hasta 2030 ese muro de disponibilidad de datos. No obstante, antes de llegar a ese punto la IA podría encontrarse otros muros para seguir desarrollándose como hasta ahora. “Antes de llegar a este punto anticipamos que puede haber otros impedimentos que ralentizarán el escalado, incluyendo la densidad de consumo energético y la dificultad de manufacturar y acumular suficientes GPUs [Unidades de procesamiento gráfico, el hardware esencial para el entrenamiento]”, opina Sevilla.

Es una opinión en la que incide Estévez, que llama a las empresas del sector a enfocarse en la eficiencia en vez de generar una producción infinita de datos sintéticos. “Creo que la solución pasa por mejorar las arquitecturas de la IA para ser eficientes en el empleo de los datos y de la energía consumida, y la comunidad investigadora ya se puso en marcha en esa dirección”, afirma.