Este artículo forma parte de la revista 'Inteligencia Artificial. Riesgos, verdades y mentiras', exclusiva para socios y socias de elDiario.es. Recibe en casa uno de los últimos ejemplares en papel de regalo con un año de elDiario.es
Recordarás el icónico principio de la película ‘Matrix’ (Wachowski, 1999), donde una cortina de símbolos nos adentraba en un mundo de imágenes y voces sintéticas. Un entorno tan creíble y realista donde nada podía delatar a quienes lo habitaban que era irreal, a excepción, tal vez, de algunos fallos que se manifestaban en forma de ‘deja vú’.
‘Ya sé kung-fu’ es el nombre con el que se conoce la escena en la que Neo, el protagonista de ‘Matrix’, pasa de un instante a otro a conocer las reglas y los movimientos de ese arte marcial gracias a la precarga de un modelo informático en su sistema, algo así como una IA de kung-fu.
Como Neo, ahora tú también eres capaz de generar una imagen en cuestión de segundos al estilo de Van Gogh. Cualquiera puede hacerlo. Es decir, cualquiera con acceso a internet o un ordenador. La IA lo hace por ti.
Los símbolos que codificaban el mundo de Matrix, y que en nuestros ordenadores podían representarse en última instancia como la base del lenguaje binario de ceros y unos, ahora representan un lugar de encuentro para voces, proteínas, imágenes y artículos periodísticos... En estos momentos la producción artística y científica confluyen como nunca, y sin complejos, en un tsunami de matrices numéricas donde los datos se relacionan, se afectan y se generan.
Desde los primeros sistemas de computación, la idea de diseñar máquinas que pudiesen crear por sí mismas siempre estuvo presente. El campo de la creatividad computacional específicamente se ha dedicado a estudiar la relación entre la creatividad y los sistemas artificiales en un campo de confluencia con disciplinas tan interesantes como la psicología cognitiva.
Actualmente, los algoritmos estrella en la generación de arte están basados en IA de aprendizaje profundo, una inteligencia artificial capaz de crear nuevos datos a partir de patrones y estructuras encontrados en otros datos pre-existentes. Lo que muchos no sospechaban es que todos estos años en que hemos almacenado gratuitamente nuestras fotos, además de etiquetarlas, han servido no solo para que los algoritmos fueran capaces de identificar un gato en la imagen, sino que debido a la cantidad y variabilidad de imágenes de gatos ‘vistos’ se han entrenado para generar versiones de gatos con atributos alucinantes.
¿Pero esta capacidad de generar variaciones es suficiente para denominar arte a ‘eso’? ¿La imagen generada por inteligencia artificial de un gato al estilo de Johannes Vermeer se puede considerar arte o se le debería exigir algo más? Toda incursión de una nueva tecnología remueve los cimientos en torno a la figura de la obra, el artista, y su proceso creativo. En el año 1935, Walter Benjamin reflexionaba en torno a la obra de arte y el concepto de aura en la era de la reproducción mecánica. En la actualidad, el debate ya no es tanto en torno a la reproducibilidad mecánica de un original sino a si ese original ha sido en realidad generado por una máquina o no.
Los algoritmos generativos lo hacen en base a patrones que han extraído de otras obras artísticas, siendo el límite entre lo realmente generado o parcialmente copiado fuente constante de discusión y debate. En este texto, la intención no es establecer un veredicto, sino tratar algunos puntos que pueden facilitar argumentos para la reflexión.
Dentro de la generación de arte digital podemos encontrar dos aproximaciones basadas en el grado de intervención del artista. Se puede generar una obra programando los parámetros que configuran los objetos de una escena, interviniendo a nivel de píxel o polígono; o bien directamente incorporando ecuaciones matemáticas que permiten definir, por ejemplo, estructuras geométricas o definir el comportamiento físico. Y, por otro lado, tenemos un tipo de arte digital generado desde el aprendizaje de otras obras de arte. En este punto el artista no debe preocuparse por parametrizar matemáticamente el objeto y/o su comportamiento, ya que puede obtener un resultado casi inmediato mediante la entrada de texto u otra imagen de referencia. Entre ambos modelos generativos, el mayor grado diferencial es sin duda el modo de aprendizaje.
El aprendizaje de la máquina
Si consideramos al algoritmo como a un estudiante, lo importante como profesores sería ofrecerle las condiciones de aprendizaje idóneas. En el ámbito de la IA, esto consistiría en proporcionar datos representativos en términos de cantidad y variabilidad y, por otro lado, asegurarnos de que el estudiante no memorice sino que sea capaz de entender.
Si tuvieras que recordar una de las siguientes secuencias, ¿cuál crees que recordarías mejor?
–¿La secuencia primera: abc,abc,abc,abc,abc,abc?
–¿O la secuencia segunda: baa,caa,abc,aba,bab,cba?
Es muy probable que contestes la primera, ¿verdad? Y esto es debido al hecho de que encontraste un patrón, el de recordar seis veces ‘abc’. Esa forma de comprimir la información tiene una doble ventaja: por una lado, la más evidente, el hecho de que requiere menos espacio de almacenaje; y, por otra parte, la de obligar a extraer estructuras no evidentes y características en nuestros datos.
De la misma manera que existen escuelas con metodologías de aprendizaje diferentes, existen diseños de entrenamiento de IA con tal fin: aquellos que se basan en reconstruir el original (VAE); los que compiten entre sí mediante una red generadora; y otra que es evaluadora (GAN) y actúa como base de la generación de los famosos ‘deep Fakes’.
También hay otras estrategias, como las basadas en los modelos de difusión, donde se corrompe el contenido original mediante ruido y se obliga a la red original a reconstruirlo guiada por algún otro tipo de contenido como texto o imagen. Este tipo de aproximación es la base de IA conocidas como Dall·e-2, Stable Diffusion o Midjourney, los tres capaces de generar contenido con alta calidad y variabilidad.
Espacio latente
El de ‘espacio latente’ es uno de los términos clave en esta revolución y constituye algo así como el mundo de las ideas platónico contenido en matrices numéricas. Tras el entrenamiento, la red ha cristalizado lo más relevante de los datos de entrada y cierto nivel semántico traducido en distancias dentro de la distribución de ese espacio.
Cuando decimos que dos objetos son similares en un modelo de generación, lo que realmente significa es que dentro de ese espacio latente estarán más próximos que otros dos con significado diferente.
Por su parte, para generar contenido podemos hacerlo desde cuadernos Colab, integrados en aplicaciones como Photoshop o, directamente, desde la web de la empresa como es el caso de Dall·e-2. La mayoría de las veces generaremos la imagen mediante texto, que funciona como una llave entre una imagen ruido y una imagen reconocible. Esa es la razón por la que estas entradas de texto a modo de códigos secretos se pueden comercializar. También existe una comunidad y webs como Léxica donde es posible encontrarse referencias estructuradas del tipo: el objeto clave que quieres generar (gato), el estilo (arte conceptual) y un artista de referencia (Marcel Duchamp), además de anexar otras palabras que mejoran el resultado como el de referenciar algunos portales artísticos como Artstation.
Google, Meta, Microsoft, OpenAI, StabilityAI son actores fundamentales en la industria en herramientas de imágenes impulsadas por AI, pero de todos ellos fue StabilityAI la que se atrevió a desconectar del resto al participar junto con la empresa Runwayml, LAION y el grupo de investigación CompVis en la generación de StableDiffusion, un modelo de código abierto liberado a la comunidad desde donde se comenzó a desarrollar mejoras y nuevas funcionalidades al modelo original.
Se puede generar una obra programando los parámetros que configuran una escena o a base de patrones extraídos de otras obras
Otro de los aspectos en los que se diferencia el tipo de acceso a los modelos es el nivel de customización en el proceso generativo. Podemos controlar, por ejemplo, cómo de literal es la generación respecto al texto o imagen de entrada (margen creativo), además del número de iteraciones en el proceso con el fin de añadir más precisión al resultado (margen de perfección).
A pesar de que utilicemos lenguaje natural en la generación, muchas veces es difícil conseguir el resultado que esperábamos, por ejemplo, que las figuras estén en una determinada pose o que entre dos imágenes generadas haya consistencia. Es por ello que constantemente se van sumando mejoras, como la reciente ControlNet, que permite guiar la generación con entradas de texto, esbozo o poses de cuerpo entre otros. Hugging Face que es otro de los agentes en esta revolución permite probar todas estas características en interfaces amigables dentro de su web.
La secuencia de generación Texto_a_Imagen es la más usual y en la que más nos hemos centrado, pero podemos generar mediante Texto_a_Audio, Texto_a_Texto.
Hasta aquí hemos hablado de datos, de estrategias de aprendizaje y de la forma de navegar por ese espacio latente, pero ¿qué otras comparaciones podríamos establecer? Ha llegado el momento de hablar del proceso.
Es complejo hablar de copia porque también los humanos ven muchas obras de arte y producen variaciones a partir de esa experiencia
Al artista se le presume una motivación en proyectar parte de su personalidad en la obra mientras que el algoritmo debe ser guiado. Un ser humano cuenta con experiencia vital, mientras que un algoritmo lo que tiene a su disposición son datos que, además, en su mayoría han sido extraídos de forma desordenada en internet, algo que, por otro lado, podría cambiar cuando la mayoría de datos puedan provenir de máquinas presentes en el mundo, como los robots.
Otro aspecto desde el que podemos valorar la obra directamente es a través de su resultado o producto final. Aquí es más difícil discernir. La razón es que a pesar de que los algoritmos requieren guía, no podemos asegurar que el producto sea una copia, porque la tarea de los modelos es justamente aprender de los datos, no ajustarse a ellos. Desde el punto de vista filosófico, ¿no habría algo parecido en este proceso a lo que hacen algunos humanos cuando están creando? Es decir, ver muchas obras y a continuación producir variaciones a partir de esa experiencia.
La producción de inteligencia artificial no está limitada a imágenes fijas y cada día más se expande hacia la música, al vídeo, al 3D... Y es obvio que los tiempos de espera en la generación son cada vez menores.
Gracias a estos avances, ¿se plantea un servicio de generación de películas a la carta? ¿Se podrán generar infinitas variaciones de la serie ‘Star Wars’ con incluso algún personaje parecido a ti? ¿Es un peligro generar una burbuja de arte customizado que limite nuestra experiencia y experimentación hacia el descubrimiento y la experimentación de nuevas corrientes artísticas?
En nuestra mano está el decidir si co-creamos con la IA o nos conformamos con sus resultados. La pregunta de si es arte lo que genera la IA seguirá latente, pero lo que sí parece casi incuestionable es que el propio algoritmo ya lo es.