La Inteligencia Artificial ya crea mundos virtuales a partir de vídeos de ciudades reales
De momento solo es un simulador de conducción, pero que nadie lo subestime: se trata de la primera representación de un mundo virtual hecha a partir de vídeos de ciudades reales. El proyecto lo ha desarrollado la marca de tarjetas gráficas Nvidia, que ha usado redes neuronales artificiales, indispensables ya en cualquier trabajo de Inteligencia Artificial (IA).
En pocas palabras: hay una máquina que crea imágenes de ciudades de la nada. Y aunque aún está en pañales, ya tiene tintes de hito tecnológico: “Es una nueva forma de renderizar contenido de vídeo utilizando el deep learning [aprendizaje profundo]”, explica a The Verge Bryan Catanzaro, vicepresidente del departamento de deep learning de Nvidia. “Ya estamos pensando en cómo la IA vendrá a revolucionar el campo de los gráficos”, dice.
El modelo, dicen desde Nvidia, servirá para muchas cosas: la más llamativa es la que abre este artículo, aunque no es la única. A partir de vídeos de conducción en ciudades reales, los programadores han conseguido que la IA genere su propio mundo, interactivo, con una frecuencia de 25 frames (cuadros) por segundo. Uno de los vídeos publicados por la compañía muestra un simulador de conducción que crea la ciudad a medida que el coche pasa por ella, pudiendo girar, adelantar o dar la vuelta.
Lo han conseguido construyendo una red neuronal artificial con pix2pix (una herramienta que convierte a 3D dibujos en 2D) a la que han entrenado con vídeos de gente conduciendo en entornos reales. Tras eso, el sistema se encarga de reconocer los elementos que ha visto, como las personas, los coches, los árboles o los edificios y los transforma a digital utilizando el motor gráfico Unreal Engine 4. El algoritmo crea así su propio mundo a partir de los conocimientos que ha ganado viendo una y otra vez los vídeos de ciudades, generando una realidad diferente, nueva y nunca antes conocida.
Por cierto, que es el mismo motor gráfico que utilizan videojuegos como Fortnite, Gears of War 4 o Dragon Ball FighterZ, entre otros. El trabajo donde se explica cómo han creado el juego de conducción fue subido en agosto a arxiv, un repositorio en Internet de artículos científicos.
Dibujando el futuro en tres dimensiones
La compañía dice que este algoritmo reducirá drásticamente los costes a la hora de desarrollar videojuegos o escenarios para la industria del cine. Pero ahí no queda todo, y es que la IA de Nvidia también puede generar deepfakes, una tecnología que debe su nombre a su creador (un usuario de Reddit que, en diciembre del año pasado, se hizo famoso porque creaba vídeos porno cambiando la cara de las actrices por celebrities de Hollywood).
El algoritmo también es capaz de predecir y generar el futuro de una secuencia de vídeo a partir de un fotograma determinado. Imaginen que entrenamos a los coches autónomos con vídeos de ciudades de otros coches autónomos y aplicamos el algoritmo de Nvidia: así, los coches podrían ser capaces de predecir con más exactitud qué va a ocurrir en cada momento, movimientos de los peatones incluido.
En la imagen de abajo se puede comprobar mejor este proceso. La imagen de arriba a la izquierda es un fotograma del mundo real. El cuadrante de arriba a la derecha y el inferior de la izquierda muestra dos redes neuronales intentando predecir el futuro del primer clip, cuyo resultado es la foto de abajo a la izquierda. Aunque la calidad de la imagen es un poco borrosa y hay algunos fallos (en los árboles y en las señales de tráfico), la tecnología parece bastante desarrollada.
En otro vídeo publicado por la compañía de tarjetas gráficas, Ming-Yu Liu, uno de los investigadores del proyecto se muestra orgulloso de la creación: “Es la primera vez que hemos combinado el machine learning [aprendizaje automático] y los gráficos por ordenador para generar imágenes utilizando redes neuronales profundas”.
Como explicamos un poco más arriba, el algoritmo también es capaz de trasladar expresiones faciales, hechas a partir de un simple boceto, a los vídeos. Así, los investigadores de Nvidia han conseguido que una persona en un vídeo ponga o haga una cara que jamás puso. Más allá de las interrogantes lógicos que presenta la tecnología de la multinacional (aparece en un momento en el que las fake news están a la orden del día y en un mundo donde cada vez es más difícil distinguir entre lo que es real de lo que no), aún tienen que solucionar el problema de los recursos computacionales que requiere su uso.
Consume mucho. Pero como ya hemos dicho, la IA aún está en ciernes. Nvidia lo compara con el proceso que siguió el trazado de rayos, una tecnología de renderizado de gráficos que apareció en el mapa por primera vez en 1968 y que no fue perfeccionada hasta pasados 10 años. Quizás dentro de una década ya hayan dado con la tecla que solvente el enorme potencial de hardware que necesita el algoritmo para funcionar.