La frenología, esa pseudociencia tan popular a mediados del siglo XIX, afirmaba que era posible conocer el carácter y la personalidad de una persona fijándonos en la forma del cráneo y sus facciones. Fue desterrada al poco tiempo por no ser científica, a pesar de que a día de hoy aún haya quien sigue creyendo en ella. No serán los científicos del MIT (Instituto de Tecnología de Masachussetts), pero es inevitable pensar en esta práctica si hablamos de Speech2Face, una red neuronal creada por varios investigadores del instituto estadounidense capaz de imaginarse la cara de una persona a partir de su voz. Una afirmación así puede ser muy controvertida.
Ni siquiera necesitan tener muchos segundos de audio, ya que el modelo ha sido entrenado con millones de vídeos sacados directamente de Internet y de YouTube en los que aparece gente hablando. Han subido el paper a arXiv.org, un repositorio de artículos científicos y en la web del proyecto se pueden ver ejemplos de cómo funciona.
Mientras aprende, la red también hace correlaciones entre la cara de las personas y su voz con las que luego conseguirá generar una imagen del rostro ateniéndose a la raza, al género y a la edad.
El problema ético
Los del MIT dicen que los vídeos no representan de forma igualitaria a toda la población del planeta y advierten que las futuras investigaciones que se hagan en este campo tendrán que estar compensadas en tanto en cuanto a la representación racial y étnica de los vídeos e imágenes de las personas con las que se entrenen las bases de datos.
Reconocen que su modelo está sesgado y que depende de los idiomas que capte para que los resultados voz-cara sean correctos: “Si cierto idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje”, dicen.
Speech2Face se supone que es capaz de predecir, por ejemplo, si alguien es asiático, blanco y mujer o negro, hombre y africano tan solo escuchándole hablar. Los científicos consideran que estas categorías son obra de un clasificador de atributos comercial (Face++) utilizado a la hora de hacer las primeras pruebas del modelo. Pero también falla, ya que en algunos casos, “los atributos vocales no se corresponden con la apariencia de la persona”. Los algoritmos también pueden tener prejuicios o ser discriminatorios.
“En nuestra sección experimental, mencionamos categorías demográficas inferidas como ”blanco“ y ”asiático“. Estas son categorías definidas y utilizadas por un clasificador de atributos comercial y sólo se utilizaron para la evaluación en este trabajo. Nuestro modelo no se alimenta de esto y no hace uso de esta información en ningún momento”, escriben los investigadores en el estudio.
También anuncian que necesitarán seguir estudiando el modelo “para determinar hasta qué punto se basa en el lenguaje”.
¿Cómo sabe quién es quién?
Para construir la red neuronal los investigadores han usado VGG-Face, un modelo de reconocimiento facial entrenado con DeepFace, otro modelo especializado en captar datos de la cara. A partir de ahí les ha sido fácil demostrar que a partir de estos rasgos faciales se puede construir la cara de una persona en particular.
Eso solo es el principio. Speech2Face funciona con un codificador y un decodificador. El primero codifica la voz y guarda un espectograma de las ondas de audio. Ahí predice una característica de la voz que después irá asociada a la cara. El segundo se encarga de generar una imagen de la cara de frente y de perfil, tomando como referencia la característica facial que aisló el codificador.
La red neuronal solo es entrenada en el codificador, así que cuantos más vídeos vea, más sabrá y con mayor exactitud podrá predecir la cara a partir de la voz.
Los resultados de Speech2Face han tenido que ser contextualizados por los investigadores, y para eso han tenido que probar el modelo en varios campos. Han calculado la fiabilidad de la red neuronal en base a los atributos demográficos (como edad, género y etnia) y los atributos craneofaciales (el tamaño de la cabeza, de la nariz, de la boca, etcétera).
También analizaron la capacidad de la red neuronal para equivocarse generando una cara cuando escucha un clip de audio de 3 y de 6 segundos. Cuanto más tiempo escucha, más fácil es para el modelo adivinar el rostro de alguien. No esperen que clave cada cara a partir de la voz que escucha, pero los resultados son esperanzadores.