Audio Deepfakes: entre la polémica por derechos de autor y la reinvención del entretenimiento

Llevamos un par de años escuchando hablar de los Deepfakes: una tecnología de inteligencia artificial que permite generar vídeos en los que la imagen de una persona es sustituida por otra mientras que se mantiene el sonido original. Así, en España se viralizó hace unos meses un vídeo en el que podíamos ver a los principales políticos de los partidos caracterizados como miembros del Equipo A emulando la mítica introducción de la serie de televisión. Ahora comienzan a expandirse los audio deepfakes: simulaciones sonoras donde la tecnología permite que un personaje mediático ‘diga algo que nunca dijo’. Por ejemplo, Jay-Z recitando a Hamlet.

La tecnología funciona de manera similar a la del vídeo: a partir de material de archivo con el que se alimenta la base de datos de un software, éste se encarga automáticamente de interpretar la tonalidad, frecuencia y timbre de la voz, para ser capaz luego de generar un audio completamente nuevo que simula el original. En el caso de este vídeo fue retirado por una reclamación de copyright llevada a cabo por Roc Nation, la discográfica de Jay-Z, bajo un texto que decía: “Este contenido usa ilegalmente una IA para hacerse pasar por la voz de nuestro cliente”.

Andy Baio, el creador del vídeo, ante esta y otras reclamaciones de derechos de autor, publicó hace un par de meses un vídeo en el que Barack Obama, John F. Kennedy, Bill Clinton, Ronald Reagan, Donald Trump y Franklin Roosevelt explican en qué consiste su canal de Youtube, conocido como Vocal Synthesis. Reproducimos dos extractos de dicho texto:

  •  “En los últimos meses, el creador del canal ha entrenado a decenas de modelos de síntesis de voz basados en los patrones de voz de varias celebridades u otras figuras prominentes, y ha utilizado estos modelos para generar más de cien videos para este canal. Estos videos generalmente presentan una voz sintética de celebridades que narra un texto breve o un discurso. A menudo, el texto en particular se seleccionó para proporcionar un contraste divertido o entretenido con la personalidad de la vida real de la celebridad”.
  • “El canal fue creado por un aficionado individual con una gran cantidad de tiempo libre en sus manos, así como un interés en las tecnologías de inteligencia artificial. Le gustaría enfatizar que todos los videos en este canal fueron destinados al entretenimiento, y que no hubo ningún propósito malicioso para ninguno de ellos. Cada video, incluido este, está claramente etiquetado como síntesis de voz tanto en el título como en la descripción”.

Tanto los deepfakes de vídeo como los de audio han generado todo tipo de controversias. Aunque las tecnologías lleven décadas desarrollándose en ámbitos como el I+D+i o en entornos académicos e incluso si la voz sintetizada ya forma parte natural de nuestras vidas a través de los programas de asistencia a la conducción o la asistencia doméstica, el auge de las noticias falsas y la desinformación suponen el combo perfecto para que muchas personas se alarmen. Claire Wardle, la periodista especializada en manipulación digital del NY Times, declaraba en un reportaje recientemente: “Ha habido una explosión de miedo y mucha gente diciendo: oh dios mío no podemos confiar en nada... Sí, los deepfakes son distópicos y serán cada vez más realistas y cada vez más baratos de llevar a cabo. Pero el miedo alrededor de ellos es demasiado. El hype alarmista es probablemente más peligroso que la tecnología en sí misma”. 

Escuchar la voz de Franco puede resultar escalofriante para muchas personas. Pero de nuevo nos encontramos ante una aplicación vinculada al mundo de la generación de contenidos en la industria mediática. Tal y como explican los creadores del podcast X Rey en una entrevista reciente, “Nosotros al final lo hemos escuchado por archivos históricos, pero la gente que le escuchó cuando vivía se ha sorprendido por el realismo”. Son palabras de Aitor Álvarez, investigador de Vicomtech, la empresa que ha producido este audio para el podcast XRey, una producción que se sumerge en el proceso de la abdicación del rey emérito y su figura. Es realista, pero casi nadie se ha echado las manos a la cabeza porque sea real.

De hecho, algunas de las aplicaciones menos espectaculares de estas tecnologías y que demuestran un potencial social muy interesante están vinculadas en escuchar a quienes ya no pueden hacerse oír: sucedió hace poco con un vídeo en el que pudimos ver cómo sería que Lorca recitara uno de sus poemas (en la voz del actor Carmelo Gómez) o en el proyecto “Te doy mi voz” de la Universidad del País Vasco que busca devolver el habla a quien se la robó la ELA.  

Mientras sigue creciendo la alarma ante estas tecnologías y los formatos que proponen, creadores como Baio siguen haciendo contenidos tan sugerentes como Boris Johnson leyendo “Wannabe” de las Spice Girls, Alexandria Ocasio-Cortez leyendo “Los errores del socialismo” de Hayek o Kanye West, que acaba de anunciar que se presentará a la presidencia de los Estados Unidos, recitando pasajes del Antiguo Testamento.