ENTREVISTA
María Fitó, experta en podcasting: “Como humanos hemos fallado al no ponerle frenos a la inteligencia artificial”

La investigadora reflexiona sobre los desafíos que plantea la IA generativa de voz en el sector del audio, en el marco del encuentro global del pódcast en español que se ha celebrado esta semana en Sevilla
— Los desafíos de la IA en el presente (y futuro) del pódcast protagonizan el arranque de Prosodia 2025 en Sevilla

María Fitó ha impartido la ponencia inaugural del encuentro global del podcast que ha tenido lugar en Sevilla Prosodia

7 de junio de 2025 06:00 h

¿Le darías una gota de sangre a la inteligencia artificial (IA)? La respuesta es no, con casi toda probabilidad. Pero, en cambio, sí le brindamos nuestra voz y con ella nuestro ADN del habla, permitiendo su clonación. “La prosodia es la forma de hablar que tenemos cada uno de nosotros, es un dato personal que se puede comparar incluso al ADN y que está protegido por ley”, explica María Fitó Carreras, profesora e investigadora de la Universitat Internacional de Catalunya especializada en podcasting.

Esta experta ha sido la encarga de impartir la ponencia inaugural de la tercera edición de Prosodia, el encuentro global del pódcast en español que se ha celebrado esta semana en Sevilla. Durante su intervención, abordó los desafíos y oportunidades que plantea la inteligencia artificial generativa de voz en la producción de pódcast. Y, al terminar su exposición, reflexionó con elDiario.es sobre las implicaciones legales y éticas entraña la clonación de voces que lleva a cabo la IA.

Su línea de investigación está centrada en el branded content aplicado al medio sonoro, ¿por qué decidió realizar un análisis de software de inteligencia artificial generativa de voz?

La idea nació desde mi faceta como locutora cuando percibí la IA como una amenaza ante la bajada del volumen de trabajo. Al mismo tiempo, como productora de pódcast, vi en ella una oportunidad para mejorar mi flujo de trabajo. Y luego mi curiosidad innata como investigadora me llevó a querer extraer una radiografía de esta tecnología, entenderla y analizar sus implicaciones.

Has señalado que la voz es un dato personal comparable a nuestro ADN. ¿Qué implicaciones legales y éticas entraña la clonación de voces que la IA está logrando?

Toda esta tecnología usada de forma fraudulenta, o en manos de personas que no la usan de forma ética, puede provocar mucho perjuicio. Sobre todo nos lleva a dudar, a cuestionarnos la autenticidad de todo. Cuando hablamos de hechos noticiables que tienen que ver pruebas documentales como audios de WhatsApp, ¿quién nos dice que no hayan podido ser clonados? Es que no tenemos la certeza. En Estados Unidos, muchos bancos utilizan el reconocimiento de voz a la hora de realizar operaciones. Imagínate que se pudiera clonar. Como audiencia, está creando indefensión el hecho de que no se le esté informando que este contenido ha sido generado por una inteligencia artificial generativa de voz. Solo se hace de forma excepcional.

De hecho, la proliferación de aplicaciones para clonar voces ha democratizado el acceso a esta tecnología. ¿Cree que la regulación actual es suficiente para abordar los desafíos que conlleva?

Recientemente, se ha aprobado la Ley de la Inteligencia Artificial para los estados miembros de la Unión Europea. Sin embargo, el despliegue en su totalidad de las prescripciones de esta ley no entrará en vigor hasta el 2026. De momento, todo son recomendaciones porque se ha dado un periodo de adaptación a los estados para que promulguen sus propios reglamentos o leyes. ¿Qué pasa? Que este periodo de adaptación pienso que es muy largo si tenemos en cuenta a qué velocidad está avanzando esta tecnología. La IA está dando pasos gigantes y nosotros como humanos hemos fallado porque no le estamos poniendo freno, no estamos legislando en los tiempos que deberíamos. Y estamos dejando que la inteligencia artificial avance muy rápido, ofreciendo un oasis de libertad en el que podemos usar la clonación de voz para cometer actos ilícitos fraudulentos o usurpación de voz sin problema. Aun así, la Unión Europea ha sido la primera en ponerse manos a la obra con la regulación de la inteligencia artificial, porque en Estados Unidos Trump no tiene prisa en impulsar ninguna ley que ponga un poco de coto a todo esto.

Que la inteligencia artificial sepa tanto de nosotros nos sitúan en una posición muy vulnerable y además nos deshumaniza

En su última investigación, analiza el panorama actual de software generativos de voz y recoge que los creadores perciben debilidades como la necesidad de editar pausas para acercarse a la voz humana. ¿Cree que esta tecnología alcanzará algún día un nivel indistinguible del habla humana?

Llegará el día. ¿No estamos teniendo conversaciones con la inteligencia artificial, como vaticinó la película Her? Las películas vaticinan avances que son ya una realidad. En Her lo que pasa es que la voz era Charlize Theron y no se notaba que era una IA. Pero claro que va a llegar un día, que la IA generativa de voz no es que vaya a rozar la perfección, es que va a ser perfecta. Entonces los humanos deberemos reflexionar hasta qué punto lo estamos haciendo bien permitiendo que la inteligencia artificial se apodere de datos personalísimos del ser humano. ¿Tú le darías a una inteligencia artificial una gota de tu sangre? No porque el día que sea autónoma te podrá clonar. Pues eso estamos haciendo con nuestras voces.

No somos conscientes de lo que implica.

Ahora mismo todo lo vemos como oportunidades de negocio, fórmulas para el entretenimiento humano. Pero estamos cediendo a una tecnología datos personales nuestros. Eso nos está desnaturalizando como humanos. Y en cualquier momento puede girarse en contra nuestra. Si se cumplen las profecías de las películas o la literatura, como en la obra de Isaac Asimov, puede que un día esta inteligencia artificial sea autónoma y tengamos que pactar con ella unas normas de convivencia. Pero ya será tarde.

¿Ceder nuestras voces nos deja indefensos?

Absolutamente. Que la inteligencia artificial sepa tanto de nosotros nos sitúan en una posición muy vulnerable y además nos deshumaniza.

¿Cuál es el límite al que tendríamos que darle prioridad en este periodo de adaptación hasta que entré en vigor el marco legislativo?

El de la transparencia, que es informar de que ese contenido ha sido generado con inteligencia artificial. Este sí que ya es obligatorio, pero no se está informando de forma adecuada a los usuarios y esto está vulnerando el principio de transparencia.

Ha comentado que emprendió su investigación porque le preocupaba que pusiera en peligro su trabajo como locutora. ¿Representa realmente hoy esta tecnología una amenaza significativa para los locutores profesionales?

Yo cuando empiezo a jugar con todos estos programas en 2024, me quedo tranquila porque compruebo que no me va a sacar el trabajo por ahora. A partir de 2023 es cuando se produce la democratización absoluta de la inteligencia artificial generativa de voz porque ya la empezamos a incorporar a nuestro móvil como una aplicación más de nuestra oferta de entretenimiento. Pero otra cosa son los resultados que nos estén dando y aún no han logrado captar con exactitud aquellos matices del habla que la hacen única.

La capacidad de la inteligencia artificial generativa de voz ahora mismo no es una amenaza para los locutores porque presenta limitaciones relacionadas directamente con la prosodia, porque no termina de captar todos aquellos elementos paratextuales del habla, las pausas, tartamudeos, respiraciones, muletillas... Pero es cuestión de tiempo que esto lo sepa hacer.

Y en la actualidad, ¿qué utilidad puede tener en el mundo del podcasting?

La actual inteligencia artificial generativa de voz es válida para todas aquellas narraciones en las que no sea necesario que transmita emociones. Se puede usar para frases cortas, que no requieran ninguna entonación emocional específica. Y la aplicación más práctica se encuentra en los elementos de la bandeja de continuidad, que básicamente son las caretas de entrada, los separadores, caretas de salida, créditos... Los creadores tienen que pensar que si no hay conexión emocional con la voz, esto provoca rechazo. Y hay estudios que lo confirman: cuanta más robótica es una voz, menos conexión y más rechazo. Cada vez estamos logrando que la conexión sea mejor, pero aún no se ha alcanzado la misma conexión emocional que se produce cuando escuchamos una voz humana.

Lo más preocupante es que nos acostumbremos a escuchar voces artificiales y se conviertan en nuestro estándar de calidad

En el panorama actual de la producción de pódcast, ¿está muy integrada la voz sintética?

Ahora mismo tenemos pódcast que están empleando la inteligencia artificial generativa de voz a modo experimental y productoras que están acudiendo a tecnológicas especializadas en clonación de voz para traducir esas producciones a varios idiomas. En estos casos, como las tecnológicas dedican mucho tiempo al entrenamiento de la voz y el proceso es más laborioso y mucho más lento, están obteniendo unos resultados muy buenos que se acercan bastante a la prosodia, pero aún no terminan de encajar. Sobre todo, hay que tener en cuenta que quien hace ese encargo no tiene como lengua materna ese idioma y tampoco vas a apreciar si hay matices que no son prosódicamente adecuados. Por eso siempre es preferible que el doblaje lo hagan los humanos.

Si hoy todavía no la IA generativa de voz no representa una amenaza para los puestos de trabajo, ¿qué es lo que más le preocupa de su avance?

A mí lo que me preocupa más es que nos acostumbremos a escuchar voces artificiales, y se conviertan en nuestro estándar de calidad, que lo demos ya por bueno. Es probable que todos terminemos hablando como una inteligencia artificial si seguimos acostumbrándonos a ese tono. Al mismo tiempo, se da la paradoja de que el masivo uso de la inteligencia artificial generativa de voz, por ejemplo en el pódcast, hará valorar más la prosodia humana. Si llegamos a un escenario en el que el 100% de la narrativa de un pódcast se ha construido con inteligencia artificial, valoraremos más los 100% handmade hechos por y para humanos, porque querremos conectar otra vez con lo humano.

Está entonces en manos de los oyentes que valoren y que escojan lo auténtico, ¿no?

Ahí está el tema. Primero que los creadores de contenido prioricen la calidad. Pero, por otro lado, está el nivel de exigencia de los oyentes. Para algunos oídos va bien escuchar una producción producida por inteligencia artificial. Y de ahí viene mi reflexión de que me da miedo que esto se normalice. Quizás un informativo diario me importa si ha sido generado por una voz sintética, pero en una ficción sí que me molesta que las voces no transmitan emociones.

Entonces, ¿se queda tranquila con la radiografía que ha arrojado su investigación?

Al final es una radiografía de los software disponibles en 2024. Ya tengo pensada repetirla en 2025 y así hasta que llegue esa utopía en la que la IA es capaz de reconstruir nuestra voz. Estoy esperando la siguiente revolución de las redes neuronales para que se haga realidad todo esto que estoy imaginando [risas].

Etiquetas