Cuidado con lo que dices: las máquinas están aprendiendo a leerte los labios

El discurso hablado es importante: nuestra comunicación y hasta nuestra supervivencia dependen de él. Está habitualmente ligado a la voz, pero no todas las personas pueden escuchar o hablar. Algunas – como las que tienen dificultades auditivas -se ven obligadas a leer los labios para entender lo que los demás quieren contarles.

La lectura de los labios o el reconocimiento visual del habla (VSR) es una técnica que se utiliza para comprender o interpretar el lenguaje y, así, “eliminar los obstáculos de comunicación” a los que se enfrentan esas personas, explica Ahmad Hassanat, investigador de la Universidad Mu´tah de Jordania, a HojaDeRouter.com.

La técnica de leer los labios se remonta en el tiempo hasta la Edad Media, pero hoy ya hay quien investiga la posibilidad de que sean las máquinas quienes se encarguen. Para algunos puede sonar a ciencia ficción, pero otros están totalmente convencidos de que la lectura automatizada de labios ya es un hecho. Eso sí, aún queda camino por recorrer puesto que las dificultades a las que se enfrentan los investigadores son muy numerosas. ¿Cómo es posible que una máquina lea los labios? ¿Para qué es necesario y qué consecuencias puede tener?

Algoritmos de reconocimiento

Una máquina puede leer los labios analizando la boca de un hablante. Lo hace de la misma forma que lo haría una persona sorda, aunque con una complejidad técnica mayor. Habitualmente esas máquinas son capaces de reconocer una secuencia de movimientos y formas de colocar la boca que después hace coincidir con una palabra específica o con un conjunto de palabras.

Gabrielle Fanelli, investigadora del Computer Vision Laboratory de Zurich, explica a este medio que los equipos que actualmente se preparan para este cometido necesitan todo un entrenamiento basado en algoritmos de reconocimiento. Algoritmos preparados para entender la apariencia visual de diferentes modelos de bocas y caras y para relacionar los movimientos de ambas partes del cuerpo con el de los sonidos que una persona pronuncia cuando los realiza. De esta forma, los ordenadores van comprendiendo que a cada movimiento le corresponde un sonido y a cada sonido una letra, sílaba o palabra.

¿Para qué pueden utilizarse estas máquinas?

Los ordenadores capaces de leer los labios pueden ser útiles en aquellas situaciones en las que los sistemas de reconocimiento de voz – que sólo dependen del audio, y que son los que se utilizan de forma habitual – no pueden trabajar por diversas razones.

Una de las razonas por las que podrían no funcionar sería un elevado índice de ruido de fondo, como cuando estamos en una discoteca y no podemos comunicarnos con facilidad. También cuando, simplemente, no existe sonido. Esto ocurre, por ejemplo, con las imágenes que graba una cámara de seguridad.

En ambos casos, la señal visual se convierte en la única fuente de información para percibir el habla. Y en determinadas situaciones esa información puede ser muy valiosa por cuestiones de seguridad.

Explica Hassanat a este medio que la lectura automática de labios puede ser utilizada para saber si una persona es quien dice ser, o incluso para encontrar a alguien que cambia de apariencia para huir de algún asunto turbio. También como un sistema de firma segura. Para poner en práctica esto último, habría que hacer que una cámara grabe a cada ciudadano con la intención de que este diga y repita varias frases diferentes y que, después, la máquina pueda almacenar la información para utilizarla más adelante. Imagina un futuro en el que no necesitáramos llevar el DNI porque nuestra forma de mover los labios y de hablar fuera suficiente para identificarnos. Todo está en camino.

Principales dificultades

La investigación en este terreno es todavía incipiente. De momento, leer los labios es una tarea muy complicada incluso para aquellos expertos humanos con más destreza. Hacerlo con precisión requiere años de práctica y un buen conocimiento de la lengua.

Primero, porque se hablan cientos de idiomas diferentes en el mundo y pocas personas saben hablar más de seis. Segundo, porque un mismo idioma puede ser hablado con diferentes acentos según la región. Y tercero, porque cada persona tiene su propia manera de pronunciar, con diferente velocidad e intensidad. Si es difícil para un humano, mucho más para una máquina.

Además, los seres humanos, por norma general, dependemos de información como el contexto, el movimiento del cuerpo, las expresiones que muestran si una persona está enfadada o habla con ironía… Y eso es algo que una máquina que lee los labios no puede captar por sí sola, a menos que se alíe con otra que detecte sentimientos y estados de ánimo.

Además, estos dispositivos tienen que hacer frente a imágenes de mala calidad y tener en cuenta aspectos como las condiciones de luz, las sombras y la localización de labios y cabeza. Explica Hassanat que determinar el contorno exacto de los labios es complicado especialmente si la persona se encuentra alejada del dispositivo. “Si conseguimos que la calidad del sensor de las maquinas sea muy elevada, haremos que estos problemas no existan y que el reconocimiento sea perfecto. Estamos en camino”, dice Hassanat.

Fanelli explica que el vello facial supone un gran reto para estos dispositivos. Las barbas y los bigotes pueden confundir a esos sistemas de reconocimiento, así que por el momento suelen tener mejores resultados cuando se utilizan con mujeres.

No obstante, la mayor dificultad tiene que ver con la relación entre sonido y movimiento. Durante el discurso, la boca hace entre 10 y 14 movimientos diferentes que se conocen como “visemas”; pero se pronuncian en torno a 50 sonidos individuales, los fonemas. Así que, forzosamente, un solo visema tiene que representar varios fonemas diferentes. El lector de labios se ve obligado a intuir qué posibles sonidos pueden estar ligados a esos movimientos. Además, hay palabras que son visualmente similares (como “right” y “write” en inglés), lo que acrecienta el problema. Al final, un lector de labios humano sólo ve alrededor del 50% de las palabras que utiliza el hablante. Con la máquina sucede lo mismo.

Por otro lado, la máquina tendrá más dificultades para entender al individuo si es poco expresivo. Hay personas que apenas mueven los labios, e incluso a algunas se les denomina “personas sin palabras visuales” dada la imposibilidad total de descifrar qué están diciendo.

Un futuro seguro

Fanelli tiene claro que un ordenador será capaz de igualar e incluso superar a los humanos en todo lo referente a la lectura de labios, pero reconoce que este tipo de tecnología aún no está lista para ser utilizada en un entorno natural. “Puede que los resultados no los veamos a corto plazo, pero sí a largo, y es posible que con esta técnica se consiga mejorar la forma en que interactuamos con los ordenadores”, explica.

Ahmad Hassanat cree que esta tecnología tiene mucho futuro, pero pensar que el 100% de la lectura de labios puede ser automatizada es un mito, “es ciencia ficción, y aunque nos empeñemos en lograr la perfección en este ámbito, será muy difícil al menos con las técnicas que tenemos actualmente”.

Hassanat admite que podría tener, como todo, consecuencias negativas. Podría derivar en una violación – otra más – de la intimidad de los individuos. Cualquier cámara de video vigilancia podría saber de qué estamos hablando. Si algún cibercriminal lograra vulnerarlas “podría espiar cualquier conversación”, dice Fanelli. También las de contenido sensible o que puedan afectar a decisiones políticas. ¿Será un paso más hacia el temido Gran Hermano?

----------

Las imágenes utilizadas para este artículo son propiedad, por orden de aparición, de Nope, SaraSmo, Thierry Ehrmann, Mike SchinkelNope SaraSmo Thierry Ehrmann Mike Schinkel