Cómo funciona un sistema de reconocimiento de voz

Los sistemas de reconocimiento de voz tienen que lidiar con los distintos acentos dentro de un idioma y las diferentes formas de hablar de cada persona
La biometría registra el timbre, la edad y el género masculino o femenino de una voz para establecer estas características como contraseña

Madrid — 1 de diciembre de 2013 21:05 h

El reconocimiento de voz es una de las formas de comunicación con las máquinas que se está sobreponiendo con más fuerza a otras formas de interacción más tradicionales, sobre todo los botones físicos, aunque también está desplazando a la funcionalidad táctil en algunos casos.

Ya es posible hablar a los dispositivos móviles –siempre dentro de un esquema– y los coches nuevos incorporan sistemas de comandos por voz, con lo que no es necesario despegar las manos del volante para encender la radio o calcular una ruta con el GPS, mientras que las smart TV y otras tecnologías domésticas también son capaces de recibir mensajes hablados.

No sólo se da en los productos de consumo. El reconocimiento de voz juega un papel importante en el segmento empresarial y en ciertas profesiones, como en el dictado médico o en laboratorios, donde la transcripción ahorra mucho tiempo. Hoy en día las grandes compañías de tecnología cuentan con equipos dedicados a la mejora de los comandos por voz. El caso más conocido es el de Apple con Siri, pero también Microsoft, Samsung o IBM tienen sus propios sistemas.

La tecnología de reconocimiento de voz no nació con el iPhone 4s- el primero en el que apareció Siri. La atención telefónica lleva utilizando esta forma de interacción muchos años. Y no deja de ser un reflejo de la mejora de la técnica el que la máquina antes entendiera al humano de pascuas a ramos mientras que ahora la precisión ha aumentado. Éste es el método tradicional, el de los comandos de voz.

Hoy día se está acompañando a estos comandos de una capa de lenguaje natural. Así lo expresa Marco A. Piña Sánchez, director de ventas de empresa y movilidad para Iberia de Nuance, una compañía que proporciona reconocimiento de voz al smartwatch de Samsung, Galaxy Gear, al Galaxy Note III y también está presente en Siri. “En vez de decir ‘tarjeta’ o decir ‘saldo’ se puede decir directamente ‘quiero saber el saldo de mi cuenta que acaba en 23 y hacer una transferencia de 100 euros a la cuenta que acaba en 45’. Es decir, se está estableciendo una capa más de diálogo”, explica, aclarando que tras procesar el sonido, la máquina acude a la base de datos del banco en busca de la respuesta.

El reconocimiento de voz: capa a capa

Pero, ¿cómo es capaz el software de reconocer el habla? Un sistema de reconocimiento de voz está formado por varias capas o modelos, según señala Piña. El primero de ellos es el modelo acústico, que permite a la tecnología identificar si el sonido procede de una llamada de móvil, de un teléfono IP o cualquier otro medio. Determinar el canal de comunicación es importante para establecer el grado de distorsión que puede experimentar el mensaje.

El modelo lingüístico va a continuación y se trata del idioma. Pero no es tan sencillo como indicar al sistema que reconozca castellano, francés o mandarín. “Nuestro software está perfectamente preparado para portugués, pero en ocasiones nuestra gente de servicios tiene que hacer algunas pequeñas modificaciones, por ejemplo para entender el portugués que se habla en Madeira, que puede tener algún giro especial”, comenta el directivo de Nuance. No sólo es preciso entender la lengua sino los distintos acentos con que se habla e incluso entender las formas de expresarse, que pueden ser diferentes en cada hablante.

Ésta es otra capa más: el modelo semántico. Con él se consigue que un sistema de reconocimiento de voz entienda la forma de hablar de la gente, cómo se construyen las frases y cómo puede variar esta construcción, dependiendo de la región, de la cultura y de todas las influencias personales de cada cual. Por último, funciona un motor estadístico, que recoge la frase una vez transcrita a texto y realiza una búsqueda en la base de datos con estos términos.

Esta consulta tiene que adivinar si la frase dicha, con el nivel de distorsión correspondiente si se habla desde un móvil, el acento y la forma de decirlo están pidiendo una determinada acción. La precisión del software al final se reduce a aumentar la base de datos para alcanzar todas las combinaciones posibles en un idioma. Es más, en cada nuevo entorno que se implementa hay que construir un nuevo modelo semántico.

“Ante un proyecto empresarial, lo primero que tenemos que hacer es saber cómo los clientes preguntan a esa compañía”, puntualiza Piña. “Llegará, pero todavía no estamos a un nivel de inteligencia artificial en el que yo pongo un software y, sea una telco, sea una financiera, una empresa de transportes o una textil, pueda entender cualquier cosa que yo le diga de ti”, señala.

Contraseñas por voz

Dentro del reconocimiento de voz otra de las partes más destacadas es la biometría. Se trata de comprobar la identidad de una persona mediante la combinación única de patrones que tiene su voz. Para esto lo primero es obtener la huella vocal, que se puede sacar haciendo una captura dinámica mientras la persona habla, aunque también se puede establecer una frase como contraseña y que estas palabras precisas sean las que se comparen para la autentificación.

Esta huella registra las características de la voz, como pueden ser el timbre, el agudo, la edad o si es masculina o femenina. Pero también determina cuál es el canal por el que se está hablando, de manera que establece el posible grado de distorsión para ser capaz de reconocer al usuario a través de otro canal. ¿Y si me graban la voz? El sistema es capaz de distinguir si es una grabación o si es una concatenación de palabras creada por una herramienta. El ratio de éxito en la verificación de Nuance, por ejemplo, está en el 97%, según Piña.