Como es habitual, tienes el móvil encima de la mesa de tu oficina. Te llega una felicitación navideña a tu correo electrónico con un vídeo de YouTube. Decides abrirlo y comienza a sonar un villancico en tu ordenador. A los pocos minutos, recibes un buen número de notificaciones en Twitter: uno de tus mensajes parece haber enfadado a multitud de usuarios. Descubres con horror que se ha publicado un tuit difamatorio que tú no has escrito.
Tienes activada la verificación en dos pasos y nadie ha podido entrar en tu cuenta, así que, atónito, no encuentras explicación al suceso. Tal vez nunca llegues a descubrirlo, pero esto es lo que ha sucedido: ocultas en el villancico, había una serie de órdenes ininteligibles para ti que tu ‘smartphone’ sí ha reconocido. Solo tu móvil ha oído voces. Y las ha obedecido.
Esta escena es más verosímil de lo que imaginas. Así lo han demostrado dos expertos en seguridad de la compañía Sidertia SolutionsSidertia Solutions en las jornadas STIC CCN-CERT organizadas por el Centro Criptológico Nacional. Modificando varios archivos de audio en los que una voz enunciaba un “ok, Google” o un “oye, Siri”, han conseguido que los ayudantes virtuales de los dispositivos con Android y iOS sean capaces de atender a mandatos que el dueño del dispositivo no les ha formulado. Es más, la víctima ni siquiera ha podido percibirlos.
“El asistente de voz es capaz de reconocer esa onda que hemos podido ofuscar, camuflar o alterar para que el oído humano no tenga la percepción completa de lo que está oyendo”, explica Diego Cordero, coautor de la investigación, a HojaDeRouter.com. “Lo que queríamos era evaluar la posibilidad de ese vector de ataque que todo el mundo llevamos en nuestros dispositivos y nadie contempla”.
Engañando a Siri y a “Ok Google”
El dúo de 'hackers' españoles partía de un estudio anterior un estudio anteriorllevado a cabo por investigadores de la Universidad de Georgetown y de la Universidad de California en Berkeley. Esos expertos habían logrado convencer a “ok, Google” de que una voz, similar a la de un Darth Vader acelerado, era la de su dueño.
No fue fácil. Hicieron falta muchas horas de trabajo y unos altavoces determinados para conseguir que el archivo resultante engañara al sistema de reconocimiento de voz.
Por su parte, los expertos españoles han demostrado que cualquiera dispondría de las herramientas necesarias para enviar comandos de voz alterados (que los humanos difícilmente podemos entender) a un iPhone, un iPad, un Apple Watch o un móvil con Android. “Nuestro objetivo es que ese sonido sea reproducible por cualquier altavoz”, puntualiza Juan Luis García Rambla, director técnico de seguridad en Sidertia Solutions y coautor de la investigación.
Aplicando efectos de sonido —por ejemplo, cambios de ritmo— en el programa gratuito de edición de audio AudacityAudacity, estos investigadores han modificado una voz sintética hasta que parece un murmullo de ultratumba. Con ella han logrado desbloquear un iPad Pro durante la ponencia e incluso ordenar al dispositivo que mandara un tuit.
“Imaginaros que ese iPad que envía ese tuit no es el nuestro, que lo envía otra persona ajena y que está alrededor. Empezamos a tener problemas ya, porque los dispositivos empiezan a enviar tuits en nuestro nombre y a ver cómo demostramos que no hemos sido nosotros”, detalla Cordero.
El sonido de unas campanas repicando mezclado con una metálica orden para despertar a nuestro ‘smartphone’ llevan un paso más allá el engaño. El comando pasa prácticamente desapercibido para nuestro oído, que prestará atención a las campanas, pero un móvil Samsung sí será capaz de captarlo todo.
“Lo que hemos conseguido con las campanas es simular una onda de sonido exactamente igual que 'ok, Google'”, explica García Rambla. “Al estar los dos sonidos, aunque sean diferentes, en la misma onda y en la misma frecuencia, lo que hace es que se ofusca uno encima de otro”, añade Cordero.
Estos investigadores también han logrado que el “ok, Google” quede completamente alterado tras jugar con la intensidad del sonido —se asemeja al mugido de una vaca si estos mamíferos fueran robóticos—, si bien solo han conseguido que ese tipo de ataque funcione en un estudio.
Han tenido que realizar muchas pruebas para lograr que los ejemplos de audios alterados que han mostrado durante su ponencia tuvieran el efecto deseado. De hecho, han trabajado sin conocer todos los detalles del funcionamiento de los algoritmos de reconocimiento de voz de Android y iOS, probando múltiples versiones hasta dar con la tecla. “El margen de reconocimiento es mucho más amplio de lo que pensábamos”, aseguran estos investigadores.
Una posible ‘botnet’ propagándose a través de la voz?
El hallazgo de estos 'hackers' españoles contrasta con las aseveraciones de los gigantes. Apple asegura que Siri en iOS 9 reconoce mejor la voz para reducir las posibilidades de que otras personas la activen por error y Google afirma que su asistente entrena “nuestro modelo de voz” para diferenciarlo del resto de sonidos.
Sin embargo, hasta una inhumana voz alterada puede imitar los patrones de la nuestra, con los riesgos que conlleva. “No necesito infectarte el teléfono, no necesito que tú te descargues nada”, destaca Cordero. “Imagínate que estás en tu despacho, con tu ordenador delante y estás viendo un vídeo de gatitos en el que va un comando oculto”, ejemplifica. Una simple nota de audio en WhatsApp también podría servir para realizar el ataque.
Así, un tercero podría lograr que tu móvil abriera una web que descargara contenido malicioso de forma automática. Si tenemos activada la opción “Desbloqueo por voz” en el menú Detección de “ok, Google”, el dispositivo podrá recibir la orden incluso desde la pantalla de bloqueo.
Aunque estos investigadores han desarrollado varias pruebas de concepto para demostrar las posibilidades del ataque, todavía no han tenido ocasión de estudiar todos los escenarios con detalle. ¿Y si se reproduce un comando en un lugar concurrido y se reclutan todos los móviles cercanos para una red de ‘bots’‘bots’?
Teniendo en cuenta que Google permite controlar con la voz cada vez más aplicaciones —ya podemos manejar Android Auto activando la opción “Durante la conducción” en el menú de “ok, Google”—, las posibles situaciones de peligro se multiplican.
También Siri está expandiéndose. Ya está disponible en el sistema operativo macOS Sierra, así que estos investigadores planean estudiar ahora si su particular “oye, Siri” manipulado funciona también con los ordenadores Mac. “¿Qué pasaría si se deja un portátil, llega alguien, reproduce un sonido y provoca que el equipo realice una acción sin que su dueño esté presente o se entere de lo que está pasando?”, se pregunta García Rambla.
Al mismo tiempo, estos expertos en seguridad informática trabajan para resolver una cuestión si cabe más compleja: ¿sería posible demostrar que un ‘smartphone’ ha sido atacado mediante comandos de voz para, por ejemplo, enviar un tuit potencialmente delictivo?
“También tenemos la segunda vertiente, alguien que utiliza esto para decir 'yo no he sido, alguien lo ha hecho por mí'”, concreta Juan Luis. “Alguien que quiera utilizar esto para dar un falso positivo y quiera ofuscar realmente la acción maliciosa que él ha cometido”. Por el momento, estos investigadores nos avanzan que algunos de los dispositivos que han estudiado no graban los comandos de voz, sino que tan solo almacenan la orden, lo que podría obstaculizar un peritaje.
Respecto a las opciones para protegerse, Cordero señala que hay una medida radical que los usuarios podemos adoptar para evitar que un atacante sea tan original de cometer sus fechorías con órdenes de voz: desactivar los asistentes virtuales. “En el momento que tengas activado el reconocimiento de voz es susceptible de ser atacado”, señala.
Durante la ponencia, sugirió otra posible solución: un ‘captcha’ de voz‘captcha’ . En ese caso, como los propios investigadores reconocen, hay una dificultad añadida: puede que los usuarios no estén dispuestos a pasar una prueba para demostrar que son humanos cada vez que quieran comunicarse con su móvil.
“Lo que está ofreciendo el mercado es un sistema que sea funcional y luego ya veremos si es seguro”, critica Juan Luis. Aunque tiene cierta lógica que estos asistentes sean fáciles de usar, si se pone cada vez más de moda controlar móviles con la voz y los dispositivos inteligentes para el hogar como Google Home o Amazon Echohogar como Google Home o Amazon Echo conquistan nuestros hogares, tal vez los gigantes deban prestar más atención a la seguridad de sus algoritmos de reconocimiento de voz. Si no lo hacen, siempre existirá el temor a que un tercero pueda susurrarle a nuestros móviles sin que nos demos cuenta.