¡Dichoso 'captcha'! Distinguir humanos y robots jamás ha sido tan frustrante

Por suerte o por desgracia, los avances en inteligencia artificial están logrando que las máquinas se parezcan cada vez más a nosotros. Los 'captcha', encargados de distinguir entre un 'bot' y un ser humano que trata de acceder a una web, lo tienen cada vez más complicado. Mientras Google defiende su nuevo sistema, criticado por un gran número de expertos en seguridad, otras empresas siguen ofreciendo herramientas con vulnerabilidades. ¿Veremos algún día un método fiable?

Luis von Ahn desarrolló el que se considera el primer captcha en el año 2000

9 de junio de 2015 14:21 h

Unas desordenadas y deformadas letras aparecen en la página web por la que cómodamente estabas navegando. No puedes continuar tu camino hasta que no las reconozcas, demostrando que eres un humano porque (supuestamente) resolver ese enigma te distingue de una máquina.

Los CAPTCHA (siglas en inglés de 'Test de Turing Completamente Automatizado para Distinguir Humanos de Ordenadores') llevan habitando nuestras páginas web desde que, a principios del milenio, el investigador guatemalteco de la Universidad Carnegie Mellon Luis von Ahn desarrollara uno de los primeros sistemas para no dejar pasar a los 'spambots'.

Poco a poco, los ciberatacantes han descubierto el negocio que supone aprovechar las vulnerabilidades que han descubierto en los 'captchas'. Uno de los casos más sonados fue el Ticketmaster en 2010: los trabajadores de una empresa dedicada a la reventa de entradas burlaron el 'captcha' de la página y se dedicaron a comprar 'tickets' de forma fraudulenta, embolsándose más de 25 millones de dólares (casi 23 millones de euros).

A medida que la inteligencia artificial avanza, los 'captchas' se vuelven cada vez más inseguros: la moda de vender falsos seguidores en Twitter o el hecho de que se haya desarrollado el primer troyano para Android capaz de engañarlos son buenos ejemplos de ello. ¿Existe algún CAPTCHA irrompible, como tantas empresas que se dedican a venderlos aseguran? ¿Qué distingue (todavía) a los humanos de las máquinas?

GOOGLE: DEL CAPTCHA AL RECAPTCHA.... Y AL 'SIN CAPTCHA'

Los 'captchas' basados en texto tuvieron que evolucionar deformando y apelotonando sus letras para evitar que el reconocimiento óptico de caracteres (OCR) fuera capaz de descifrarlos, así que al final el usuario es el que se ve obligado a forzar su vista para pasar la prueba. “El problema es que muchos humanos no va a ser capaces de reconocer el 'captcha' y por ello la usabilidad es un problema”, nos cuenta Julio Hernández-Castro, profesor en la Escuela de Informática de la Universidad de Kent y autor de varias investigaciones sobre los problemas de seguridad de los 'captchas'.

“Los basados en texto son triviales y hay herramientas de propósito general con las que los puedes romper con un 90% de éxito”, detalla este investigador. En 2011, expertos de la Universidad de Stanford burlaron los 'captchas' de 13 de los sitios web más populares del momento, incluyendo Reddit, CNN, Wikipedia o eBay. Elie Bursztein, uno de los autores de aquella investigación, pasó a formar parte del equipo antiabuso de Google, cuyo reCaptcha no había logrado vulnerar.

La compañía de Mountain View había comprado en 2009 esta segunda versión de Captcha, un sistema que también desarrolló Luis von Ahn y que solicita al usuario reconocer una imagen que contiene texto ilegible para un 'bot'. Además, cuando los humanos lo completamos, contribuimos a digitalizar los libros de Google Books y Google News Archive Search. “Detén el 'spam', lee libros” se ha convertido en el lema de reCaptcha y hasta el archivo de The New York Times se ha digitalizado gracias a este sistema.

Google decidió que los 'captchas' sirvieran también para mejorar sus mapas y comenzó a proponernos en 2012 que reconociéramos las direcciones de Google Street View, Google Street Viewesos famosos números en placas que seguro te has encontrado en más de una ocasión.

Sin embargo, hace unos meses, la compañía reveló que su reCaptcha ya no es tan seguro: gracias a sus redes neuronales (la famosa técnica del 'deep learning') ya pueden reconocer las direcciones mejor que nosotros mismosreconocer las direcciones mejor que nosotros mismos. Un avance que demuestra que, por suerte o por desgracia, cada vez hay menos cosas en las que somos mejores que las máquinas.

Tras admitir que sus sistemas de inteligencia artificial ya pueden resolver su reCAPTCHA basado en texto distorsionado con un 99% de precisión, su último desarrollo es el 'No Captcha reCaptcha', que ya está a disposición de las webs que quieran incluirlo. Su algoritmo nos deja seleccionar primero la opción “no soy un robot”, de forma que solo si sospecha que somos una máquina nos presenta uno de sus desafíos, algunos tan originales como el reconocimiento de platos de sushi. El objetivo según la compañía es que la experiencia no nos resulte tan tediosa.

“Probablemente la idea de Google se basa en que ellos tienen más datos y pueden hacer un seguimiento más completo del usuario. También pueden llegar a generar 'captchas' algo más complejos, simplemente porque tienen un poco más de datos y potencia que el resto. Aun así, tienen una implementación para romper sus propios 'captchas' y ”es cuestión de tiempo que el resto consiga resultados similares“, afirma Carlos Hernández-Castro. Este doctorando en la Universidad de Alcalá se ha interesado, al igual que su hermano, por esta área que combina seguridad informática e inteligencia artificial y ya ha realizado varias investigaciones sobre 'captchas'.

'No Captcha reCaptcha' ha recibido todo tipo de críticas por parte de los expertos. Egor Homakov, consultor de seguridad, ha señalado en su blog que Google distingue que no somos un 'bot' gracias al almacenamiento de las 'cookies' de nuestro navegador, y AdTruth, una compañía especializada en dispositivos de reconocimiento, ha ido más lejos afirmando que la compañía podría usar esta herramienta de seguridad para ofrecer publicidad personalizada, aunque Google lo ha desmentido.

“Supone una mejora de la usabilidad, pero no desde el punto de visa de la seguridad”, explica David F. Barrero, profesor de Arquitectura y Tecnología de Computadores en la Universidad de Alcalá. El 'No CAPTCHA' hace honor a su nombre: Google se ha saltado el “público” incluido en las siglas de estos sistemas al no explicar el funcionamiento. “En seguridad es bien conocido el lema 'No security through obscurity' [No a la seguridad por oscuridad]: me están diciendo que me van a dar una herramienta de seguridad para distinguir humanos de no humanos y no tengo ni idea de cómo lo hace. Como aproximación es penosa”, defiende Julio Hernández-Castro, que cree que los expertos acabarán rompiendo el 'No CAPTCHA' antes o después. Los secretos no son tan fáciles de guardar a largo plazo.

PARA GUSTOS DE USABILIDAD LOS COLORES, PERO TU WEB NO ESTARÁ BIEN PROTEGIDA

A lo largo de los años, investigadores de todo el mundo han propuesto otros 'captchas' más divertidos y usables: elegir uno u otro es cuestión de gustos, ya que se distinguen más en la usabilidad que en la seguridad. “Es un tema personal, aunque yo prefiero los de puzzles o videojuegos”, dice María D. R. Moreno, coordinadora del Grupo de Sistemas Inteligentes de la Universidad de Alcalá.

En 2007, Microsoft presentó AsirraAsirra, un sistema que encontró un desafío que las máquinas del momento no podían resolver: distinguir perros y gatos. Desarrolló un prometedor 'captcha' con miles de retos distintos gracias a las fotografías de la web Pet Finder, una base de datos de animales sin hogar. Sin embargo, el investigador de la Universidad de Stanford Philippe Golle pronto descubrió que no era tan buena idea: utilizó una combinación de métodos de clasificación de imágenes y consiguió distinguir canes y mininos con una precisión del 82,7%.

“El problema es que la visión por ordenador y el reconocimiento de imágenes ha avanzado mucho en los últimos cinco años con las redes neuronales convolucionales. Si entrenas a una máquina o a un robot para distinguir perros de gatos, al final lo va a hacer bastante bien”, explica Julio Hernández-Castro.

Otras compañías han querido que nos divirtamos con la experiencia y basan sus pruebas de Turing inversas en juegos. Un ejemplo es Fun Captcha, desarrollado por una empresa australiana, que rápidamente fue implementado por más de 4.200 páginas web. El desafío es sencillo: hay que rotar un perro hasta que lo veamos bien colocado. “Usan un 'captcha' de rotación, una idea que no es suya, y la implementación desde mi punto de vista es lamentable”, afirma Julio. También nos ha explicado cómo se podría romper, pero eso mejor dejarlo fuera de estas líneas.

Hasta los puzles han entrado a formar parte del universo 'captcha' con sistemas como Capy Puzzle, desarrollado por una 'startup' especializada en seguridad de Tokio. Carlos Hernández Castro, María D. R- Moreno y David F. Barrero han investigado cómo, a través de un ataque de canal lateral de bajo coste, se puede romper ese 'captcha' con un éxito del 61%.

Mientras tanto, las personas invidentes o con problemas de visión sufren la presencia de todos estos 'captchas'de todos estos 'captchas', que suponen uno de sus mayores problemas a la hora de acceder a internet, especialmente los de texto. El W3C, el gobierno de sabios de la web, que ofrece pautas para garantizar la accesibilidad, ya los ha criticado en más de una ocasión.

Los 'captchas' de audio, que a menudo complementan a los tradicionales y que supuestamente son accesibles para las personas ciegas, tampoco parecen la solución definitiva. A veces no mejoran la accesibilidad porque el sonido se escucha en inglés (como en la web del Senado), y en otras ocasiones se les añade tanto ruido que apenas se pueden comprender (el W3C señala que la alternativa de audio de reCaptcha es difícil de interpretar).

“No hay un buen compromiso entre la seguridad y usabilidad y los 'captchas' auditivos o son imposibles para los humanos o son trivialmente inseguros”, explica Julio Hernández-Castro. “Necesitamos encontrar una solución que sea segura, pero también viable para las personas mayores e invidentes”, agrega Carlos. A su juicio, las alternativas a los 'captchas' para mejorar la accesibilidad son inseguras o presentan problemas para nuestra privacidad.

Si ninguna de las posibilidades es completamente fiable ni vale para todos los usuarios de la web, ¿se puede afirmar que los 'captchas' ya no son una buena idea? “Algunos miembros de la comunidad empiezan a pensar que esto tiene un futuro complicado”, prosigue este investigador. Pese a que no existe alternativa adecuada, considera que siguen siendo imprescindibles para prevenir abusos, 'spam' y 'trolling', y califica de “deprimente” que no seamos capaces de desarrollar un sistema que nos diferencie como humanos.

David F. Barrero insiste en esta idea. Si los 'captcha' no son más que un test de Turing y somos incapaces de diseñar uno completamente seguro, el mensaje parece claro: las máquinas ya nos están pisando los talones.

¿SERÁN LOS CAPTCHAS DEL FUTURO ILUSIONES ÓPTICAS?

Pese al negro panorama que hemos dibujado, los investigadores siguen planteando alternativas. Expertos en seguridad de Canadá y Estados Unidos propusieron el uso de las llamadas imágenes emergentes, figuras que nuestro cerebro reconoce a partir de manchas aparentemente aleatorias y que los algoritmos de visión por ordenador aún no son capaces de asociar.

Los investigadores españoles consultados por HojaDeRouter.com tienen otra idea en mente: en lugar de buscar nuestras virtudes (que los algoritmos por suerte o por desgracia ya imitan muy bien), podríamos utilizar nuestros defectos para que una página web nos pueda distinguir de los molestos 'bots'. “Tal vez podríamos replantear la solución de los 'captchas' e intentar buscar a la inversa, buscar qué hacemos mal los humanos que por lo general las máquinas hagan bien”, defiende Barrero.

Una de las posibilidades es utilizar ilusiones ópticas. Seguro que si observas la imagen inferior, ves que los cuadros A y B son de color gris claro en un primer momento, pero en la imagen final tu cerebro percibirá que es gris oscuro. Un 'bot' no caería en esa trampa: detectaría el color 'real' en todo momento.

La primera fase de la instalación explora el modo en que vemos la información

Ahora bien, ¿será este tipo de 'captcha' el definitivo? Estos investigadores reconocen que aún hay mucho camino por delante para la implementación de esta prueba. “Tienes que ser capaz de generar miles de millones de test o 'captchas' concretos que no se parezcan demasiado entre sí, sean imposibles de reconocer y analizar para una máquina y que implementen esas ilusiones ópticas, y esto no es nada sencillo”, explica Carlos Hernández-Castro.

Mientras estos expertos debaten las posibilidades, muchas empresas continuarán vendiendo 'captchas' poco fiables a miles o millones de páginas web. “Hay mucha gente que, sin el 'background' adecuado, piensa que es una buena idea y montan una empresa. Hay mucho 'hype', como en biometría”, explica Julio. “El problema es que se sacan productos al mercado mucho antes de lo que deberían”, añade Carlos. “Se ponen en marcha ideas sin que haya un análisis decente de seguridad”.

En materia de 'captchas', tampoco es oro todo lo que reluce. Al menos hasta que encontremos una forma mejor de diferenciarnos de las máquinas, que inquietantemente se parecen cada vez más a nosotros, y que sea además una alternativa accesible para todos.

-----------------------

Las imágenes de este artículo son propiedad de Becky Stern y Wikimedia Commons

Etiquetas