Es fácil encontrar tu rastro en el laberinto de datos 'anónimos' de las tecnológicas

Los proveedores de servicios de internet pueden recabar los historiales de búsquedas de usuarios estadounidenses y venderlos a terceros sin el permiso de sus dueños. Tienen vía libre desde abril, cuando Donald Trump aprobó una resolución ante la creciente presión de estas compañías que pedían esta facilidad para competir con Google. Tranquilizaban a los ciudadanos asegurando que, de todas formas, los datos estarían anonimizados.

En teoría, el proceso de anonimización, que aplican desde bancos hasta plataformas como Netflix para conocer mejor a su base de usuarios, debe garantizar que será imposible poner nombre o rostro a los individuos a quienes pertenece la información. En una época en la que los datos sirven de moneda de cambio e indicador de tendencias para las empresas, este paso, junto con su presentación en ficheros agregados, es fundamental y obligatorio para que puedan ser reutilizados sin vulnerar la privacidad de las personas.

Sin embargo, los hallazgos presentados por una periodista y un científico alemanes durante la última edición de la conferencia sobre seguridad informática DEF CON, celebrada en Las Vegas, demuestran que la premisa no siempre se cumple en la práctica. La comunicadora Svea Eckert y el experto en análisis de datos Andreas Dewes obtuvieron los datos de búsquedas, supuestamente anónimos, de más de tres millones de teutones. Los estudiaron hasta sacar pistas sobre la vida de sus dueños: desde las preferencias pornográficas de un juez a la medicación utilizada por un político.

La base de datos manipulada por Eckert y Dewes contenía 3.000 millones de direcciones web o URL a las que habían accedido los internautas durante un mes en el 2016 y sus correspondientes fechas. Contenía la actividad tanto de usuarios esporádicos (con una veintena de movimientos) como de otros que contaban sus visitas en decenas de miles. Todo recogido por una decena de extensiones que habían instalado en sus navegadores Google Chrome y almacenado en servidores de diferentes empresas.

“Este tipo de datos son recogidos y almacenados durante muchos años”, explica Eckert a HojaDeRouter.com. ¿Qué pasa si son filtrados? ¿Qué pasa si ‘hackean’ la compañía? ¿Qué pasa si alguien malintencionado compra estos datos y los libera?“ La periodista, que ya había aireado parcialmente la investigación el año pasado en el diario político alemán ARD Panorama, expone algunas posibles consecuencias: ”Mucha gente podría ser ridiculizada, chantajeada o podría meterse en problemas“.

Una empresa falsa para engañarlos a todos

Para conseguir la información, los investigadores crearon una empresa de ‘marketing’ digital ficticia, esforzándose por que la farsa pareciese real. Ente otros detalles, abrieron un perfil en LinkedIn de su supuesto director ejecutivo y una página web corporativa a la que incluso añadieron una sección con una trayectoria profesional y clientes falsos.

En el mismo ‘site’, la compañía anunciaba a bombo y platillo que había desarrollado un algoritmo de ‘machine learning’ capaz de mejorar la precisión de la publicidad y los anuncios personalizados en internet. El problema era que necesitaban entrenarlo con una gran cantidad de datos. Así se lo vendían a las casi cien empresas con las que la periodista contactó el año pasado para pedirles los historiales de clics que guardaban a cambio de dinero. “Firmas internacionales, muchas de ellas de publicidad, análisis de datos y revalorización de negocio”, describe Eckert.

Aunque más de una accedió, la mayoría le ofrecían información de usuarios británicos o estadounidenses, mientras que ella quería centrarse en Alemania. Finalmente, solo obtuvo una muestra, pero ni siquiera tuvo que pagar: se la entregó gratuitamente un ‘broker’ de datos deseoso de contribuir al desarrollo del (inexistente) algoritmo. Si bien es cierto que el conjunto estaba anonimizado, no fue demasiado difícil averiguar la identidad de muchos usuarios.

Quién es quién

Dewes echó una mano a la periodista para identificar a los internautas valiéndose de diferentes métodos. Algunos rastros eran especialmente fáciles de seguir, como las de aquellos que habían visitado la página de analíticas de Twitter. Todo el que lo hace deja una URL en su historial donde figura su nombre de usuario en la red social que, supuestamente, solo ve en su navegador.

En otros casos el proceso fue un poco más largo, pero tampoco demasiado. “Andreas demostró que es posible identificar a alguien con solo diez URL a partir de una serie de millones de datos”, dice Eckert. Así, esta decena de direcciones constituiría la “huella digital” de una persona. Asímismo, obtuvieron pistas de los datos de localización de Google Maps y listas descargadas de YouTube

Un fichero de datos anonimizados no es suficiente para saber el nombre y apellidos de un individuo, pero basta para “saber que eres tú”. Tu historial desvela las visitas a las páginas de tu banco, tu lugar de trabajo, tu periódico favorito o tu proveedor de internet. No obstante, si hubieran seguido con sus indagaciones, los investigadores solo hubieran necesitado otra base de datos en la que figuraran nombres completos para combinarla con la de visitas y obtener más información sobre los usuarios.

Otro de los descubrimientos de los alemanes implica a Google Translator. La aplicación del gigante de Mountain View añade cada palabra de una consulta a la URL de la página donde aparece el texto traducido. Así fue como averiguaron algunos detalles sobre un caso de cibercrimen investigado por las autoridades teutonas: sus responsables habían necesitado traducir las peticiones de colaboración para otros países a sus diferentes idiomas.

No es la primera vez que los expertos demuestran que es posible desanonimizar los datos recogidos y almacenados por distintas empresas de internet. En 2008, dos investigadores de la Universidad de Texas analizaron la información de las valoraciones de 500.000 usuarios de Netflix, supuestamente anonimizadas y destinadas a mejorar los algoritmos de recomendación de la plataforma. Usaron los perfiles públicos de IMDb para contrastar la información y revelar la identidad de los clientes del videoclub ‘online’ –de hecho, uno de ellos puso incluso una denuncia a Netflix por vulnerar su privacidad–.

En Europa, este tipo de datos anonimizados y agregados no se consideran datos de carácter personal, por lo que no deben cumplir con los preceptos del nuevo Reglamento General de Protección de Datos, que entrará en vigor definitivamente el año que viene.

Las pocas medidas de prevención efectivas recaen, así, sobre el usuario, que no tiene precisamente fácil controlar los flujos de datos que otros recaban. Por mucho que borres el historial de tu ordenador, este puede permanecer almacenado en los servidores de otras empresas. Eckert aconseja que, al menos, tengamos cuidado con las extensiones que instalamos, que solo nos fiemos si conocemos su modelo de negocio y que leamos bien sus términos y condiciones. Parte de los datos de su investigación fueron recogidos por Web of Trust, un programa para detectar páginas inseguras cuyo modelo de negocio se basaba, al menos en el 2016, en comerciar con información sobre la actividad de sus usuarios. Desde la empresa se defendieron asegurando que tenían su consentimiento y que los datos estaban anonimizados.

La periodista también sugiere la utilización de un ‘plugin antitracking’ de fiar, “porque hay otras formas, aparte de las extensiones, por las que pueden espiarte”. Desgraciadamente, pese a seguir todas las indicaciones , nadie parece estar libre de la cosecha de datos (no tan anónimos) que realiza casi cualquier empresa y servicio de internet.

----------------------------------------

Las imágenes de este artículo son cortesía de Svea Eckert y Andreas Dewes