Diseccionando BitTorrent: dona tus datos a la ciencia para descargar más rápido

En Wikipedia no escriben mujeres. En Twitter se habla de actualidad (los asesinatos en Ferguson) y en Facebook de virales (el Ice Bucket Challenge). De Google sabemos que, como tanta gente busca enfermedades, puede predecir la gripe (pero a veces falla). ¿Y en BitTorrent? ¿Qué pasa en el lugar que se lleva más de un cuarto del tráfico total de internet? Pues que al ser una red de P2P (un sistema distribuido) no hay datos, o no había hasta que la ciencia se puso a recogerlos. Todo lo que has leído hasta ahora viene de encuestas sobre hábitos de uso - a veces hechas por partes interesadas, como la asociación de creadores -, no de información extraída del propio sistema.

“La gran diferencia con otros sistemas es que son centralizados: hay un nexo donde tú te comunicas directamente”, explica Jordi Duch, científico de la Universidad Rovira i Virgili. Si este nexo es abierto (Wikipedia), comparte sus tendencias de búsqueda (Google), tiene información pública (Twitter) o es cerrado pero la gente se dedica a estudiar su algoritmo y a hacer experimentos con él (Facebook), podemos enterarnos de qué sucede dentro. Sin embargo, “en un sistema P2P desaparece y toda la información es de usuario a usuario. La dificultad es conseguir estos datos, que es nuestra ventaja y lo que no ha hecho nadie antes”.

Duch es uno de los investigadores que, entre 2009 y 2013, registraron la actividad de un millón y medio de usuarios de BitTorrent y estudiaron la demografía de su red.

¿Cómo lo hicieron? La Universidad de Northwestern creó un 'plugin' (complemento) para Vuze (un cliente de BitTorrent) que preguntaba al usuario si consentía que monitorizaran su actividad. Las motivaciones eran dos: una, colaborar con un experimento científico; dos, que si lo instalaba podía descargar más rápido. Durante cuatro años, un millón y medio de personas (unas 30.000 mensuales de media) dijeron que sí.

Aunque hay más de 150 millones de usuarios de BitTorrent en todo el mundo, la investigación asegura que la muestra es replicable. Estudiaron diez meses aleatorios y sacaron las mismas conclusiones: los ricos descargan una cosa y los pobres otra. Resultó que las descargas tienen relación con la riqueza de un país.

Bienvenido al 'big data': sabemos qué y cuándo vas a descargar

“Lo normal sería que todos los países se comportaran igual”, continúa Duch, “pero vimos que países con PIB similar tenían perfiles de usuario en común. Cuanto más parecidos son los países económicamente, más parecidos son sus usuarios”. Donde cabría esperar que a mayor riqueza y ancho de banda, mayores descargas, pasa todo lo contrario: a mayor riqueza y ancho de banda, descargas de archivos más pequeños.

Lo primero fue ver los tipos de archivo, que dividieron en pequeños, grandes, música, series, películas en baja definición, películas normales y películas en alta. Lo segundo, estudiar a los usuarios y ver que el 96% descarga casi siempre lo mismo (si yo descargo música, descargo música siempre y pocas veces me da por películas). Lo tercero, combinar ambos datos con el PIB. En cada país predomina un tipo de usuario (el usuario que descarga música, el usuario que descarga películas, etc.) y el patrón se repite en países con similares PIB.

Los países ricos descargan archivos pequeños (música) y los pobres, grandes (películas en baja). “Hay un bloque de países pobres que baja películas en mala definición. ¿Qué quiere decir? Están interesados, pero no tienen infraestructura para descargarlas”. Y luego están España y Lituania, donde ganan los que bajan películas en alta definición. La gente quiere ese contenido y tiene ancho de banda suficiente para descargarlo.

La cuestión es “compleja” y hay varias razones. “Que sea posible descargar no implica que se descargue. Las películas en alta y series no se descargan tanto en Estados Unidos y otros países ricos. Y las leyes tienen un impacto desigual. Aunque el 'copyright' es más fuerte en Estados Unidos y otros países ricos, hay más intercambio de música y pequeños archivos. Creemos que tiene que ver con la falta de canales de distribución de 'e-books' y música a buen precio”.

Los datos del estudio no sólo sirven para ver (otra vez) las diferencias socioeconómicas replicadas en internet, sino para anticipar el predecible comportamiento de los usuarios y contárselo a los que hacen las leyes. Con los datos acumulados, su investigación continuará. Un avance: “hemos observado qué pasa cuando hay eventos como el cierre de Megaupload o cambios de legislación. Y vemos un cambio de comportamiento a corto plazo... que a la larga acaba volviendo a la normalidad”. Pase lo que pase, la gente acaba descargando igual.

---------------------

Imagen de Michael Mandiberg