“Los datos masivos (o big data) son el nuevo oro”

Google no tenía en mente que su buscador fuera un corrector ortográfico. Y aún así, todos los días, miles de personas teclean palabras en su página, no para hacer una búsqueda, sino para saber cuál es su ortografía correcta, en vez de usar un diccionario.

Lo que probablemente no saben (o sí), es que están haciendo uso de una de las mayores bases de datos del lenguaje actualizadas al instante. Por eso si escribes con errores lo que estás buscando, el algoritmo se da cuenta y te pregunta si no quisiste decir otra cosa, colocando la palabra que cree que es correcta porque muchas personas la escribieron antes que tú.

Los datos masivos están presentes cada vez más en nuestras vidas, y sin embargo apenas nos damos cuenta de sus aplicaciones. Cuando empiezas a conocer cómo funcionan, qué posibilidades se abren y cómo se están usando ya, no puedes dejar de verlos en todas partes, o mejor dicho, en muchos sitios donde no te imaginabas. Y te preguntas también por sus usos futuros.

Cada vez que metemos una serie de letras en un recuadro utilizando un sistema llamado reCAPTCHA para indicarle a un ordenador que somos personas, estamos contribuyendo a digitalizar textos. Decimos a la máquina qué se lee en esa palabra que un lector digital no pudo entender. El sistema presenta esa palabra a 5 personas y si coinciden todas, la da por válida. De esta manera hacemos útil un dato que de otra manera hubiera sido usado sólo una vez para la autenticación.

Pocas personas son conscientes de que cada vez que hacemos este pequeño test de Turing estamos contribuyendo a que un sistema utilizado por unas 200.000 páginas web, entre ellas Facebook y Twitter, almacene estos datos y los utilice para escanear libros, algo que por su magnitud sería muy costoso producir. La idea fue del brillante Luis von Ahn, a quien entrevistamos en Diario Turing, y es sólo una de las formas de utilizar datos masivos en la era del big data.

Viktor Mayer-Schönberger es profesor de regulación y gestión de internet en el Internet Institut de la Universidad de Oxford, y uno de los expertos más reconocidos internacionalmente en el mundo de los datos masivos. Su último libro es “Big data, la revolución de los datos masivos”, que escribió conjuntamente con otro experto, Kenneth Cukier, editor de datos de The Economist. Big Data, A Revolution That Will Transform How We Live, Work, and Think puede leerse online en su versión en inglés.

En este ensayo hacen una muy buena introducción al mundo del big data, un concepto del que se oye mucho pero se explica poco. De esta obra, el mismo Lawrence Lessig ha dicho que “cada década hay un puñado de libros que cambian la forma en la que ves todo. Este es uno de esos libros”.

“Big Data” ilustra lo que consideran el comienzo de una era, la de los datos masivos. La recolección de datos comienza a ser tan barata que ya no necesitaremos establecer una muestra para estudiar un hecho de forma de encontrar conocimiento, sino que podremos analizar el conjunto total de datos, lo que nos permitirá establecer resultados mucho más precisos, más baratos y también más inesperados. Pero una correlación no es una causalidad y estamos acostumbrados a buscar causas en todo, por lo que esta nueva era implica una adaptación de mentalidad. Deberemos estar dispuestos a aceptar resultados basados en la correlación sin entender completamente el por qué (la causa).

Apenas estamos viendo el principio de sus aplicaciones, como el autocorrector que sugiere palabras a medida que tecleamos, el análisis de precios que hace PriceStats, para indicar las tendencias inflacionarias y que en muchos casos es más acertado que las estadísticas oficiales o, Google Flu Trends, el experimento que Google puso en marcha para monitorizar personas con síntomas del virus H1N1 casi en tiempo real a través de sus búsquedas.

En Big Data también hablan de los riesgos: la obsesión con los datos y buscar causalidad donde no la hay, o de confiar en los determinismos de la predicción en casos en los que se aplican castigos o penas, sin dar lugar a la posibilidad de cambio de las personas. De algunas de estas cosas hablamos con uno de sus autores, Viktor Mayer-Schönberger.

MG - ¿Cuál es la que podríamos considerar la base de datos más grande actualmente?

VMS - Eso es muy difícil de decir, porque no podemos saber cuántos datos han acumulado los gobiernos y las grandes corporaciones, pero mi corazonada es que la mayor cantidad de datos en el mundo está controlada por Google que aparentemente tiene alrededor de un millón de discos duros donde guardar datos.

MG - No sé si le entiendo bien, usted menciona discos duros, pero ¿de qué capacidades hablamos?

VMS - Sí, estoy hablando de discos duros. Entiendo que tienen diferentes capacidades y de hecho, también en Google los tienen de distintos tamaños, en tanto que son reemplazados no todos de una sola vez, sino permanentemente a lo largo del tiempo. Por lo tanto es imposible fijar una capacidad precisa, por eso lo expresé así.

MG- ¿Por qué los gobiernos deberían tener bases de datos abiertas con los datos de la ciudadanía? ¿Cómo puede ser esto importante para el desarrollo de un país?

VMS - En la era de los datos masivos, los datos son el nuevo oro. Pero este nuevo oro sólo puede ser desenterrado si usamos los datos que tenemos. Mucho valor permanece oculto porque los datos no son usados. Tener suficientes conjuntos de datos disponibles es esencial para que las startups que se dediquen a los datos masivos puedan prosperar, para que haya nuevos productos y servicios innovativos y para que en una escala más amplia pueda haber crecimiento económico.

Aquí el gobierno puede proveer subsidios para estimular el emprendimiento en temas de big data (y también para beneficiar a la sociedad). Pero este subsidio no sería económico (lo que es difícil de lograr en estos tiempos de austeridad, por otro lado), sino que es un subsidio en forma de datos que el gobierno ha recogido, de los cuales no se está usando todo su potencial y puede poner a disposición de las compañías de datos masivos y de la sociedad en su conjunto relativamente fácil.

MG - En su libro anterior usted prevenía sobre el peligro de no ser capaz de olvidar cada detalle, en cuanto el olvido es necesario para aprender y llegar a conclusiones. Ahora muestra cierto optimismo por el tema de los datos masivos, por la recogida de cada pequeño detalle y la datificación de todo lo posible, ¿ha cambiado su visión como si esto fuera un nuevo paradigma?

VMS - No realmente. Yo estoy muy preocupado por los datos irrelevantes que quedan guardados y no nos permiten olvidar. Lo que también trae problemas para los datos masivos -los datos irrelevantes son ruido, reducen el valor en el conjunto de datos. Así es que filtrar y eliminar datos irrelevantes también es importante en la era de los datos masivos. Por la misma razón he llegado a creer que la protección de la privacidad en la era del big data requiere aún más que lo que habría pensado en “Delete” [su libro anterior]. Ahora creo que para que nuestra privacidad esté protegida en estos tiempos, necesitamos hacer a los usuarios de los datos completamente responsables de la forma en la que usan los datos personales sobre nosotros que tengan, como hemos explicado en el capítulo 9 de “Big Data”.

MG - ¿En qué medida han sido los datos masivos la causa del éxito de compañías como Facebook, Gmail, Netflix o Amazon?

VMS- En una medida muy, muy amplia. Google no existiría sin los datos masivos, tampoco Facebook. Y Amazon supuestamente ha obtenido un tercio de sus ganancias de productos que la gente compra por el sistema de recomendaciones de Amazon, que no es otra cosa que [utilización de] datos masivos.

MG - Supongo que la mayoría de preguntas que le hacen son sobre los riesgos de vivir en una suerte de estado de determinismo de los datos. ¿Cree que esto es porque no estamos realmente preparados para pensar en estos términos? ¿Cuánto tiempo queda hasta que la sociedad aprenda a manejar los datos sin caer extremismos?

VMS - A mí también me preocupa un montón el peligro de que el análisis de datos masivos sea abusado o usado de mala manera buscando relaciones causales, para castigar a las personas basándose en predicciones. La lección clave que nuestra sociedad y todas las personas que toman decisiones -especialmente los que se encuentran en el gobierno- necesitan aprender es que los datos masivos pueden mostrar correlaciones, el qué, pero no causalidad, el porqué. Una vez que hayamos entendido esta lección (y por lo tanto la limitación inherente a los datos masivos), creo que seremos capaces de cosechar mucho del tremendo potencial de los datos masivos sin exponernos demasiado a los riesgos de su lado oscuro.

MG - En el libro usted indica que estamos bajo un estado de vigilancia. ¿Cuál es su posición personal en temas como dar información privada o personal a cambio de obtener mejores servicios, por ejemplo como en Gmail o Facebook? Por ejemplo, usted da su código postal cuando va de compras? ¿Alguna vez declina dar datos que son requeridos para usar servicios gratuitos en la web?su código postal cuando va de compras

VMS - Sí, yo rechazo dar información personal que siento que es innecesaria para la otra parte. He dejado de usar un servicio de alquiler de coches porque usaban prácticas intrusivas y he dejado de comprar en sitios online por la misma razón. Creo que los consumidores debemos resistirnos a veces, especialmente cuando se nos pide dar información sin causa y sin la contraprestación de un mejor servicio.

MG - Compartir información es parte de la operativa habitual de servicios online, pero las personas se están volviendo más conscientes de la importancia de proteger sus datos personales. ¿Cree que en un futuro tendremos una especie nueva de poder colectivo en esta área, de la misma manera en que ahora tenemos cierto poder con nuestras acciones como consumidores?

VMS - Posiblemente. Y puede ser que tengamos nuevos intermediarios que nos ayuden, como un colectivo de consumidores que negocie con quienes usan nuestros datos. Así podríamos superar lo que se llama el problema de la acción colectiva, es decir, que sólo si muchos consumidores se agrupan en un colectivo pueden crear un contrapoder a los intereses de quienes tienen los datos, pero esa agrupación es difícil de lograr. Quizás aquí podrían ayudar como intermediarias nuevas plataformas operativas para la utilización de datos.

MG - ¿Cómo cree que afectará esta nueva relevancia de la correlación frente a la causalidad en nuestra vida cotidiana? ¿La gente dejará de preguntarse por las causalidades lógicas?

VMS - No, como humanos estamos configurados para buscar causalidades. Pero necesitamos darnos cuenta de que las correlaciones a menudo ofrecen información valiosa y son mucho más fáciles de identificar comparadas con la causalidad real. A menudo pensamos que conocemos las causas de ciertas cosas pero no es así realmente, y esto es peor que no conocer la causa en absoluto. Así es que necesitamos tener humildad cuando pensamos en la causalidad, y estar preparados para aceptar las correlaciones.

MG - ¿El big data cambia la manera en la que las máquinas piensan (por ejemplo cuando hablamos de búsquedas semánticas o cuando comienzan a dar mejores resultados) o están las máquinas cambiando la manera en que nosotros pensamos?

VMS - El big data cambia la forma en que las máquinas piensan -desde tratar de enseñarles reglas hasta tener estadísticas para resolver cuestiones sin la necesidad de entender el porqué. Eso cambia la forma en que dejamos a los ordenadores hacer cosas -desde traducir lenguajes hasta hacer recomendaciones de libros- pero no cambia la manera en la que nosotros pensamos.

MG - Para los que trabajamos con información parece ser necesario que sepamos cómo operar con datos masivos. ¿Deberíamos aprender programación los periodistas? ¿O las competencias para manejar grandes cantidades de datos deberían ser restringidas a algunos expertos?

VMS - Los periodistas no necesitan aprender a programar, pero sí necesitan desarrollar mentalidad de datos masivos, de manera en que entiendan que los datos contienen historias que pueden quedar sin ser contadas; y que puedan tomar datos y una idea y con la ayuda de un experto (de la misma manera en que trabajan con fotógrafos y artistas gráficos ahora) puedan contar esa historia.