Con el nombre de Big Data se hace referencia a la medición estadística basada en datos recopilados en cantidades hasta hace poco imposibles de manejar. El desarrollo tecnológico y la posibilidad de captar de forma masiva y procesar los volúmenes de datos actuales, hacen cada vez más viable un conocimiento de grandes patrones que antes nos resultaban imposibles de medir o directamente se asignaban a modelos caóticos.
Según confirma IBM, el 90% de los datos disponibles hoy a nivel mundial han sido generados en los dos últimos años, con un caudal diario estimado de 2.5 quintillones de bytes. La capacidad de producir datos se ha disparado. Como ejemplo, se realizan unas 10.000 transacciones mediante tarjeta de crédito por segundo a nivel mundial y unos 340 millones de tweets al día. El gran Colisionador de Hadrones (LHC), del CERN, emplea 50 millones de sensores que envían 40 millones de datos captados por segundo.
El volumen de los datos, su variedad y la velocidad en que se procesen son tres de los parámetros fundamentales en los que la nueva industria surgida con el enfoque del procesos de datos trabaja. La posibilidad de analizar modelos complejos es vista por fabricantes y desarrolladores como una nueva veta de negocio.
En el negocio de las grandes bases de datos Oracle era hegemónica. Sin embargo, en esta nueva expansión en el tratamiento de datos masivos parece que no ha sabido situarse. Nuevas plataformas de tratamiento de datos, entre las que se incluyen algunas basadas en código abierto, como Apache Hadoop, empleada por Facebook, o NoSQL, para bases de datos no relacionadas pero masivas, destacan ahora en el tratamiento de Big Data. Mientras tanto compañías como SAS e IBM han tomado la delantera en cuanto a oferta única de servicios.
Por otro lado, el modelo de hardware para servidores también ha sufrido un cambio de paradigma importante que ha desubicado a ciertos fabricantes. Las compañías cuyo negocio está orientado a Internet, como Google, Amazon o Facebook, han comenzado a apostar por estándares abiertos para la instalación de granjas de servidores. El modelo de Open Compute, ha terminado por obligar a los fabricantes a seguir unos parámetros abiertos y escalables, independiente de cualquier capa administrativa del fabricante. Así, iniciativas como las de Facebook han conseguido forzar las características de un equipo básico y escalable en función a sus necesidades.
El tratamiento masivo de informaciones de carácter científico puede suponer una aceleración de los avances en diversos terrenos. Así campos como la climatología podría llevarnos a modelos predictivos mas certeros y el conocimiento de patrones de desarrollo de ciertas enfermedades podrían ayudarnos a una detección y tratamientos más eficaces. Al igual que el Proyecto de Genoma Humano pareciera en su inicio una tarea de una complejidad excesiva, el propio progreso técnico significó una paulatina mejora en la capacidad de manejar estos datos.
Una sociedad siempre conectada
Una sociedad siempre conectadaLas analíticas predictivas en el terreno demográfico son una de las piedras de toque de las técnicas de mercado más recientes. Gestionar las preferencias personales y pautas de consumo es el nuevo eje del negocio publicitario y uno de los elementos que más acalorado debate despierta a propósito de la forma de recopilar estos datos mediante múltiples plataformas. La proliferación de redes sociales, aplicaciones y medios en los que de un modo u otro accedemos cediendo una porción de nuestra privacidad han acrecentado el volumen de estos repositorios.
La denominada “sociedad conectada” y el “Internet de las cosas” incrementarán sensiblemente los aspectos en los que dejaremos un rastro útil, un auténtico tesoro para las compañías encargadas de su integración en patrones congruentes. La riqueza de esta información y el manejo de la enormidad de datos requieren de un procesado y posterior análisis para el que pocas empresas están preparadas. Las nuevas arquitecturas que surgen al respecto suponen un reto tecnológico en cuanto a recursos.
En el sector de la tecnología son pocos los expertos que no hablen de las bondades de esta capacidad de manejar datos que comienza a entreverse. Un caudal ingente de preferencias personales, perfiles de compra, pautas de aceptación y estilo de vida esperando la oferta certera, el anuncio adecuado que, a pocos clicks, cierre una venta.
La fusión de estos datos y su posterior gestión suponen el núcleo de una nueva forma de supervisión social como nunca había existido en la historia humana. Tecnologías como la que nos ofrece Google Analytics, apuntan a un futuro en el que determinar hasta los más mínimos detalles de la procedencia de las visitas a una web es una realidad cotidiana.
Los modelos de retorno de Inversión (ROI), pueden por primera vez ser tratados con datos validados y estadísticas. La interpretación de estos puede convertirse en datos relevantes, sobre todo en pautas demográficas. El direccionar este conocimiento en estrategia comercial abre todo un nuevo campo de negocio publicitario.
El Big Data se ha convertido en una prioridad estratégica de negocio y así lo entienden compañías de software, fabricantes de servidores y de gran procesado de datos. La rápida especialización en torno a la gestión de datos está acrecentando la carrera por sacar provecho de ellos. Así el negocio de los datos ha comenzado a desplazarse dentro de las empresas del departamento administrativo al comercial. El peso de un conocimiento real de potenciales consumidores supone una ventaja competitiva fundamental y condiciona toda la estrategia publicitaria de quien pueda permitirse manejar estos datos y tenga acceso a ellos.
Donde no se cargan tanto las tintas es en lo relativo a la privacidad. La cesión voluntaria de nuestros datos se produce en multitud de sitios, servicios y aplicaciones. Las restricciones públicas que podemos controlar son solo una pequeña barrera en la recolección de nuestros datos. El seguimiento de navegación y la interacción con diversos servicios también forman parte de esta recolección de datos que pueden terminar diciendo más de nosotros mismos que lo que inicialmente declaremos en nuestro perfil de usuario.
Una Privacidad de términos difusos
Una Privacidad de términos difusosLa Ley de Protección de Datos de Carácter Personal supone una garantía teórica para salvaguardar la privacidad ciudadana. Sin embargo, el rastreo y los términos en los que cedemos una pequeña parte de nuestro perfil público puede ser suficiente para elaborar una ficha personal bastante precisa.
Concretamente la Agencia Española para la Protección de Datos es el organismo gubernamental encargado de velar por el cumplimiento de la Ley de protección de Datos y gestionar reclamaciones al respecto. Entre el caudal de reclamaciones que debe atender anualmente destacan mayoritariamente las empresas de telecomunicaciones seguida por el sector financiero. A pesar de ello, la principal sombra proviene del ámbito de Internet.
Precisamente esta semana ha sido noticia el inicio de actuaciones por parte de esta agencia para de determinar si Google hace un correcto tratamiento de los datos personales de la ciudadanía española. La agencia colaborará con las Autoridades de Protección de Datos de Alemania, Francia, Holanda, Italia y Reino Unido. Los indicios apuntan a que la privacidad de los usuarios no está garantizada. La investigación abierta quiere averiguar el empleo que se hace de la información recogida, el periodo de conservación de esta y si el consentimiento de los usuarios les da capacidad suficiente para oponerse al tratamiento de su información personal. El cambio de políticas de Google, en marzo de 2012, fusionaba todos los términos de sus múltiples servicios. Precisamente la fusión de estos datos y la aparición de perfiles públicos, concretamente a través de Google Plus, es uno de los aspectos más controvertidos.
Marcadores Sociales y rastreo
Marcadores Sociales y rastreoCada vez que damos un “me gusta” o un marcamos de otro modo con nuestras cuentas de redes sociales, estamos alimentando la gigantesca red de perfiles y preferencias. Según Techcrunch, un 46% de las entradas a servicios web que piden identificarse se hacen mediante nuestra cuenta de Facebook. Cerca, con un 43%, está Google. El dato, unido a los marcadores sociales disponibles en la mayor parte de publicaciones, es ya suficiente como para tener un rastreo de preferencias personales bastante fidedigno. Las APIs sociales han proliferado a un ritmo acelerado. De ser un elemento a partir del que podíamos elevar un comentario en un blog, han pasado a ser unas de las bases del Big Data más comercial.
Estas dos compañías agrupan la mayor parte de la compilación de datos de usuarios y han sido ya señaladas en diversas ocasiones como posibles infractoras de legislaciones nacionales respecto a la privacidad. Facebook ha sido una de las empresas que más veces ha cambiado los términos de uso y gestión de niveles de privacidad de sus usuarios. De cualquier modo, con identificar a los individuos y poder rastrear su acceso cotidiano a servicios y aplicaciones los constructores del Big Data de cada compañía pueden adquirir datos suficientes.
El caso paradigmático de Obama y la campaña electoral
El caso paradigmático de Obama y la campaña electoralA lo largo de esta última campaña electoral americana, fue noticia entre los medios sociales cómo el gabinete de Obama contaba con un grupo asesor encargado exclusivamente a recopilar datos y hacer una campaña con un enfoque muy superior a los de su rival Mitt Romney. De hecho, estadísticamente hablando, manejaban datos que adelantaban su posible victoria. Al parecer, este grupo se dedicó a fusionar todos los datos obtenidos de diversas fuentes en una gran base de datos en la que enfocar su campaña más certeramente. De hecho, ya se había hablado de cómo Obama siempre salía mejor posicionado en Adwords de Google y en Facebook, a pesar de hacer inversiones similares ambos candidatos.
Conocer los datos del impacto social de ciertas acciones posibilitó, por ejemplo, saber que Michelle Obama era un elemento clave para obtener financiación, por encima de compañeros de partido, o cómo una cena con el actor George Clooney, incrementaría el impacto entre el público femenino de edades comprendidas entre los 40 y 49 años. Es decir, la medición de tendencias personales agregadas en grandes estadísticas llega a determinar cómo se desenvuelve un candidato a lo largo de toda la campaña.
De una sociedad ciudadana a otra de consumidores auditados
De una sociedad ciudadana a otra de consumidores auditadosMientras la transparencia del ansiado Open Data no pasa de un espejismo que de vez en cuando se desliza en ruedas de prensa, el terreno del a gestión privada de datos personales sigue avanzando aceleradamente. Curiosamente, el beneficio de los datos abiertos para la ciudadanía e incluso en todos los aspectos de gestión pública parece haber sido solapado por la contención extrema que se ha forzado desde que se iniciara la crisis económica.
Los avances técnicos apuntan a que cada vez serán más los dispositivos domésticos que cuenten con conectividad. Con la excusa de una mayor comodidad, la radiofrecuencia, el GPS y el vínculo directo a Internet nos llevarán a un estilo de vida cada vez más conectado. La posibilidad de ser identificados de forma automática aumenta con ello. Ahora es solo nuestro teléfono móvil el dispositivo que hace posible un rastreo que permite informarme de cuánto voy a tardar en regresar a casa desde mi lugar de trabajo. Pronto nuestra ropa y los productos que compremos se identificarán de forma autónoma.
Lo más inquietante de esta gestión de datos es que se está realizando con parte de nuestro consentimiento, sorteando por otro lado las legislaciones nacionales y gestionando toda una nueva tecnología para servir a un fin que no es el de beneficiar a una ciudadanía cada vez más limitada en el ejercicio de unos derechos cada vez más circunscritos al de consumir.