Google Flu Trends, el aclamado algoritmo de Google especializado en detectar los brotes de gripe por todo el mundo, ha fallado este año estrepitosamente. La iniciativa había echado a andar hace cinco años, cuando investigadores de Google y del Centro para el Control y Prevención de Enfermedades unieron sus fuerzas en un artículo finalmente publicado en la revista Nature.
El artículo mostraba cómo una agregación de las búsquedas de los usuarios acerca de la gripe o de sus síntomas era capaz de predecir en tiempo real los brotes de dicha enfermedad con mayor rapidez y precisión que el propio centro público de control de la misma. Google Flu Trends había funcionado a la perfección durante este tiempo, pero, este último invierno, la herramienta pronosticó un severo brote de gripe que nunca se llegó a dar. Los datos públicos recopilados muestran que la pasada gripe ha sido más bien leve, poniendo en entredicho la fiabilidad del algoritmo.
¿Qué puede haber fallado en el método de Google? Aunque es muy pronto para saber qué ha fallado -¿hubo una alerta injustificada entre la población? ¿ha cometido el algoritmo un error en su extrapolación?- el incidente ha servido para añadir leña al debate sobre la fiabilidad y los límites del Big Data. Repasamos las posibles causas del error, según han sido apuntados por expertos y otros opinadores.
El algoritmo era “libre de teoría”
Una de las supuestas promesas del nuevo campo del análisis de datos es la posibilidad de realizar “predicciones sin teoría”, es decir, ser capaces de predecir fenómenos sin invertir tiempo en comprender los mismos teorizando sobre ellos. Esta posibilidad resulta altamente atractiva para las empresas, que podrían así ahorrar numerosos recursos en el análisis de diversos fenómenos.
En primer lugar, las predicciones libres de teoría no representan ninguna novedad. Sin ir más lejos, en farmacología se desconoce el proceso por el cual funcionan numerosos principios activos, lo cual no impide que se aprueben y utilicen como medicamentos eficaces. En general, los métodos experimentales, tanto en medicina como en campos tan dispares como los negocios, son esencialmente libres de teoría. Si una medida provoca un efecto deseado y los efectos secundarios son asumibles, ¿para qué es necesario conocer exactamente su mecanismo?
En segundo lugar, durante los últimos años se ha desarrollado rápidamente una disciplina que combina informática y estadística, conocida como Machine Learning (Aprendizaje-Máquina), cuyo propósito fundamental es la predicción. Los métodos de Machine Learning se basan a menudo en la validación fuera de muestra, es decir, en probar la calidad de los modelos a partir de su capacidad para predecir fenómenos que todavía no ha analizado. Y, sobre todo, es esencialmente “libre de teoría”.
Entre los mayores logros recientes de dichos métodos se haya el reconocimiento facial de Facebook o el reconocimiento de voz de Google. En el desarrollo de dichos métodos hay poca o ninguna teoría sobre qué rasgos hacen que una cara o una palabra sea reconocible. Solo hay métodos estadísticos generales aplicados sobre volúmenes ingentes de datos, y los resultados han resultado ser espectaculares.
Olvidando la causalidad
Las críticas menos acertadas son aquellas que culpan a algún algoritmo de olvidar que (cuesta incluso escribir esta frase) “correlación no implica causalidad”. La crítica es a menudo infundada y no es aplicable al problema de Google Flu Trends. El problema de la diferencia entre correlación y causalidad puede darse cuando un investigador ha de analizar los motivos explicativos de un fenómeno, es decir, una pregunta cuya formulación clásica es “¿Es X la causante de Y?”.
Tanto la estadística como el machine learning (estadística con enfoque computacional orientado a la predicción), como la econometría (estadística orientada a la comprensión de fenómenos económicos) han desarrollado multitud de métodos para solucionar el problema de la causalidad. El más sencillo de todos estos métodos es el diseño experimental clásico (hoy denominado AB Test en el entorno del Data Science), en el que los individuos son asignados aleatoriamente a varios grupos, a los cuales se les tratará de distinta manera conforme a lo que el investigador desea estudiar. En este caso, la aleatoriedad en la asignación garantiza la causalidad en las diferencias observadas entre grupos.
No obstante, el algoritmo de Google no busca establecer relaciones de causalidad, sino que pretende agregar y localizar geográficamente información relevante sobre un fenómeno con mayor rapidez que las alternativas existentes. La crítica de la diferencia entre correlación y causalidad equivaldría a asumir que Google pretende responder a la pregunta “¿Son las búsquedas en Google las causantes de los brotes de epidemia?”. Absurdo.
N = Todo, entonces tengo datos de toda ¿la población?
Un problema que sí puede llegar a producirse entre los analistas de datos es el asumir que uno tiene tantas observaciones que prácticamente equivalen al conjunto de la población. La inferencia es la rama de la estadística que analiza la relación entre una muestra y la población de su conjunto. Por ejemplo, si queremos saber la edad media de la población española, podemos hacer dos cosas. Por un lado, podemos tomar una muestra, calcular su edad media y suponer que la edad media de la muestra es igual a la poblacional. ¿Qué podría hacer que nos equivocaramos al extrapolar dicho valor muestral al poblacional?
En primer lugar, puedo estar sufriendo error de muestreo. Es decir, mi muestra estaba compuesta por unas ciertas personas... Pero esas personas podrían haber sido otras con mayor o menor edad. Y este es el problema que mejor evita el Big Data, ya que, con tamaños muestrales tan grandes, el error de muestreo se reduce considerablemente. Si considerásemos un extremo en el que tenemos a toda la población española... ¡nuestra estimación de la edad media no podría tener error! Al fin y al cabo, hemos tenido en cuenta la edad de todos los españoles.
Pero... ¿es mi muestra representativa?
Ahora bien, lo anterior no impide que pueda surgir un último problema más difícil de detectar: los sesgos de autoselección. Por muy grande que sea nuestra muestra, puede haber un mecanismo perverso que haga que los datos que tomemos no sean representativos de nuestra población. Así, resulta bastante probable que la mayor parte de las búsquedas sobre enfermedades o epidemias las realicen grupos de individuos con unas características concretas, aunque estas características podrían haber cambiado a lo largo del tiempo.
¿De verdad pensamos que la gripe depende de las búsquedas que hacemos en Google? Más datos son condición necesaria, pero no suficiente, para mejorar la significatividad de nuestra población.
Otro ejemplo en el que se recordó fuertemente la limitación del Big Data (o mejor, del abuso de extrapolación de Google Trends) fue aquel estudio de la Universidad Princeton, que afirmaba que basándose en la caída en la frecuencia de búsquedas en Google, Facebook perdería un 80% de sus usuarios para 2015-17. Dicho estudio fue contestado de manera brillantemente irónica por el mismo equipo de “data scientists” de Facebook, mostrando que usando el mismo procedimiento de extrapolación (correlación no es causalidad) podríamos concluir que Princeton perdería la mitad de sus alumnos para el año 2018, y que incluso el mundo se quedaría sin aire en el año 2060. ¿De verdad creemos que es así? Los mismos investigadores de Facebook confirmaron que esto se trataba de un absurdo. Cuanto menos provocativa demostración, pero con certeza, ilustrativa.
Más datos sin un método de agregación adecuado, son inútiles
La solución del enigma necesitará a buen seguro una ardua investigación, pero la buena noticia es que el error de este año servirá para afinar mucho mejor las predicciones de años posteriores. Al fin y al cabo, no hay nada mejor que un error en un modelo para mejorar su capacidad predictiva, ya que constituye una fuente nueva de información respecto a la que Google ya manejaba. La única forma de mejorar un modelo predictivo son más datos, y mejor calibración del motor de agregación de la información. Más datos sin mejor agregación de los mismos, no sirven de nada. Y viceversa, por eso es importante a veces fallar, para calibrar mejor en el futuro. Por cierto una reflexión al hilo del asunto ¿hay datos más allá de Google? ¿qué pasaría si un día Google “se cae”?
Imagen: cortesía de OneFte