Twitter ayuda a la prevención y el control de enfermedades

Cómo utilizar los miles de pequeños datos que aportan los usuarios en las redes sociales para mejorar la atención sanitaria y prevenir casos de crisis. Tras varios avances sobre modelos previos, científicos de la Universidad Johns Hopkins han puesto a prueba la última versión de un algoritmo que aseguran que es capaz de filtrar con gran fidelidad los mensajes publicados en cuentas públicas de Twitter para extraer una muestra de datos sobre la que realizar predicciones. El estudio (PDF) parte de la idea de que “a menudo los usuarios ofrecen públicamente información personal: mensajes como 'Tengo la gripe' y 'enfermo con esta gripe que me recorre todo el cuerpo uhhh'”.

El equipo dirigido por los doctores Michael J. Paul y Mark Dredze ha mejorado el modelo Ailment Topic Aspect, que filtra mensajes por conceptos como “fiebre”, “gripe” o el nombre de algunos medicamentos y excluye por concurrencia otros términos que se pueden utilizar en sentido figurado o mensajes que llevan asociada una dirección web, porque puede hacer referencia a noticias y artículos. También analiza la gramática del mensaje para tratar de determinar cual es la relación entre el usuario y el concepto. Por ejemplo, si se habla de una enfermedad o si la persona que escribe la está sufriendo.

Pusieron a prueba su herramienta durante el brote de gripe que pasó por Estados Unidos el último invierno. Tomaron como referencia 24 millones de mensajes de unos 10 millones de usuarios, de los que se utilizaron finalmente 1,63 millones, y comprobaron que sus resultados eran equivalente al estudio realizado por el U.S. Center for Disease Control and Prevention (CDC por sus siglas en inglés), una institución que recoge sus datos directamente de la asistencia a hospitales.

Ventajas e inconvenientes

Las diferencias son el coste y el tiempo de respuesta. El CDC tarda unas dos semanas en ofrecer sus datos, mientras que el algoritmo prácticamente funciona a tiempo real. Con esa base estadística pudieron construir mapas sobre el grado de incidencia del brote por estados. Si un sistema de salud aplica una herramienta de estas características confían en que podría crearse un método de respuesta rápida que mejore, por ejemplo, la acumulación de recursos perecederos como vacunas ante la llegada de un enfermedad estacional o en la detección de epidemias.

Otro factor que aporta validez al método, afirman los doctores, es que la muestra es representativa desde el punto de vista geográfico porque la distribución de mensajes por región es proporcional a su población. Sin embargo el propio estudio reconoce la limitación por el propio tipo de usuario de Twitter ya es una red más propia de determinados grupos sociales y edades.

Sus principales problemas están en la escasez y la falta de uniformidad de los datos. Twitter deja muchas preguntas sin respuesta como el grado de desarrollo de la enfermedad mencionada por los usuarios, el tipo de paciente y su propensión a la infección, la repetición de mensajes por parte de un usuario y por tanto su sobre representación en la herramienta (aunque el 71% solo publicó un mensaje) o si la enfermedad mencionada es personal o de alguien conocido, algo que afectaría además a la ubicación geográfica.

Privacidad y seguimiento

La información utilizada para el estudio es completamente pública ya que todos los mensajes han sido extraídos de cuentas de abiertas de Twitter. Después se han añadido formando un base de datos agregados de forma que la información personal queda diluida y el usuario pasa a ser anónimo incluso aunque no lo haya pedido. En este caso la información que queda es la enfermedad, el tratamiento y la localización geográfica aproximada por región.

El resultado es el mismo que el conseguido con el trabajo de Big Data de Innovación BBVA con los usuarios de tarjetas de crédito, pero sin la obligación que tuvo la compañía bancaria de seguir la legislación de privacidad. Del mismo modo y aunque se cumple la legislación, los usuarios no son conscientes de que están pasando a formar parte de una base de datos o de un estudio.

En el fondo, el objetivo de esta herramienta es poder ofrecer de un sistema de alerta rápido y barato, capaz de aprovechar la inmediatez y la multitud de fuentes que, sin saberlo, están ayudando a que su enfermedad sea lo menos dañina posible para el resto.