La científica española detrás de los datos de Johns Hopkins en pandemia: "Las estimaciones más exactas de la cifra de muertos tardarán años en llegar"

A final de enero, cuando los casos de coronavirus fuera de China aún se contaban por decenas, su mapa ya había visto la luz. Cuando ya se perdía la cuenta de los países que habían notificado contagios, el característico tablero negro con puntos rojos diseñado por ingenieros de la Universidad Johns Hopkins mostraba la cada vez mayor rapidez con la que el virus estaba diseminándose por el mundo. Lo hacían en tiempo real, bebiendo de fuentes oficiales y lograron convertirse en una de las primeras web en las que se publicaban cifras de casos fiables y actualizadas a nivel global, llenando ese vacío.

Desde el primer día, los expertos de la universidad con sede en Baltimore, Estados Unidos, decidieron compartir públicamente los datos que conseguían recabar de cientos de países y establecieron una metodología pública sobre cómo iban rellenándolos, los posibles errores e incongruencias. El proyecto fue creciendo a medida que se hacía más difícil recoger las cifras a mano, y en marzo se sumó la astrofísica Sara Bertrán de Lis (Barcelona, 1986), que en la actualidad trabaja junto a un equipo en la visualización, la selección y el análisis de datos para la web de recursos del coronavirus de la universidad estadounidense.

En la actualidad, cerca de una treintena de personas están detrás del proyecto, según explica la científica de datos en una entrevista por videoconferencia desde Baltimore. Ha sido, recuerda, un año difícil e intenso, marcado por la toma constante de decisiones ante la falta de criterios comunes entre los gobiernos a la hora de recopilar la información: pasó al principio con los casos y las muertes, pasó después con las pruebas y está pasando ahora con las vacunas. Estas dos últimas áreas son su especialidad. Pero Bertrán de Lis, que desde 2018 trabaja en la Johns Hopkins, también resalta algunas lecciones: la pandemia, insiste, ha puesto de manifiesto la importancia de los buenos datos para tomar buenas decisiones.

¿Cómo se encuentran tras más de un año poniendo cifras a la expansión del virus?

Hay un poco de fatiga en el equipo. El hecho de que las vacunas hayan empezado es a la vez una buena y una mala noticia. Por un lado, quiere decir que nuestro proyecto se va a acabar tarde o temprano. Pero hay tanta fatiga que es una ola de viento fresco, porque se ve la luz al final del túnel.

Yo tuve una hija justo antes de que empezara la pandemia, ahora tiene 17 meses. Al principio, estaba en las reuniones con ella tumbada en la cama a mi lado porque no había guardería, así que fue toda una experiencia (ríe). Pero en la universidad siempre han sido abiertos y comprensivos con que los niños van a estar saltando por encima en mitad de las reuniones o con que, quizás, las horas de trabajo son un poco extrañas. Hay mucha gente que trabaja más por las noches, por ejemplo.

Así que se puede decir que han sacado adelante el proyecto desde casa.

Sí. La web se lanzó el 3 de marzo. La universidad nos mandó a casa hace un año, sobre el 15. Mucha de la gente que se incorporó al proyecto nunca se ha visto cara a cara con el resto del equipo. De hecho, bromeamos mucho con que el día que nos veamos en persona va a ser un shock, porque no tienes referencias de la gente... y un día descubres que una persona de tu equipo mide dos metros (ríe).

¿Cómo surgió la idea?

Empezó con el famoso mapamundi. La universidad está muy enfocada en la Medicina y la Salud Pública, es su rama más fuerte. De hecho, había un departamento de Ingeniería que se dedicaba a hacer seguimiento de brotes de virus, como el SARS en los 2000. Uno de sus estudiantes de doctorado era originario de China, su familia vivía ahí, y enseguida empezó a hacer seguimiento de cómo se expandía, era un proyecto como otro cualquiera. Él empezó el mapa para recoger información de cómo iba a estar su familia y de qué estaba pasando en su provincia.

Poco a poco, el virus se fue expandiendo y se fue añadiendo gente al proyecto. Llegó un momento crítico en que ya era imposible recoger manualmente todos los datos y se empezaron a incorporar otros departamentos de la universidad. El más decisivo fue el de Física Aplicada, que se puso a recolectar datos automáticamente. El proyecto cogió ahí una escala mucho mayor, en marzo, cuando se lanzó la web. Yo me uní a mediados de marzo, para hacer visualizaciones un poco más sofisticadas. Me propusieron hacer unas gráficas y acepté de manera inocente (sonríe). A partir de ahí fue un boom, con los confinamientos en Europa. Ya estaba claro que esto iba a ser muy grande.

Imagen del mapa de casos y muertes de la Universidad Johns Hopkins durante la tarde del 17 de marzo.

¿Por qué decidieron que era importante dedicar tantos recursos a ello?

Hay varios elementos. Primero, la universidad simplemente tenía ya muchos recursos preparados para empezar algo así, el equipo estaba listo. Luego, hay un deseo de compartir datos. En EEUU, como hay administraciones a muchos niveles diferentes, compartir datos no es siempre sencillo y que lo haga una universidad privada no es tan extraño. En España, por ejemplo, está claro que lo va a hacer el Ministerio. Aquí, la necesidad de tener un sitio centralizado de datos no está cubierta de forma pública tan fácilmente como lo estaría en otros países.

La universidad tiene la filosofía de poner a disposición del público todos los datos que se recogen. Mi equipo, por ejemplo, ya ayudaba a ciudades y a estados a trabajar con datos, por lo que ya teníamos mucho bagaje. Ha sorprendido mucho que hiciéramos los datos públicos. Lo que hacemos es darle el uso que podemos, entendiendo que van a ser útiles para muchas otras entidades, como grupos de investigación o gobiernos. Hay satisfacción por que se usen, así que cuanto más fácil se lo pongamos a otros usuarios para que los utilicen, mejor.

También llenaron cierto vacío. La OMS sacaba informes diarios de los casos que los países le iban notificando, pero la situación cambiaba rápido y no había una recopilación mundial para entender a tiempo real cómo se extendía el virus geográficamente.

Sí. Una de las cosas que siempre se habla con los epidemiólogos es que, en estas circunstancias, sobre todo al principio, el crecimiento de casos es exponencial, así que tener los datos de la semana pasada no te da las herramientas suficientes para tomar decisiones políticas. En España, por ejemplo, al principio teníamos diez casos al día, en la siguiente semana fueron 100 y en la siguiente fueron 1.000, cuando empezó el estado de alarma. ¿Quién lo iba a decir, en una semana? El tiempo es crítico. Se sabía que en este tipo de circunstancias –por la experiencia del personal de epidemiología– es crítico tener datos, sobre todo al principio, de cómo evoluciona día a día.

¿Cómo trabajan? ¿Cómo es su proceso para recopilar los datos?

El proceso de recogida de datos empieza siempre siendo manual y luego se automatiza. Estamos unas seis semanas recogiendo datos manualmente y después cambiamos a automático. Es el tiempo que se tarda para una serie de pasos.

El primero es investigar cuál es la fuente más fiable. Como cualquier otro mortal, buscamos en Google los casos de un país, por ejemplo Francia, para encontrar una fuente oficial que se actualice lo más a menudo posible. Podemos recoger datos que estén en páginas web, código HTML, gráficos, algunos PDF, tablas… Usamos todo eso, si sabemos que el formato se va a mantener día a día.

Identificamos esas páginas web y creamos una documentación en la que básicamente sacamos una captura de pantalla y decimos: quiero asignar este dato a este campo y lo voy a llamar casos confirmados. Lo hacemos para todos los países y geografías, a medida que recopilamos los datos manualmente.

Entonces, viene la gente del laboratorio de Física Aplicada, coge esa documentación y lo automatiza. Crea códigos que, cada hora o cada día, van a esta página web y recogen ese dato. Lo anotan en una base de datos y se crean tablas que luego utilizamos también para el mapa y otras visualizaciones.

¿Cómo consiguen que los datos sean lo más homogéneos posible? La pandemia ha puesto de manifiesto las disparidades entre gobiernos en la manera de contar los casos o los propios fallecimientos.

Es un trabajo de investigación, de leer muy bien la letra pequeña de todos los documentos, ver qué incluyen y qué no. Si no está claro, contactamos directamente con el Ministerio de Sanidad y preguntamos. También repasamos la calidad de los datos. Por ejemplo, para los casos de España la fuente es el Ministerio de Sanidad. Pero el Centro Europeo para la Prevención y Control de Enfermedades (ECDC) también los da. Contrastamos las dos fuentes y usamos la que tenga el dato más actualizado, que es el mayor. De todas formas, estos programas se rompen todo el rato porque los formatos de las web cambian y las páginas se actualizan, así que hay una labor de constante mantenimiento. Cada vez que algún Ministerio de Sanidad decide cambiar su web, hay una persona que lo detecta y lo revisa, y hay que hacer el programa de nuevo.

Como no todos los países publican los datos de la misma forma, hay que hacer un trabajo muy grande de descifrado de qué es lo que entiende cada país por casos confirmados o probables (algunos se limitan a test PCR, otros mezclan PCR con antígenos, otros meten en el mismo saco los diagnosticados sin test...). Tenemos detrás también a un equipo de expertos en salud pública y epidemiólogos. Cada vez que tenemos que tomar una decisión, nos aconsejan sobre cómo interpretar esos datos.

Sara Bertrán de Lis, científica de datos en la universidad Johns Hopkins, durante una videoconferencia con elDiario.es.

¿Cuáles han sido sus mayores dificultades durante este año?

La mayor dificultad –que sorprendentemente se ha ido repitiendo– es la falta de estándares de datos. Ha habido un vacío muy grande de estándares que podría haber dado la OMS, pero han sido un poco laxos. O como pasa en EEUU, que cada estado recoge los datos de manera diferente. La falta de estándares nos ha obligado a hacer a nosotros ese trabajo de investigación y muchas veces, aunque mostremos juntos los datos, ha habido pequeñas diferencias que hacen que no sean estrictamente comparables. La falta de estándares ha sido bastante dramática. Lo fue al principio con los casos y las muertes, lo fue después con las pruebas y lo está siendo también con la forma de registrar vacunaciones. Bromeamos con que no aprendemos.

A pesar de todas estas complicaciones, esta situación ha obligado a todos los gobiernos a acelerar muchísimo en el tratamiento de datos y les está forzando a recoger datos y publicarlos en tiempo real, porque de repente hay una demanda de la población. Esto va a hacer un favor enorme, no solo a cómo se tratan los datos de salud pública, también en muchísimos otros ámbitos. De repente, la población ha visto que el gobierno tiene capacidad de compartir datos y esperemos que los demande más habitualmente, y que esto fuerce a todos los gobiernos a impulsar mucho la transparencia.

¿Han mejorado los sistemas de información de los gobiernos y de las autoridades sanitarias?

Sí, ha habido una mejora. ¿Quién hubiera pensado hace dos años que el Ministerio de Salud de España tendría una página web actualizando datos a diarios de lo que fuese? Antes se subían informes con resultados finales, pero tú nunca veías los datos crudos. Y de repente tenemos accesibles datos sin ningún tipo de análisis y actualizados a diario. Eso era algo impensable.

Los datos han pasado a estar presentes en la vida cotidiana de la gente. En España hay municipios enteros pendientes de si sube o no la incidencia de casos para saber si habrá cierres, por ejemplo.

Sí, no estábamos acostumbrados a ver, por ejemplo, gráficas en un telediario. De repente, la población general también ha tenido que hacer un esfuerzo para leer e interpretar gráficas. Y eso es muy importante, porque a veces se nota que no hay mucha cultura científica y nos hemos encontrado una situación en la vida real en la que saber interpretar datos es importante.

Se considera que, sobre todo al inicio de la pandemia, ha habido mucha infraestimación de los contagios reales. ¿Llegaremos a conocer la magnitud del impacto del virus en su totalidad?

Una de las razones por las que pienso que es muy importante recoger ahora mismo los datos es que espero que haya mucha investigación al respecto. Haber tenido unos datos buenos va a permitir una investigación de mayor calidad en los próximos años. No vamos a saber el número concreto, pero creo que sí tendremos buenas estimaciones de la cantidad real de muertos, sobre todo, y quizás también de contagiados. Serán importantes también los estudios de serología. Tendremos buenas estimaciones, pero tardarán años en llegar.

¿Qué lecciones ha dejado la pandemia para la recopilación y el análisis de datos?

Esto no tiene que ver estrictamente con los datos, pero una de las lecciones más importantes que trajo al principio es la definición de trabajador esencial. En cuanto a los datos, una lección importante es que, en momentos de crisis, si necesitas saber la dirección en la que moverte, necesitas datos y eso quiere decir que necesitas recogerlos constantemente. Es una información muy valiosa. En situaciones críticas tienes que mirar los datos para saber cuál es la decisión acertada. A lo mejor no es la más acertada, pero al menos será la más informada en ese momento. Los datos se han revalorizado.

Antes mencionaba que ahora lidian con localizar y analizar los datos de vacunas, y que se siguen encontrando problemas. ¿Cuáles son?

Empezamos la última semana de diciembre. Pensábamos que íbamos a tener unas navidades tranquilas y, cuando EEUU aprobó la primera vacuna, supimos que nos quedábamos sin vacaciones (ríe). Comenzamos a recoger manualmente los datos y pasamos automático a finales de febrero. Entre los problemas, al principio, por ejemplo, había quienes daban los datos en unidades de dosis, pero claro, nunca se sabe si es primera o segunda dosis, por lo que no sabes cuánta gente está o no totalmente vacunada.

El segundo reto está siendo que la vacuna de Johnson & Johnson es de una sola dosis, y vemos de todo: unos la anotan en primera dosis, otros en segunda, otros en primera y segunda… Tenemos que ir sitio por sitio, averiguar dónde la anotan y hacer un poco de análisis para traducirlo. Al final tienes que mojarte un poco y escoger un criterio. Los Estados te fuerzan a ti a hacer lo que no están haciendo. Así que el estándar que decidimos es que las vacunas de una única dosis se apunten en primeras dosis y luego hay que llevar un recuento a la vez de gente que está parcial y totalmente vacunada, y de primeras y segundas dosis. Y así tienes toda la información recogida.

La científica española detrás de los datos de Johns Hopkins en pandemia: “Las estimaciones más exactas de la cifra de muertos tardarán años en llegar”