La pandemia del coronavirus ha puesto en circulación numerosos términos relacionados con el diseño de las investigaciones científicas que no siempre resultan evidentes. En esta entrada se explican y se ofrecen ejemplos relacionados con esta emergencia sanitaria:
1. Muestra: Es una reproducción en miniatura de la población objeto de estudio sobre la que se desean extraer conclusiones. Que la muestra sea representativa significa que mantiene las características importantes que nos interesan de esa población. El macroestudio de seroprevalencia del coronavirus en la población española es representativo en el nivel de la provincia, pero los hogares dentro de ellas han sido seleccionados al azar, es decir, no parecen haber sido captados para mantener ciertas características de los hogares que pueden ser relevantes para entender los correlatos del virus (por ejemplo, los recursos económicos) o los procesos de contagio dentro de los hogares (por ejemplo, la estructura de edad de los hogares). Además, la participación en el estudio es voluntaria, lo que puede inhibir a ciertos tipos de personas e incentivar desproporcionadamente a otros. Al ser una encuesta a hogares, excluye, además a la población española que vive en instituciones (por ejemplo, en residencias, que sabemos que son uno de los principales focos). En esta entrada colectiva de hace un tiempo describíamos con más detalle cuestiones relacionadas con las características de las muestras y los métodos de muestreo.
2. Sesgo de selección: Tiene lugar cuando la selección de la muestra se hace de acuerdo con alguna característica que está relacionada con el fenómeno que deseamos estudiar. Del reciente estudio de John Ioannidis y sus colaboradores para conocer la prevalencia de COVID-19 en el condado de Santa Clara (California) se ha criticado, entre otras cuestiones, la captación de sujetos a través de un anuncio en Facebook. Esta decisión puede inducir sesgos en la muestra (relacionados con la edad, los recursos socioeconómicos, con la inclusión desproporcionada de personas especialmente deseosas de someterse a pruebas, por ejemplo si presentaban síntomas compatibles…) que estén dando lugar a un resultado distinto al de la población objeto de estudio, si esas características correlacionan con la exposición al virus o con la propensión a contraerlo.
3. Tratamiento: En el diseño de un experimento se suele probar un tratamiento (por ejemplo, un medicamento) y comparar su efectividad con un placebo, es decir, una intervención similar en todo lo demás (forma, color, presentación,…), pero sin el principio activo. O se puede comprobar la efectividad de un tratamiento, frente a la efectividad de otros (por ejemplo, distintas vacunas), manteniendo todo lo demás constante. En este artículo, Víctor Lapuente planteaba la necesidad de probar estrategias alternativas de desescalada en contextos similares en España precisamente para poder diseñar un escenario semi-experimental y comprobar así la eficacia relativa de distintas opciones (tratamientos relacionados con el ritmo de apertura).
4. Ceteris paribus Ceteris paribus: Expresión que procede del latín y se puede traducir como “manteniendo lo demás constante”. Para poder estudiar la influencia de un fenómeno X sobre otro, Y, debemos asegurarnos de que lo hacemos neutralizando el posible efecto de otras variables intervinientes relevantes. Si no se garantiza esta condición, es fácil atribuir erróneamente efectos que, en realidad, no existen o que son insignificantes, o bien negarlos cuando sí están presentes en la población objeto de estudio. Durante estas últimas semanas hemos visto a los medios especular con la idea de que las mujeres líderes han demostrado una mayor capacidad de hacer frente a la crisis de la COVID. El problema para hacer esta atribución es que los países que cuentan con mujeres como primeras ministras o presidentas del gobierno no suelen ser comparables al resto de países. Es probable que en ese puñado de contextos haya instituciones ya de por sí más eficientes en la selección de líderes altamente capaces, independientemente de su género.
5. Significatividad estadística y significatividad sustantiva: Que un efecto exista desde un punto de vista estadístico no implica necesariamente que sea socialmente relevante por su magnitud o su “sentido”. Y a la inversa, hay relaciones entre fenómenos que no superan las convenciones de la significatividad estadística, pero tienen importancia sustantiva. Recientemente, se ha señalado el fármaco antiviral remdesivir como un posible tratamiento efectivo contra la COVID; y varios países han permitido su uso ante la inexistencia de vacunas que hayan culminado el proceso de pruebas en seres humanos o de tratamientos alternativos cuya eficacia se haya consensuado. En este estudio publicado en The Lancet, sin embargo, no se pudo demostrar que el fármaco diera lugar, en pacientes con grados de gravedad similares de la COVID, a mejoras clínicas desde un punto de vista estadístico, tal vez por el reducido tamaño de la muestra.
6. Cherry picking Cherry picking: En ciencia, especialmente si se trata de un fenómeno nuevo, raramente existe consenso sobre cómo es el objeto de estudio y, menos aún, sobre sus causas o consecuencias. Además, los trabajos, a menudo, se basan en datos y técnicas de análisis diferentes que complican su comparabilidad. Aunque existen meta-análisis que nos permiten valorar la calidad y el rigor científico de múltiples contribuciones a la vez, éstas solamente existen para ciertos temas. Cuando se seleccionan de manera sesgada las fuentes y se priman, se da más credibilidad o se recuerdan en mayor medida las fuentes y los resultados que confirman nuestras creencias previas, se dice que se está haciendo cherry picking. Este fenómeno está muy relacionado con uno de los sesgos cognitivos más mencionados durante esta crisis, el sesgo de confirmación.
7. Supuestos de una investigación: Todos los análisis empíricos se basan en o están condicionados por los supuestos que hacen los investigadores. Estos supuestos tienen una importancia crucial, sobre todo cuando se trata de hacer predicciones o proyecciones. En una de las pre-publicaciones iniciales, a mediados de marzo, relacionadas con los efectos de la pandemia en el Reino Unido, por ejemplo, el Imperial College trabajó con diversos escenarios de contagios y capacidad de las UCIs bajo diferentes supuestos de distancia y confinamiento, dando lugar a resultados en términos de muertes enormemente discrepantes y que apuntaban a medidas políticas muy diversas. Los supuestos que se hacen, da igual cómo de realistas sean o de bien fundamentados parezcan, siempre tienen consecuencias sobre los resultados. Sospechen de quienes no hacen explícitos sus supuestos en sus investigaciones.
8. Falso positivo y falso negativo: Cuando una prueba diagnóstica da lugar a un positivo sin que en realidad exista enfermedad hablamos de un falso positivo. Cuando, por el contrario, la prueba da lugar a un negativo pero, en realidad, el paciente está afectado por la enfermedad, tenemos un falso negativo. En Corea del Sur se ha confirmado que, casos de aparente reinfección, en realidad eran falsos positivos anteriores que se contagiaban por primera vez. Y los falsos negativos se han relacionado con cargas víricas aún pequeñas en las fases iniciales de la enfermedad. Esto nos remite al concepto de fiabilidad en estadística, así como al de incertidumbre.
9. Relación espuria: Asociaciones aparentes entre dos variables no siempre son reales. En ocasiones hay un tercer elemento que no estamos teniendo en cuenta y que explica esa relación (es decir, no se cumple la condición ceteris paribus). La posible relación entre la toma de ibuprofeno y el agravamiento del estado de salud de pacientes afectados por coronavirus, que tanto revuelo causó en los momentos iniciales de la crisis, podía deberse a que la toma en dosis altas de ibuprofeno fuera mucho más frecuente en pacientes con patologías previas que correlacionaran con la gravedad del virus. En este caso, el ibuprofeno no sería una causa del agravamiento de la enfermedad, simplemente podría ser un indicador relacionado con la verdadera causa, la enfermedad previa.
10. Efectos de segundo orden: En muchas ocasiones, sobre todo fuera de las condiciones experimentales, una intervención puede tener efectos no previstos inicialmente o efectos en ámbitos distintos a aquellos sobre los que se interviene. El confinamiento estricto, sin duda, ha tenido un efecto enormemente positivo en la reducción de los contagios y las defunciones con COVID-19, pero parece claro que puede estar teniendo efectos no deseados. Por ejemplo, están aumentando claramente las desigualdades educativas, al desaparecer el elemento igualador de la escuela, o están apareciendo afecciones de otro tipo agravadas por no haber sido tratadas a tiempo. Pero el confinamiento también ha tenido efectos imprevistos positivos, como el descenso de los niveles de contaminación en las grandes ciudades. Estos días debatimos cómo distintas estrategias de desconfinamiento pueden permitir al mismo tiempo minimizar el nivel de ingresos en UCIs y maximizar la recuperación de la actividad económica.
11. Revisión por pares: El proceso de producción y publicación de un artículo científico suele ser largo y proceloso. Desde que se obtienen los primeros resultados, aún tentativos, hasta que éstos ven la luz en una revista científica, los investigadores presentan sus trabajos en congresos científicos y seminarios varias veces, lo que suele inducir a nuevas pruebas que, en muchas ocasiones, modifican las conclusiones del trabajo. Después reciben críticas y sugerencias por parte de evaluadores expertos en el tema, quienes normalmente no conocen a los autores, ni son conocidos por los autores y editores de las revistas a las que se envían los manuscritos. Los juicios de los pares ejercen de contrapeso y suelen servir de aval al rigor científico y a la sensatez de los resultados. La pandemia ha hecho saltar por los aires estos controles por las lógicas presiones para producir evidencias rápidas que informen la toma de decisiones y que avancen en los tratamientos y las vacunas.
12. Replicabilidad: La buena ciencia se debe desnudar (debe ser explícita y honesta al contar sus supuestos, sus decisiones analíticas o sus técnicas de análisis) para que otros investigadores puedan reproducir los análisis en otros contextos, con otros supuestos o con ciertas modificaciones metodológicas. En los últimos años se ha hablado de la crisis de la replicabilidad, precisamente, para hacer referencia a la imposibilidad de reproducir gran parte de los experimentos o estudios publicados; en ocasiones, ni siquiera estudios clásicos que generaban suficiente consenso en ciertas disciplinas. Cuando se replican, buena parte de los estudios no permiten apoyar las conclusiones iniciales. La medicina y las ciencias sociales son algunas de las áreas donde el problema es más evidente.
2