Opinión y blogs

Sobre este blog

La portada de mañana
Acceder
Los mediadores buscan un acuerdo en Gaza antes de la llegada de Trump
Una aristócrata desahucia a Mariano a las puertas de Navidad
Opinión - El darwinismo social de Donald Trump. Por Alberto Garzón

Hay tres tipos de mentiras: mentiras, grandes mentiras y estadísticas

Estamos, cada vez más, sometidos a un bombardeo de datos estadísticos. Datos que, con frecuencia, debemos ser capaces de interpretar a la hora de tomar decisiones que pueden tener consecuencias importantes para nuestras vidas: desde el colegio al que enviamos a nuestros hijos hasta el partido político por el que votamos. Sin embargo, la estadística es una disciplina compleja, llena de sutilizas y matices. Esto hace que tanto las estadísticas que presentan los medios de comunicación como la interpretación que hacen de éstas sean a menudo incorrectas, engañosas o carezcan de sentido – unas veces por falta de preparación o asesoramiento, otras por voluntad de manipular a la audiencia. Como dice un dicho popular entre los académicos ingleses, “el 91% de las estadísticas son falsas” (incluyendo esa misma frase, por supuesto). De ahí la frase que Mark Twain popularizó, achacándosela a Benjamin Disraeli: “hay tres tipos de mentiras: mentiras, grandes mentiras y estadísticas” (there are three kinds of lies: lies, damned lies, and statistics).

En El hombre anumérico (Innumeracy: Mathematical Illiteracy and its Consequences), el matemático John Allen Paulos trata en detalle, y de forma muy amena, los problemas a los que nos enfrentamos en la sociedad actual por nuestra escasa formación matemática. Tratando el tema de forma mucho más sucinta, veamos como muestra de nuestras dificultades a este respecto, el caso de la probabilidad condicionada – la probabilidad de que una cosa ocurra sabiendo que ocurre otra. Luis tiene dos hij@s, al menos uno de los cuales es un niño. ¿Cuál es la probabilidad de que los dos sean niños? La respuesta correcta es 1/3, no 1/2 como a la mayoría nos indica la intuición. (Es decir: un tercio de todas las familias con dos hijos en las que al menos uno es niño constan de dos niños.) ¿Y qué pasa si uno de ellos es un niño que nació en martes? La respuesta va a sorprender a muchos que habrán pensado (como nosotros al encontrar la pregunta) que el hecho de que naciera en martes es irrelevante. Pero no. En este caso, la probabilidad de que tenga dos niños es 13/27 = 0.48.

Las dificultades que experimentamos al enfrentarnos a la información estadística permiten la manipulación y fomentan los malentendidos. Pero conviene distinguir entre mentiras, manipulación y errores. Si falseamos los datos (por ejemplo, omitiendo datos que contradicen nuestra hipótesis) o, directamente, nos los inventamos, estamos mintiendo. Aunque analicemos los datos e interpretemos los resultados del análisis de forma correcta, las conclusiones serán tan falsas como los datos de partida.

La formación matemática no nos ayuda a detectar mentiras, puesto que la veracidad o falsedad de unos datos normalmente no puede deducirse mediante razonamientos matemáticos: si nos dicen que durante los últimos tres años una biblioteca ha invertido un promedio de 1.000 euros mensuales en comprar libros podemos creerlo o no creerlo, pero si no tenemos acceso independiente a los presupuestos de la biblioteca no tenemos forma de saber si la afirmación es cierta o falsa. Un buen ejemplo es la reciente aseveración del presidente de Extremadura, José Antonio Monago, de que es, con diferencia, el presidente autonómico que menos cobra, cuando al contrastar los datos el programa “El Objetivo de Ana Pastor” encontró que es el quinto con mayor salario bruto.

La manipulación es distinta: partiendo de datos verídicos realizamos un análisis incorrecto (o interpretamos incorrectamente los resultados de un análisis) para que parezca que los datos nos permiten concluir algo cuando, en realidad, los datos no apoyan dicha conclusión. Tener conocimientos básicos de estadística y probabilidades a menudo ayuda a detectar los intentos de manipulación – aunque dicha detección sólo es posible si tenemos suficiente información sobre el tipo de datos de partida y el análisis que se ha hecho.

Finalmente, están los errores y las malas prácticas, que se distinguen de la manipulación tan sólo por la falta de intencionalidad. Como ejemplo, consideremos un estudio reciente de la Sociedad Española de Cardiología sobre la variabilidad regional de la mortalidad por infarto, que ha aparecido en diversos medios de comunicación. El País, por ejemplo, titula la noticia “la mortalidad por infarto varía un 50% entre comunidades” (encontramos titulares prácticamente idénticos en otros periódicos, como El Mundo o 20 minutos).

Para empezar, el titular es impreciso: lo que varía un 50% es el porcentaje de pacientes que, tras llegar a un hospital por sufrir un infarto, muere – es decir, la letalidad del infarto. Este porcentaje es del 6,06% en Navarra y del 9,57% en la Comunidad Valenciana. Pero estas cifras, en realidad, nos dicen poco sobre la mortalidad por infarto. Si, en Navarra, sufrieran un infarto 10 de cada 100.000 habitantes, y en la Comunidad Valenciana la cifra fuera de 5 de cada 100.000 habitantes, la mortalidad por infarto en Navarra sería de 0,6 muertes por 100.000 habitantes, mientras que en la Comunidad Valenciana sería de 0,48. Como el estudio analizaba diferencias en la atención que los pacientes recibían, el énfasis en letalidad es apropiado (aunque los titulares sean imprecisos y puedan causar confusión).

Un segundo problema del titular radica en lo poco informativo que resultan las diferencias relativas en letalidad. Una letalidad del 0.0009% es un 50% superior a una letalidad del 0.0006%, pero la diferencia es despreciable: si la letalidad de los infartos es del 0.0009% en una comunidad autónoma y del 0.0006% en otra, los pacientes reciben un tratamiento excelente en ambas comunidades. Por el contrario, letalidades del 90% y 60% difieren en el mismo 50%, pero esta diferencia resultaría terriblemente preocupante e indicaría una pésima atención en la comunidad donde la letalidad fuera del 90%. Los medios de comunicación a menudo presentan los resultados de forma poco informativa, con el propósito de llamar la atención de lectores o telespectadores, aún a riesgo de caer en alarmismos innecesarios.

Finalmente, el artículo presenta un mapa de España mostrando en distintos colores las comunidades autónomas donde la letalidad de los infartos es superior o inferior a la media nacional. ¿Cuál es el valor informativo de dicho mapa? En principio, ninguno. Es tremendamente improbable que la letalidad sea idéntica en todas las comunidades, y eso conlleva necesariamente que haya comunidades donde la letalidad es inferior a la media y comunidades donde es superior.

La pregunta es si dichas diferencias significan algo. Por ejemplo, podríamos mirar la letalidad del infarto en cada hospital y preguntarnos si la letalidad en los hospitales de la Comunidad Valenciana es, sistemáticamente, superior a la letalidad en los hospitales de Navarra. Es posible que la Sociedad Española de Cardiología haya realizado dicho análisis (u otro similar) y haya encontrado que las diferencias entre comunidades autónomas son significativas (es decir: consistentes, debidas a un factor asociado a la política sanitaria de la comunidad). Eso daría sentido al mapa. Pero en ausencia de dicho análisis ni siquiera hay motivos para pensar que el mapa vaya a ser parecido si mostramos los datos del 2013, los de 2012 o los de 2010. En otras palabras, pequeñas diferencias debidas a factores aleatorios (fuera del control humano) pueden explicar esa distribución por comunidades, por lo que la información aportada es totalmente nula.

Con todo, la palma se la lleva lo que podríamos denominar “manipulación proactiva”: la introducción de sesgos o cambios en la forma de tomar los datos, con objeto de maquillar las estadísticas que resultan de ellos. Los ejemplos son numerosos, mucho más en los últimos años en que enmascarar los efectos de los recortes parecía prioritario. Los bajos niveles de gasto en I+D+i han sido enmascarados, por ejemplo, por los gobiernos de Aznar, Zapatero y Rajoy mediante tres mecanismos: agregando los gastos de I+D+i civil y militar e incluyendo en esta última partidas de “innovación” que tienen muy poco de ésta (consistían simplemente en compensar el desarrollo de productos mediante compras a empresas de material militar); enmascarando una buena parte del gasto en I+D+i militar mediante aportaciones extraordinarias para que no quedaran reflejadas en los presupuestos; y asignando partidas crecientes del presupuesto de I+D a créditos que nunca llegan a ejecutarse.

Manipulaciones similares han involucrado los cambios en la ubicación de las estaciones de medición de la contaminación en Madrid, para enmascarar sus altos niveles; los cambios en la metodología de estimación de la tasa de desempleo, que causó el brusco descenso de ésta; la reciente inclusión de actividades delictivas en las estimas del PIB, con objeto de paliar los descensos en este indicador económico; o la larga trayectoria de manipulación y falta de transparencia de las cifras de criminalidad, que han llevado a una apariencia de mejora continuada en éstas.

En resumen, nos enfrentamos a una tormenta de resultados estadísticos que, combinados con las dificultades de acceso a los datos originales propias de un país con niveles sonrojantes de transparencia, nos hace muy vulnerables a la manipulación. Pero la estadística es una ciencia objetiva con unos criterios sólidos y matemáticamente establecidos. En lugar de desconfiar de la estadística, conviene esforzarnos – desde un sano escepticismo - en entenderla un poco mejor para asegurarnos de alcanzar la interpretación más correcta.

Estamos, cada vez más, sometidos a un bombardeo de datos estadísticos. Datos que, con frecuencia, debemos ser capaces de interpretar a la hora de tomar decisiones que pueden tener consecuencias importantes para nuestras vidas: desde el colegio al que enviamos a nuestros hijos hasta el partido político por el que votamos. Sin embargo, la estadística es una disciplina compleja, llena de sutilizas y matices. Esto hace que tanto las estadísticas que presentan los medios de comunicación como la interpretación que hacen de éstas sean a menudo incorrectas, engañosas o carezcan de sentido – unas veces por falta de preparación o asesoramiento, otras por voluntad de manipular a la audiencia. Como dice un dicho popular entre los académicos ingleses, “el 91% de las estadísticas son falsas” (incluyendo esa misma frase, por supuesto). De ahí la frase que Mark Twain popularizó, achacándosela a Benjamin Disraeli: “hay tres tipos de mentiras: mentiras, grandes mentiras y estadísticas” (there are three kinds of lies: lies, damned lies, and statistics).

En El hombre anumérico (Innumeracy: Mathematical Illiteracy and its Consequences), el matemático John Allen Paulos trata en detalle, y de forma muy amena, los problemas a los que nos enfrentamos en la sociedad actual por nuestra escasa formación matemática. Tratando el tema de forma mucho más sucinta, veamos como muestra de nuestras dificultades a este respecto, el caso de la probabilidad condicionada – la probabilidad de que una cosa ocurra sabiendo que ocurre otra. Luis tiene dos hij@s, al menos uno de los cuales es un niño. ¿Cuál es la probabilidad de que los dos sean niños? La respuesta correcta es 1/3, no 1/2 como a la mayoría nos indica la intuición. (Es decir: un tercio de todas las familias con dos hijos en las que al menos uno es niño constan de dos niños.) ¿Y qué pasa si uno de ellos es un niño que nació en martes? La respuesta va a sorprender a muchos que habrán pensado (como nosotros al encontrar la pregunta) que el hecho de que naciera en martes es irrelevante. Pero no. En este caso, la probabilidad de que tenga dos niños es 13/27 = 0.48.