Ciencia Crítica pretende ser una plataforma para revisar y analizar la Ciencia, su propio funcionamiento, las circunstancias que la hacen posible, la interfaz con la sociedad y los temas históricos o actuales que le plantean desafíos. Escribimos aquí Fernando Valladares, Raquel Pérez Gómez, Joaquín Hortal, Adrián Escudero, Miguel Ángel Rodríguez-Gironés, Luis Santamaría, Silvia Pérez Espona, Ana Campos y Astrid Wagner.
Representación gráfica de datos: claridad, manipulación y fraude
Hace unas semanas hablábamos de estadística: de la ubicuidad de la estadística en una sociedad saturada de información y donde lo incorporación de datos numéricos parece conferir un plus de credibilidad a las noticias, de la necesidad de tener un entrenamiento riguroso para realizar análisis estadísticos correctamente, de lo fácil que es manipular la opinión utilizando estadísticas que son ciertas a medias y de la imposibilidad de detectar el fraude sin acceso directo a los datos. Es por ello que queremos dedicar un post a mostrar ejemplos concretos de manipulación y fraude con las estadísticas más sencillas que cabe imaginar: el número de observaciones. No tendremos que calcular valores medios ni desviaciones típicas, ni que comparar la variabilidad de varios grupos; podemos obviar todo tipo de cálculo complicado… nos limitaremos a contar. Y con una cosa tan sencilla, ¿se puede manipular y mentir? Sí, claro que se puede.
Los ejemplos que traemos a colación tienen que ver con la evolución del desempleo, que está comenzando a cambiar de tendencia. Empezamos con el caso menos grave, el caso de manipulación. Un informativo de la televisión de Castilla-La Mancha, RTVCM, comparaba la tasa de desempleo en septiembre de 2013 y septiembre de 2014 apoyándose en el gráfico con el que abrimos este post y que ha circulado ampliamente por las redes sociales.
El gráfico muestra dos columnas. La columna de la izquierda representa el número de desempleados en septiembre de 2013 en Castilla-La Mancha, y la columna de la derecha el número de desempleados en septiembre de 2014. La columna de la izquierda es más alta que la de la derecha, porque había más desempleados en Castilla-La Mancha en esa fecha. Hasta ahí, ninguna objeción. Ahora bien, ¿cuán grande era la diferencia entre 2013 y 2014?
El gráfico sugiere que la diferencia era muy importante: que en septiembre de 2014 el paro había desaparecido prácticamente – la columna es diminuta, casi inexistente. ¿Es esto cierto? No. En Castilla-La Mancha había 238.590 desempleados en septiembre de 2013 y 224.993 en septiembre de 2014. En un año, el número de desempleados había bajado menos de un 6%.
Para representar la evolución del desempleo en Castilla-La Mancha durante el último año, deberíamos utilizar un gráfico como el de la siguiente figura:
Hay varias diferencias importantes entre este gráfico y el utilizado por RTVCM. La más importante es que este gráfico indica, en el eje de ordenadas (eje vertical), la escala. Es esto lo que nos permite saber cuántos desempleados había en Castilla-La Mancha en septiembre de 2013 y 2014. Al quitar el eje con la escala, el gráfico deja de ser informativo.
La segunda diferencia importante es que, en este gráfico, se muestran las columnas en su totalidad: el eje vertical empieza en 0, y por tanto la altura de cada columna es proporcional al número de desempleados en cada momento. Esta proporcionalidad, que el observador del gráfico asume intuitivamente si no le indican lo contrario, permite ver inmediatamente que había casi tantos parados en septiembre de 2014 como en septiembre de 2013. La gráfica utilizada por la televisión no respeta el principio de proporcionalidad y produce la impresión engañosa de que el paro había desaparecido prácticamente para septiembre de 2014. Es un caso claro de cómo la información puede tornarse en manipulación. Y es que sin duda el efecto psicológico producido por una diferencia tan patente en magnitud debe ser muy efectivo.
No todos los gráficos de barras respetan el principio de proporcionalidad, y en ocasiones hay buenas razones (más allá de la voluntad de manipulación) para desviarse de este principio. En estos casos, siempre se debe especificar el método utilizado para representar los datos. Por ejemplo, se puede utilizar una escala logarítmica (muy útil cuando se comparan en un mismo gráfico cantidades muy grandes y muy pequeñas) – indicando siempre en el eje de ordenadas (el eje vertical) la escala que estamos utilizando. Nadie se desvía del principio de proporcionalidad sin avisarlo y omitiendo la escala con intención de mejorar la información. Cuando observe que lo han hecho, sospeche que están tratando de maquillarle u ocultarle la verdad.
El gráfico que muestra la evolución del desempleo en Castilla-La Mancha no es, estrictamente, falso. Está basado en modificar un principio (la proporcionalidad) cuando el telespectador no lo espera, y por ese motivo engaña en lugar de informar. Los responsables del informativo siempre podrían argumentar que existe una escala para la que el gráfico es correcto, y que su error fue omitirla. Es por este motivo que lo calificamos de manipulación. A continuación, pasamos a describir un caso en el que no se puede hablar de manipulación: estamos directamente ante un fraude - o una torpeza inverosímil.
Una vez más, los informativos intentan convencer al telespectador de que el desempleo ha disminuido mucho: aparentemente, no les basta con informar de que ha disminuido un poco. El gráfico, que reproducimos a continuación, apareció en “El Debate de La 1” el 21 de enero de 2015
Notamos, para empezar, que el gráfico vuelve a carecer de escala y a no respetar el principio de proporcionalidad – el eje horizontal no corresponde al 0 del eje vertical. Esto ya debería ponernos en alerta. El mismo gráfico (limitándonos a los años 2007, 2009, 2012 y 2014, para los que los datos están escritos en el gráfico), con escala y respetando el principio de proporcionalidad, tiene este aspecto:
Comparando los gráficos observamos varios detalles disonantes. La discrepancia esencial la encontramos al comparar los datos de 2009 y 2014. Si, en el grafico mostrado en televisión, trazamos una recta horizontal a través del punto que representa el número de desempleados en 2009, el punto correspondiente a 2014 queda justo por debajo de la recta:
Esto sugiere que el nivel de desempleo en 2014 está por debajo del nivel registrado en 2009 lo cual no es cierto: como indican las cifras que aparecen junto al gráfico, 4.447.711 desempleados son más que 4.100.073 desempleados. El gráfico que respeta el principio de proporcionalidad (la distancia de un punto al eje horizontal es proporcional al número de desempleados ese año) muestra claramente que el número de desempleados en 2014 se parece más al de 2012 que al de 2009.
El gráfico que muestra la evolución del desempleo no es correcto usemos la escala que usemos. Los responsables del informativo no pueden argumentar ningún descuido u olvido para justificar el uso de dicho gráfico. Aunque en respuesta a las críticas respondieron que se trataba de un error al introducir los datos, están probablemente (y esto es nuestra interpretación subjetiva) mintiendo para intentar convencer al telespectador de que la situación económica en España es mejor de lo que realmente es.
Con la campaña electoral a la vuelta de la esquina, preparémonos para ser bombardeados con gráficos de este tipo, cuyo propósito no es informar sino manipular nuestra opinión. Como en este país nadie es responsable de lo que dice, como se puede mentir con total impunidad, es de esperar que estos intentos de manipularnos vengan con todos los colores del espectro político. Pero tomémonoslos con deportividad: no hay que ser un gran matemático para detectar estas trampas, y podemos organizar un simple concurso: ¿quién detecta más? Que gane el mejor.
Hace unas semanas hablábamos de estadística: de la ubicuidad de la estadística en una sociedad saturada de información y donde lo incorporación de datos numéricos parece conferir un plus de credibilidad a las noticias, de la necesidad de tener un entrenamiento riguroso para realizar análisis estadísticos correctamente, de lo fácil que es manipular la opinión utilizando estadísticas que son ciertas a medias y de la imposibilidad de detectar el fraude sin acceso directo a los datos. Es por ello que queremos dedicar un post a mostrar ejemplos concretos de manipulación y fraude con las estadísticas más sencillas que cabe imaginar: el número de observaciones. No tendremos que calcular valores medios ni desviaciones típicas, ni que comparar la variabilidad de varios grupos; podemos obviar todo tipo de cálculo complicado… nos limitaremos a contar. Y con una cosa tan sencilla, ¿se puede manipular y mentir? Sí, claro que se puede.