¿Quién responde a las encuestas en Cataluña? El lapsus linguae de los pronósticos

La muestra de respuestas en las encuestas pre-electorales no es representativa de la diversidad lingüística de Cataluña.
La confianza en las encuestas es el producto de la transparencia, no del acierto. Gracias a aquellas que son transparentes podemos entender el fundamento del acierto y del error.

3 de diciembre de 2012 10:03 h

1. Las causas del error

De las encuestas publicadas para las pasadas elecciones de Cataluña, en orden de aparición, solo la del CIS (para el Gobierno), CEO (para el Govern), GESOP (para El Periódico) y My Word (para la SER) cumplían bien con los requisitos básicos de transparencia. Son las únicas que podemos comparar entre sí para preguntarnos por qué han fallado.

Lo primero que se debe notar es que algunas tienen una muy baja tasa de respuesta. Mientras que el CIS consigue que más del 80% de las personas entrevistadas respondan a la pregunta de intención de voto (un 18,5% no saben o no contestan, lo que se suele clasificar, con cierta libertad, como “indecisos”), la tasa de no respuesta para el CEO en esa pregunta es del 40,3%, más del doble (para GESOP es 24% y para My Word el 27,6%). Uno de los fundamentos más sólidos de las encuestas del CIS es su recogida de datos, tanto en el diseño como en el trabajo de campo, lo que permite tener una información de base que, casi sin ninguna duda, es la de mejor calidad. El presidente del CEO, que ha tenido el buen sentido de dar una explicación, aduce entre los atenuantes del error de su predicción la existencia de muchos“ indecisos” en el momento de la encuesta. Se puede discutir bastante sobre si se trataba de indecisos o de respuestas que no se supieron obtener, pero evidentemente es una de las causas de su error. De las demás encuestas, desafortunadamente, ni siquiera Metroscopia, que suele hacerlo, ha publicado el resultado de la pregunta principal, por lo que podemos suponer que la situación no era mejor.

Un segundo problema de todas las encuestas ha sido el fallo en la estimación de lo cuantioso de la participación. Para hacer un pronóstico es necesario determinar un porcentaje de voto válido, algo que todos hacen explícita o implícitamente, pero solo el CEO ha publicado de forma expresa. Hay que decir que la estimación del CEO para CiU no está “cocinada” en absoluto: se trata de la fracción de votantes de CiU encontrados en la muestra sobre un porcentaje de voto válido previsto en el 65%. Solo que ni votó el 65% ni sus datos de partida eran buenos. A toro pasado, con los datos del CIS se puede reconstruir una predicción bastante aceptable; estoy menos seguro con otras encuestas. Necesito insistir en que todo esto lo sabemos porque nos lo muestran, a diferencia de lo que sucede con la mayoría de los “datos” que se publican.

La calidad de los resultados está empobrecida por un tercer problema, el más importante que deseo reseñar: la población catalana no está representada adecuadamente en las muestras de ciudadanos entrevistados por los institutos. En las cuatro encuestas que ofrecen esta información se observa una considerable sobre-representación de catalanohablantes mientras que faltan respuestas de castellanohablantes.

Es posible que muchos de los votos que han producido la sorpresa en el resultado hayan venido de esos ciudadanos que no se habían hecho escuchar lo suficiente en los sondeos. Tal vez no se les supo preguntar, o tal vez no tenían ganas de responder. Algunos análisis, como este de Cesc Amat, el de Toni Rodon, o los que ha hecho Ignacio Jurado para PdP, muestran que la participación ha podido crecer en los lugares menos catalanistas. En la medida en que lengua e identificación nacionalista están muy relacionados, la ausencia de respuestas en castellano contribuye doblemente al error de las encuestas: mueve a una baja estimación del voto para algunas opciones no soberanista, así como a una baja estimación de la participación.

	Lengua inicial Idescat *	Lengua inicial CEO	Lengua materna CIS	Lengua materna MyWord	Lengua habitual Idescat*	Lengua habitual GESOP
Castallano	60,8%	47,9% (-13)	52,5% (-8)	45% (-16)	50%	36,1% (-14)
Catalán	35%	45,1% (+10)	40% (+5)	41% (+6)	40%	50,9% (+11
Ambas	4,2%	4,2% (=)	5,9% (+2)	13% (+9)	10%	12,9% (+3)

(*Los datos del Idescat están aproximados para la población con derecho a voto)

Según datos del Idescat la lengua inicial (o materna) de la población residente de Cataluña es el castellano en el 55% de los casos, el catalán en el 31,6% de los casos y ambas en el 3,8%. El resto se corresponde con lenguas “extranjeras” (salvo una mínima proporción), por lo que una aproximación razonable a los porcentajes para las personas con derecho de voto es que hay un 60,8% de votantes cuya lengua inicial es el castellano, 35% el catalán y 4,2% ambas. Sin embargo, en la encuesta del CEO solo aparece un 47,9% de personas con lengua inicial castellana mientras que hay un 45,1% de lengua inicial catalana. Son de diez a trece puntos de desviación (lo mismo se aprecia comparando los datos de lengua habitual). La sobre-representación de catalanohablantes se refleja en otros datos de la encuesta, como la extremadamente alta audiencia de los informativos de TV3 entre los entrevistados, o que 2 de cada 3 lectores de La Vanguardia digan leerla en catalán. El CIS encuentra un 52,5% de lengua materna castellana y un 40% de lengua materna catalana (no pregunta por la lengua habitual). Es una desviación considerable, pero cercana a la mitad.

Solo en el caso de My Word he encontrado información sobre el idioma en que fue completado el cuestionario: el 61% eligieron hacerlo en catalán y el 39% en castellano. Incluso después de ponderar la muestra para corregir factores sociodemográficos, su informe indica que la proporción estimada de lengua materna castellana en la población es el 45%, catalana el 41%, y un sobreabundante 13% para “ambas” (el sesgo de población internauta). GESOP encuentra que solo un 36,1% tienen el castellano como lengua habitual, un 50,9% el catalán y un 12,9% de ambas. Los datos del Idescat indican que las proporciones correctas serían prácticamente inversas, 50% castellano, 40% catalán y 10% ambas. Vuelven a ser más de diez puntos de desviación. Si esto pasa en las encuestas que muestran su armazón, qué no será en las que ocultan sus costuras.

Si se piensa que exagero la importancia de este desequilibrio, debe tenerse en cuenta que la probabilidad de sentir una identidad exclusivamente catalana es ocho veces mayor para quienes tienen lengua inicial catalana que castellana; que la probabilidad de estar de acuerdo con la independencia como derecho o posibilidad (no necesariamente como realidad) es el triple entre aquellos que tienen el catalán como lengua inicial; que, por último, la probabilidad de votar a CiU es 27 puntos mayor para los de lengua materna catalana.

Lengua materna	Se siente únicamente catalán	Posibilidad de independencia como mejor organización del Estado	Votará a CiU
Castellano	6,3%	22,3%	15,1%
Catalán	49,2%	67%	42,1%

Encuesta pre-electoral del CIS.

Una desviación de más de 10 puntos es mucho para una característica de la población que influye marcadamente en las actitudes y en el comportamiento político. Su corrección habría llevado a rebajar en varios puntos, dependiendo de la encuesta, el voto a CiU. Y también las opiniones sobre cierto asunto clave en la campaña, por cierto. Los institutos de investigación deberían preguntarse cómo conseguir una mejor tasa de respuesta en la población castellanoparlante, mejorando el diseño y la recogida de datos. La sociedad catalana igual debería preguntarse por qué los castellanoparlantes responden menos. Dicho sea con todo el respeto, se corre el riesgo de no saber en qué país se vive.

2. Por la transparencia en las encuestas

La forma de crear confianza en las encuestas no es acertando, sino siendo transparentes. La transparencia obliga además a cuidar los métodos, los somete a la crítica interna y externa, y terminan mejorando los resultados. El acierto se les dará por añadidura.

¿Por qué comparar solo CIS, CEO, GESOP y My Word? Porque son las únicas que difunden los datos originales correctamente tabulados de manera que el lector pueda interpretarlos de forma autónoma, al menos por lo que toca a los resultados fundamentales, diferenciando claramente la proyección estimada para las elecciones del dato obtenido en la muestra, y ofreciendo la tasa de respuesta de la pregunta. Además, parecen ser las únicas que han llevado a cabo un cuestionario relativamente extenso. Las encuestas con mayores muestras, CIS y C EO, permiten entender la asignación de escaños; en las otras es más difícil. Ninguna explica su técnica de corrección para la proyección de resultados, pero tres de ellas regalan los micro-datos (CIS, CEO y GESOP), de manera que cualquier analista puede intentar hacer proyecciones alternativas con los mismos datos. No conozco a nadie que se haya atrevido a publicar una. Hay que decir que el hecho de que GESOP, una empresa privada, divulgue así sus resultados es un caso excepcional de transparencia y buenas prácticas, en las que han sido pioneras las instituciones públicas (el primero en hacerlo fue el CIS).

El producto de las encuestas más difundido es el pronóstico de escaños. Esto no es el resultado de ninguna encuesta, sino algo confeccionado, se supone, a partir de una. Parece que a nadie le llama la atención que, digamos, ABC (DYM) augure 60-62 escaños para CiU con el 39,6% de los votos y El Periódico (GESOP) apueste por 62-64 con el 38% (ver tabla más abajo). Se podrá pensar que los repartos son volátiles, y es cierto: el PSC ha perdido un escaño por unos cientos de votos, quedando como tercer partido pese a ser el segundo. Precisamente por eso los pronósticos de escaños son apuestas sobre apuestas (la propia estimación de voto), y aquellas podrían ser arbitrarias, pues una predicción estadísticamente “honesta” que solo se basara en la encuesta podría dar una horquilla del tamaño de una peineta. Algo absolutamente “impublicable”. Hasta donde mi buscador entiende, algunos diarios (La Vanguardia/Feedback) ni se molestan en publicar el resultado de la encuesta, y muchos lo hacen solo parcialmente, posiblemente por descuido de la persona que redacta la noticia, que es consciente de que lo que vende es el gráfico con los escaños. Es lo que hay.

De hecho, para valorar las encuestas, conocer cabalmente la predicción de voto de los autores, previa a la de escaños, es menos que un requisito mínimo. Hay que conocer cuál es el resultado real de la encuesta, el “voto directo”, incluyendo la tasa de respuesta, lo que la gente ha dicho que va a votar, que es distinto de lo que el analista supone a partir de esas legítimas operaciones que, por su opacidad habitual, se da en llamar “la cocina” de los datos. Es muy de lamentar el que no se publique.

Para el lector informado, lo ideal sería disponer también de una noción al menos genérica sobre qué operaciones se han hecho con los datos para pasar del “voto directo” al “voto estimado” (y de ahí a la proyección de escaños). Pero solo las mejores empresas del mundo, fundamentalmente en EEUU y Gran Bretaña, donde el mercado está mucho más desarrollado, dan cuenta de sus procedimientos. Ya llegaremos. (Ejemplos de técnicas estándar son la corrección por la credibilidad de la respuesta, corrección por estimación de participación, estimación de lo que harán los indecisos, correcciones en la representatividad de la muestra y otras muchas cosas que en España nunca se explican, ni entre profesionales).

3. Los errores

	Gob	Gov	La Vanguardia	El Periódico	El País	El Mundo	Abc	SER	La Razón	RESULTADO
Instituto	CIS	CEO	Feedback	GESOP	Metroscopia	Sigma-2	DYM	My Word	NC Report
N	3000	2500	1000	808	2500	1150	847	1153 internet
	9/ 29 oct	22/30 oct	12/16-nov	13/16-nov	8/15-nov	13/16-nov	12/16-nov	9/14 nov		Elecciones
CiU	63-64	69-71	62-64	62-64	62	60-63	60-62	62-65	60-62	50
PSC	19	15	17-19	15-17	18	21-23	17	16-17	20-21	20
ERC	17	14	14-15	19-20	18	14	18	16-17	15	21
PP	16-17	18-19	16-18	15-17	19	20-21	18	16-17	19-20	19
ICV	11	10	13-16	13-14	10	10-12	9-10	12-13	12	13
C,s	7	6	7-8	6-7	6	5	6	8	6-7	9
CUP	-	0-3	0-2	0-1	2	0	4-7	2	0-2	3
SI	1	0	0	0-1	0	0-2	0	0	-	0
% Voto	CIS	CEO	Feedback	GESOP	Metroscopia	Sigma-2	DYM	MyWord	NC Report
CiU	36,8	43,4		38	37,3		39,6	36,8	38,1	30,68
PSC	12,9	12		12	12,3		13,2	10,6	14	14,43
ERC	11,1	9,5		12,8	12,2		12,5	11,4	10,5	13,68
PP	11	12,5		11,6	13,2		14	10,9	14,1	12,99
ICV	8,1	8		9,8	7,9			9,2	8,8	9,89
C,s	60	5,1			5,7			6,5	5,8	7,58
CUP		2,8			3			2,6	2,9	3,48
SI	2,1	2						2,9		1,28

Ser más transparente no significa equivocarse siempre menos, solo que podemos entender mejor dónde está el error, y repetirlo menos. En cuanto a errores cualitativos, solamente el Centre d’Estudis de Opinió (CEO) del gobierno catalán pronosticaba una clara subida en votos para CiU (43,4%, una subida de 5 puntos con respecto al 38,4% de 2010) y una subida en escaños que le garantizaba la mayoría absoluta (69-71). Es la encuesta más equivocada de todas. Del resto de las encuestas que he podido consultar, solo DYM/ABC predecía un ligero incremento del voto al partido del gobierno, mientras que las demás al menos concedían un retroceso electoral, aunque la estimación iba desde lo insignificante (menos de medio punto para GESOP/El Periódico) hasta lo muy pequeño (un punto y medio para el CIS). Todas menos una acertaron al predecir un parlamento sin mayoría; sin embargo, solo Sigma-dos/El Mundo, DYM/ABC, y NCReport/La Razón pronosticaron una posible, pero modesta, pérdida de escaños para CiU, aunque arrpándose tras una horquilla en la que lo decisivo podría pasar o no pasar.

El ejercicio de cuantificar los errores es siempre discutible. Una aproximación sencilla consiste en sumar los escaños en los que se desvía el pronóstico, pues es la única información disponible para todas, tomando como predicción el punto medio de la horquilla en caso de que se ofrezca. Las tres que más se equivocan son CEO, con 40 escaños de error, Sigma-dos/El Mundo, con 32 escaños y el CIS con 29 escaños (prácticamente igual a los 28,5 de Feedback/La Vanguardia). Piénsese que emplear como “predicción” el simple resultado de las elecciones anteriores (sustituyendo CUP por SI) lleva a un error de 41 escaños, un 30% del parlamento. Algunas encuestas se acercan peligrosamente a ese extremo. Las tres encuestas que menos se equivocan en esta medida son NCReport/La Razón, Metroscopia/El País y My Word/SER.

Como queda dicho, no todos los medios publican la estimación del porcentaje de voto y, cuando lo hacen, a menudo lo publican de forma incompleta. Comparando los resultados con las predicciones de los cinco primeros partidos y sumando los errores, parece que todas se equivocan entre los 12 puntos de GESOP y los 15 puntos de My Word. La anomalía negativa son los 21,7 puntos de error del CEO.

Antes o después, alguien con buena base estadística será capaz de hacer pronósticos muy fiables sobre los resultados esenciales, como Nat Silver en EEUU, en los que las encuestas, si forman series temporales de calidad, podrán intervenir en el modelo predictivo, pero que se presentará como alternativa a las encuestas pre-electorales. Esto puede poner en una cierta penumbra los brillos de las campañas, las piruetas comunicadoras y otros muchos asuntos que entretienen y, a menudo, alimentan a bastante gente. Pero no hay que preocuparse, siempre habrá políticos dispuestos a subirse a unos patines y crear la suficiente incertidumbre como para que las encuestas sigan siendo necesarias e interesantes, más aún en sistemas de múltiples partidos. Pero hace falta saber qué nos ofrecen y cómo trabajan para poder confiar en ellas.

Sobre este blog

Piedras de papel es un blog en el que un grupo de sociólogos y politólogos tratamos de dar una visión rigurosa sobre las cuestiones de actualidad. Nuestras herramientas son el análisis de datos, los hechos contrastados y los argumentos abiertos a la crítica.

Autores:

Aina Gallego - @ainagallego

Alberto Penadés - @AlbertoPenades

Ferran Martínez i Coma - @fmartinezicoma

Ignacio Jurado - @ignaciojurado

José Fernández-Albertos - @jfalbertos

Leire Salazar - @leire_salazar

Lluís Orriols - @lluisorriols

Marta Romero - @romercruzm

Pablo Fernández-Vázquez - @pfernandezvz

Sebastián Lavezzolo - @SB_Lavezzolo

Víctor Lapuente Giné - @VictorLapuente