METODOLOGÍA: Minería de perfiles políticos en Twitter
Según el CIS los votantes de Podemos no sólo son más internautas que los del PP y PSOE sino que además son más tuiteros.
Desde Outliers Collective nos propusimos ir más allá y explorar cuáles son las profesiones y afiliaciones de la audiencia activa (retweeters) de estos tres partidos políticos en Twitter. Para ello utilizamos la ‘Minería de Perfiles’ como técnica para analizar las ‘bios’ de cada uno de los usuarios (entendidas como mecanismo común de asignación de la propia identidad digital).
Denominamos ‘minería de perfiles’ a la caracterización de usuarios de Twitter a partir de la extracción de categorías relevantes en función del texto presente en la ‘bio’ de Twitter.
En este trabajo partimos de dos categorías: ‘Profesión’ y ‘Afiliación’, y luego generamos sub-categorías para cada una de ellas. Para asociar las categorías a la ‘bio’ de cada usuario (p.ej: ‘Podemos’ con ‘Afiliación’ a ‘Partido’ + ‘Podemos’), se utilizan técnicas de Procesado del Lenguaje Natural.
Específicamente construimos un diccionario a medida que detectamos cada ‘bio’ que observamos.
En este proceso se ha trabajado inicialmente sobre una muestra equivalente a un 10% del total de unos 30.000 usuarios iniciales. Luego se ha clasificado manualmente, para comparar y contrastar dicha categorización con el procesado de lenguaje automático, consiguiéndose una figura de mérito global de clasificación del 83%.
Se consideran las ‘bios’ de los usuarios de Twitter que hacen retweet a los partidos (audiencia activa), ya que en muchos casos un retweet simboliza la afinidad a un partido.
El conjunto de ‘bios’ corresponden a los usuarios que hicieron retweet de las cuentas asociadas a cada partido (PSOE, PP y Podemos), con un total de 5.424 retweets para PSOE, 23.502 para Podemos y 6.013 para PP. El mecanismo de recolección ha sido a través del acceso al API de Streaming de Twitter.
La captura de los tweets se realiza entre el 20 y 28 de noviembre de 2014, periodo en el cual ‘Podemos’ obtiene la intención de voto mayoritaria para las próximas elecciones generales (CIS, octubre 2014). Los datos se visualizan con Tableau Public.
Además de profundizar en la categorización actual (admitimos que pueden existir errores puntuales no relevantes), en futuros estudios se pretende incorporar el análisis de otras categorías, como ‘valores’ o ‘temas’, haciendo referencia a los relatos presentes en las comunidades. Es necesario pues profundizar en la ‘Minería de perfiles’, considerando por un lado algunas variables que podrían limitar la magnitud de los resultados, como la recurrencia de retweets desde un mismo usuario, los boots, el número de followers, etc., y por el otro incorporar otros colectivos y sectores al estudio.