La inteligencia artificial que caza noticias para Reuters en Twitter
La Agencia Reuters emplea a cerca de 2.500 periodistas en todo el mundo que escriben unas 3.000 noticias cortas al día. Solo unos pocos artículos se convertirán en reportajes de mayor calado, por eso, según explica la propia agencia de información, solo 250 de entre ese gran número de publicaciones se consideran noticias.
Pero en la era de la inteligencia artificial, de los algoritmos que piensan solos y de las máquinas que se perfeccionan a sí mismas, el trabajo de los periodistas de la información podría tener los días contados. ¿Qué pasaría si un ordenador hiciese el trabajo por ellos, informando, titulando y redactando los artículos? Pues Reuters ya lo sabe.
Se llama Reuters Tracer y su principal fuente de información es Twitter. El sistema almacena todas las alertas que se producen en la Red de manera global y después, con ayuda del “minado de datos y el machine learning consigue escoger los eventos, determinar su temática, clasificar su prioridad y escribir un titular y un resumen”, dicen los investigadores de la empresa de noticias, que han presentado un paper en Arxiv. “Tiene el potencial de revolucionar el negocio de las noticias”, continúan.
Analizando 12 millones de tuits al día
El software analiza unos 12 millones de tuits al día, lo que representa un 2% del total que se publican en todo el mundo. Reuters Tracer coge aproximadamente la mitad de esos tuits de forma aleatoria, mientras que el otro 50% lo obtiene de cuentas de periodistas de la empresa, a través de una lista. Aquí también se incluyen los perfiles de otras compañías de noticias, multinacionales, influencers y similares.
Una vez hecho esto, el sistema tiene que determinar cuándo se ha producido un evento. Para ello, Reuters Tracer entiende que algo ha ocurrido hace pocas horas (o minutos) si la gente está hablando a la vez, así que agrupa todos esos tuits relevantes gracias a un algoritmo.
Como dentro de estos mensajes también se incluyen conversaciones normales, tuits con publicidad y spam, el programa tiene que clasificar qué tipo de información está “leyendo”. Así, compara la información de la que dispone con una lista de temas obtenidos de 31 medios de noticias como @CNN (la CNN), @BBCBreaking (la BBC) o @nytimes (The New York Times), entre otros. Además, también sabe dónde se está produciendo el acontecimiento gracias a una base de datos basada en palabras y localizaciones de ciudades.
Una vez que el programa ha recopilado todo esto, el último paso es el de verificar si la información proviene desde una fuente fiable o no, analizando los tuits publicados y llegando hasta el primero que se escribió sobre el tema. Después lo contrasta con otra base de datos que contiene sitios de noticias falsas como National Report o The Onion.
Cuando todo lo anterior cuenta con luz verde, Reuters Tracer escribe una pieza corta de la noticia en cuestión con un titular, y la distribuye entre todo el sistema de noticias de la compañía. ¿Mejor o peor que un humano? Eso quedará al gusto de quien lo lea...