Que una inteligencia artificial (IA) sea capaz de predecir tu futuro a partir de tus datos y te diga si vas a morir en los próximos cuatro años es un escenario inquietante planteado más de una vez en la ciencia ficción. Ahora, un equipo de investigadores liderado por Sune Lehmann, de la Universidad Técnica de Dinamarca (DTU), ha dado un pequeño paso en este camino al entrenar un modelo de IA llamado ‘life2vec’, que es capaz de hacer predicciones sobre individuos particulares a partir de una gigantesca base de datos personales y sociodemográficos. Y lo hace con una tasa del 78% de aciertos, un 11% mejor que los mejores modelos actuales, basados también en redes neuronales.
“Hemos utilizado un conjunto de datos muy completo e inusual sobre los eventos que suceden en la vida de las personas y los hemos convertido en elementos que el aprendizaje automático puede analizar y con los que puede hacer predicciones sobre lo que les pasará a esas personas”, explica Lehmann a elDiario.es. En concreto, los autores del trabajo, que se publica este lunes en la revista Nature Computational Science, han utilizado los datos sobre educación, salud, ingresos, ocupación y otros acontecimientos de la vida de alrededor de 6 millones de personas del registro gestionado por la empresa Statistics Denmark, del gobierno de Dinamarca.
La particularidad de su enfoque es que, en lugar de usar los datos en términos numéricos, los investigadores han traducido cada circunstancia vital de los ciudadanos a palabras, de modo que su sistema de aprendizaje profundo (deep learning), basado en un modelo de lenguaje de gran tamaño (LLM, por sus siglas en inglés), pueda hacer predicciones sobre estas situaciones como las que hace el famoso ChatGPT. “La clave es que pensemos en las vidas humanas como secuencias de cosas que pasan, convirtiéndolas en frases, donde una palabra va detrás de otra y utilizamos modelos de lenguaje para que haga predicciones”.
Prediciendo la mortalidad
Uno de los aspectos en los que los autores han puesto el foco ha sido en la predicción de la mortalidad de los individuos, un parámetro que se utiliza con frecuencia en el modelado estadístico y en trabajos de salud pública. Los investigadores tienen datos hasta 2020, pero a la máquina le daban sólo hasta 2016 para que en esos siguientes cuatro años predijera diferentes situaciones, entre ellas quiénes iban a morir en el futuro inmediato, y comprobar si acertaba. Pero no lo hicieron en conjunto, sino que le ofrecieron el dilema a la IA por parejas. “La manera en que lo hicimos fue tomar cada vez a dos personas y decir: una de las dos va a morir, pero no sabemos cuál es”, explica el autor principal del estudio. “¿Puede la máquina averiguar cuál es? Si fuera al azar, tendría el 50% de aciertos. Y lo que tenemos es que 78 de cada 100 predicciones que hacemos son correctas”.
Una de estas dos personas va a morir, ¿puede la máquina averiguar cuál es? El 78% de sus predicciones son correctas
Los autores se centraron en hacer predicciones para una cohorte joven de personas en el rango de edad de 35 a 65 años, donde la mortalidad es difícil de predecir. Y lo dividieron en parejas porque el número de fallecimientos es demasiado pequeño y la máquina habría tenido un porcentaje enorme de aciertos solo con predecir que ‘no’ por sistema. “La razón por la que lo hacemos así —explica Lehmann en una videollamada— es que si tomáramos la muestra de todos, al ser gente tan joven, la máquina podría decir que no siempre y tener una altísima tasa de aciertos, por encima del 90%”.
Comprender el comportamiento humano
Los autores creen que este enfoque de aprendizaje automático puede ser útil para predecir con precisión diferentes aspectos de la vida humana y proporcionar una comprensión cuantitativa del comportamiento humano. Los científicos sociales llevan años debatiendo sobre si las vidas humanas son predecibles, recuerdan, y utilizar esta aproximación les permite estudiar qué criterios ha usado la red neuronal para tomar sus decisiones y aprender de ellas. “El modelo ve que los hombres mueren más y en general te dice que, si quieres sobrevivir, no seas un hombre, no tengas una enfermedad mental y no seas operador de maquinaria, y en cambio ten unos ingresos altos y un cargo de responsabilidad”, señala Lehmann. “Y esto es exactamente lo que sabemos de las ciencias sociales”.
El trabajo es una suerte de prueba de concepto que explora un nuevo camino para el análisis de datos sociodemográficos en masa mediante nuevas herramientas. “Nuestro modelo es también especial en que profundiza en cómo los eventos en la realidad están conectados entre sí”, explica el investigador. “Quizá se podrá usar para la medicina, salud o tratamientos preventivos. Predecir la muerte puede sonar muy dramático, pero si somos capaces de detectar un riesgo, podemos intervenir mucho antes y quizá darte una vida saludable y mucho más larga”.
Desentrañando las causas
Para Lara Lloret, especialista en salud e inteligencia artificial del CSIC, este estudio no solo destaca por su capacidad predictiva, sino por utilizar métodos que revelan los factores clave que influyen en las predicciones, proporcionando la oportunidad de intervenir si es necesario. “Este enfoque permite comprender cómo cambios en ciertas variables impactan en las predicciones de mortalidad, incluso en el caso de la difícil predicción de la mortalidad precoz, es decir, entre 35 y 65 años”, señala. En su opinión, el nuevo modelo ofrece una ventana única para observar la evolución diaria de cada individuo a través de una compleja red de 280 variables que definen aspectos clave de sus vidas. Una versatilidad que se extiende más allá de la predicción de mortalidad y abarca rasgos generales de la personalidad de los individuos, relacionados con su sociabilidad.
El nuevo modelo ofrece una ventana única para observar la evolución diaria de cada individuo a través de una compleja red de 280 variables que definen aspectos clave de sus vidas
“Un punto interesante de cara al futuro es la posibilidad de extrapolar estos resultados a otras sociedades”, asegura Lloret. “Los propios autores se plantean el uso de una técnica muy utilizada en sistemas de aprendizaje profundo, conocida como ”transferencia del aprendizaje“. Esto permitiría que parte de los conocimientos obtenidos en este estudio danés podrían ser utilizados como punto de partida para entrenar sistemas similares sobre poblaciones que tengan conjuntos de datos menos extensos”.
Javier del Águila, especialista en medicina preventiva y salud pública del Centro Nacional de Epidemiología, se muestra más escéptico respecto a esta herramienta. Frente a los modelos sencillos, que son transparentes, permiten su evaluación y estudiar hipótesis causales, cree que este método genera más preguntas que respuestas. “¿Por qué mortalidad y en ese grupo de edad? ¿Qué factores determinan el resultado? ¿Cómo se transforma el dato en texto y qué impacto tiene en el análisis?”, se pregunta. Ricardo Sánchez de Madariaga, experto en Salud Digital del Instituto de Salud Carlos III (ISCIII) y experto en machine learning, cree que el resultado de este trabajo no es muy brillante desde el punto de vista cuantitativo. “Acertar el 78% en el análisis por parejas me parece un resultado muy mediocre”, asegura. En general, advierte, hacer predicciones de salud es más complicado de lo que parece, porque “morirse es una cosa mucho más compleja que una enfermedad, se necesita conocer muchas más características”.
Diego Ramiro, director del Instituto de Economía, Geografía y Demografía del CSIC, cree que el estudio es novedoso por la metodología y va muy en la línea de introducir la inteligencia artificial en la exploración y análisis de datos. En su opinión, con este tipo de aproximaciones los países nórdicos como Dinamarca se adelantan en la reutilización de los datos que el ciudadano ha aportado a la administración para analizar tendencia sociales, de salud o demográficas. La diferencia, apunta, es que en España y otros países “el acceso sin restricciones de los investigadores a los datos brutos para poder hacer este tipo de análisis requiere de unos protocolos de protección de datos y de ética muy altos”. Por no hablar de la propuesta que hacen los autores sobre la posibilidad de enlazar la huella digital o los datos de telefonía móvil a los datos individuales, para lo cual —como ellos mismos reconocen— se necesitaría una regulación muy estricta.
Como reflexión final, Sune Lehmann asegura que su trabajo quiere ser también un toque de atención sobre lo que ya se está haciendo con nuestros datos y la IA, aunque no se haga público. “Facebook y Google están desarrollando modelos más precisos, pero la gente no es consciente de esto, y desde luego un sistema así nunca debería ser usado por los seguros médicos”, advierte. “Nosotros queremos mostrar que la IA está empezando, pero es importante que tengamos una conversación y extendamos el debate sobre lo que se puede hacer y lo que no y cuáles son los límites”.