“Gran parte del éxito del reconocimiento de imágenes por ordenador tiene que ver con entender el mundo desde el punto de vista de un espectador, desde la perspectiva de una tercera persona”, dice Kristen Grauman, investigadora principal del departamento de Inteligencia Artificial de Facebook. “Si queremos que los robots se muevan e interactúen en espacios humanos, o crear sistemas de realidad aumentada que se lleven puestos, necesitamos entender el mundo desde una perspectiva en primera persona”.
La multinacional ha presentado este jueves un “ambicioso proyecto de investigación a largo plazo” para hacer exactamente eso: enseñar a las máquinas a entender lo que ve y escucha una persona estando en su mismo punto de vista, no solo como observadoras. El proyecto se denomina Ego4D (de visión egocéntrica) y su objetivo es que la inteligencia artificial pueda interpretar en tiempo real esa información y la recuerde de la misma forma que lo hace un humano.
Ego4D tiene cinco metas principales, pensadas para conseguir que un asistente virtual con esta tecnología sea capaz de relacionarse íntimamente con el día a día de su usuario. Esos cinco puntos de referencia para la investigación, detalla Facebook, son:
- Memoria episódica: ¿Qué pasó cuándo? (por ejemplo, “¿Dónde dejé las llaves?”)
- Previsión: ¿Qué es probable que haga a continuación? (por ejemplo, “Espera, ya has añadido sal a esta receta”).
- Manipulación de manos y objetos: ¿Qué estoy haciendo? (por ejemplo, “Enséñame a tocar la batería”).
- Diarización audiovisual: ¿Quién ha dicho qué y cuándo? (por ejemplo, “¿Cuál fue el tema principal durante la clase?”)
- Interacción social: ¿Quién interactúa con quién? (por ejemplo, “Ayúdame a escuchar mejor a la persona que me habla en este ruidoso restaurante”).
La investigación servirá para apoyar los productos de realidad aumenta en los que Facebook está invirtiendo un gran número de recursos, como sus nuevas gafas.
No obstante, la multinacional anticipa que el proyecto puede ser clave en su aspiración de ser una compañía troncal en el desarrollo del “metaverso”, una suerte de nuevo Internet con grandes dosis de realidad virtual: “Estos cinco puntos de referencia catalizarán la investigación para desarrollar asistentes de IA más inteligentes que puedan entender e interactuar no solo en el mundo real, sino también en el metaverso, donde la realidad física, la realidad aumentada y la realidad virtual se unen en un solo espacio”.
Un gigantesco archivo de vídeo
Para enseñar a la inteligencia artificial a reconocer las personas, objetos o lugares se utilizan enormes bases de datos con imágenes categorizadas, de las que estos algoritmos pueden extraer patrones que luego usan para inferir lo que aparece en otras imágenes que no pertenecen a ese set de entrenamiento. Este es el método de aprendizaje que se ha utilizado con los sistemas de reconocimiento de imágenes actuales, como Google Cloud Vision, Amazon Rekognition o Watson, la inteligencia artificial de IBM.
Para entrenar a la inteligencia artificial a hacer lo mismo pero con imágenes captadas en tiempo real y en primera persona, Facebook necesita un gigantesco archivo de vídeo que tenga estas mismas características. Y ya lo tiene: “Hemos formado un consorcio de 13 universidades y laboratorios de nueve países, que han recopilado más de 2.200 horas de vídeo en primera persona, con más de 700 participantes grabando escenas de su vida cotidiana”, explica Facebook. En horas de filmación, es más de 20 veces más que las actuales bases de datos con vídeos de este tipo.
Entre los centros participantes se encuentran los prestigiosos MIT o Georgia Tech, pero ninguna universidad española. Sí hay dos europeas que han participado en la recolección de datos: la Universidad de Catania (Italia) y la de Bristol (Reino Unido). “Facebook financió el proyecto mediante donaciones académicas a cada una de las universidades participantes”, revela la corporación.
La base de datos con los vídeos se hará pública en noviembre, asegura Facebook. “En total, se han transcrito miles de horas de vídeo y se han recogido millones de anotaciones, con criterios de muestreo que abarcan a todos nuestros socios del consorcio para garantizar la diversidad del conjunto de datos resultante. Como resultado, los investigadores podrán utilizar fácilmente el conjunto de datos de Ego4D para construir y probar sus modelos en nuestros puntos de referencia tan pronto como se publique, a finales de este año”.
Largo plazo
El proyecto presentado este jueves por Facebook es solo uno de los primeros pasos de esta tecnología, reconoce la multinacional. Sin embargo, muestra que su apuesta por la realidad aumentada y la realidad virtual como próximas fronteras de la digitalización es firme. El metaverso, una idea sacada directamente de la ciencia ficción, es un punto central en su ecuación.
El anuncio de esta nueva investigación llega en un momento delicado para la compañía, que afronta un nuevo escándalo de malas prácticas tras las revelaciones de Frances Haugen. Mark Zuckerberg alega que la imagen de su compañía que han dibujado esta extrabajadora y los medios que han publicado la documentación interna que ella ha filtrado “es falsa”. Con esta nueva tecnología, la capacidad de Facebook para recopilar datos de sus usuarios aumentaría exponencialmente ya que, literalmente, sus sistemas registrarían todo lo que ocurriera alrededor de la persona que los use.
A esto hay que sumar las dudas que algunos investigadores han elevado sobre la tecnología de reconocimiento de imágenes. Avisan que aún es muy inmadura y que entraña riesgos relacionados con la categorización de imágenes que se usan para entrenar a los algoritmos, puesto que estos pueden usarse para amplificar los sesgos machistas, racistas o clasistas de sus programados.
Hay experimentos que han documentado que si se muestra la misma imagen a los sistemas de reconocimiento de imágenes más usados, su interpretación de los objetos que aparecen en ella cambia en función de si la cara del protagonista pertenece a un hombre o a una mujer: si es hombre ven un martillo, pero si es un mujer reconocen un secador de pelo. Hace menos de un mes, la inteligencia artificial de Facebook recomendó “seguir viendo vídeos de primates” a los usuarios que vieron un vídeo en el que aparecían personas negras, lo que la compañía reconoció como un “inaceptable error”.