La portada de mañana
Acceder
Feijóo pide que el Gobierno asuma la gestión de la DANA mientras Mazón se resiste
El esfuerzo colectivo para no dejar nada sin rastrear en el parking de Bonaire
Opinión - Feijóo entierra a Mazón. Por Esther Palomera

Muerte del póker por una computadora: los mejores profesionales del juego de cartas sucumben ante la máquina

El póker era el último eslabón de los juegos mentales que se mantenía intacto, incólume ante la presencia de las inteligencias artificiales que todo lo saben y, mejor aún, que a todos nos ganan. Pero esa imbatibilidad ha terminado este jueves, cuando los investigadores Noam Brown y Tuomas Sandholm de la Universidad Carnegie Mellon (Pensilvania, EEUU) han anunciado que Pluribus, su última creación en colaboración con Facebook, había ganado a un grupo de jugadores profesionales de póker en mesa corta (6 jugadores máximo).

Pluribus es un bot y su nombre en latín significa “muchos”, que son precisamente los 13 pros a los que ha 'pelado'. Les ha estado ganando una media de 5 dólares por mano, unos 1.000 dólares a la hora. Pocos jugadores de carne y hueso se acercan a esa cifra de ganancia, y los que lo hacen no pueden mantenerla indefinidamente en el tiempo, cosa que Pluribus parece que podría.

Los investigadores Brown y Sandholm prepararon dos configuraciones del bot. En la primera, dos humanos (Chris Ferguson y Darren Elias) jugaron contra cinco versiones diferentes de la Inteligencia Artificial (IA) y en la segunda, era la IA la que jugaba contra cinco humanos. Según cuentan los investigadores en el estudio publicado en la revista Science, ninguno de los pros sabía que jugaba contra otros pros, ya que todos fueron obligados a utilizar un nick que se mantuvo durante los 12 días que duró el experimento. A razón de entre 8 y 9 horas de juego cada día, los pros disputaron un total de 10.000 manos contra Pluribus.

¿Cómo gana Pluribus?

Hoy en día, el póker que se juega a nivel profesional consiste en explotar los fallos del rival. Para ello, en Internet se utilizan HUDs (unas enormes bases de datos que ofrecen en tiempo real parámetros de cómo juega y qué hace en cada situación cada jugador) y en el póker en vivo se usa la observación del rival para adaptarse a su juego. Sin embargo, Pluribus no ha necesitado explotar a los pros, ya que ha jugado sus propias estrategias desde el minuto uno. Y son ganadoras.

Los investigadores pusieron al bot a jugar contra sí mismo miles de veces. No utilizó partidas de humanos, sino que simplemente le enseñaron las reglas: al principio jugaba de forma aleatoria, pero a medida que practicaba, su juego comenzó a tener más sentido. Jugando contra los profesionales, Pluribus es capaz de analizar en tiempo real si su jugada tendrá sentido en las siguientes dos o tres rondas de apuestas, incluso de proyectar la ganancia que tiene su mano actual (aunque no use ese dato cuando se encuentra jugándola) y aprender que para la próxima situación similar, quizá no tenga sentido jugar como jugó. Esto le permite mejorar su juego hasta límites insospechados.

En el No Limit Poker Texas Hold'em (la modalidad de póker más jugada del mundo y también la que han jugado Pluribus y los profesionales) se pueden hacer tres cosas: subir la apuesta, pagarla o retirarse de la mano. La fuerza de la mano que lleva un jugador se suele demostrar por el tamaño de apuesta que hace, aunque también puede ser que no lleve nada y esté intentando farolear. Para tratar de simplificarle el juego a Pluribus, los investigadores programaron lo que llaman “abstracción de acciones”, dándole al bot un rango de entre 1 y 14 tipos diferentes de apuestas dependiendo de la situación.

Un jugador de carne y hueso puede apostar la cantidad que le venga en gana en una mano, y en la práctica da igual apostar 200 dólares que 201. Pero no es lo mismo meter 300 que 800 dólares. Aunque Pluribus no esté programado para apostar todas las cantidades de 1 a 10.000 (las fichas iniciales con las que empezaban a jugar) y toma hasta 14 opciones diferentes dentro de ese rango, es capaz de entender si un humano le apuesta 587 dólares y actuar en consecuencia.

Otra de las simplificaciones del juego que han introducido los investigadores a Pluribus es la abstracción de información. En el póker, una escalera del 6 al 10 es mayor que una escalera del 5 al 9, pero Pluribus agrupa las manos similares (como estas dos) y simplifica su juego. Para el bot solo existe la clasificación de manos de póker (en la que una doble pareja gana a una pareja, un color a un trío, etcétera) mientras que los humanos sí tenemos en cuenta que un trío de seises gana a un trío de cincos. El bot no ve diferenciación alguna entre estas dos jugadas a priori y solo razona que un trío es mayor que otro cuando está inmerso en la mano, pensando ya como si fuera un humano, que sabe que puede ganar o perder contra una jugada mayor o peor.

Un bot barato, eficiente y con estrategia propia

Pluribus sabe hacer faroles, poner presión a sus rivales o llevar una mano hasta el final de la apuesta si sabe que va a sacar valor de ella. A los profesionales les llama la atención que haga uso de lo que se conoce como donk bets (apuestas de cara), un movimiento que no se suele usar mucho y que consiste en salir apostando cuando la mano vino subida por el oponente y, por tanto, se entiende que es él quien debe continuar la acción. Normalmente este tipo de apuestas indican que el jugador que hace la donk bet tiene jugada, algo así como si nos estuviera enseñando sus cartas y, por tanto, dando información gratis.

“Pluribus es un oponente muy difícil contra el que jugar. Es muy difícil pillarlo en cualquier mano. También es muy bueno haciendo apuestas de bajo valor en el river. Es muy bueno sacando valor de sus buenas manos”, reconoce Chris Ferguson, ganador de un brazalete de las WSOP (World Series Of Poker, algo así como la Champions League del póker), en el año 2000. Todos los pros se han desecho en elogios hacia el bot, cuyos creadores le auguran un futuro prometedor no ya solo en el juego, sino en el campo de la ciberseguridad o los negocios.

Crear a Pluribus les ha llevado ocho días a los investigadores. El equipo tenía menos de 512 MB de RAM y un procesador de 64 núcleos. Si hubieran querido entrenarlo en la nube no les habría costado más de 150 euros, un precio irrisorio en comparación con el resto de IAs que necesitan una gran potencia de cálculo para funcionar.

¿Por qué es un hito?

Sandholm y Brown son los mismos que en enero del 2017 consiguieron que Libratus, otro bot, destrozase a cuatro profesionales del mismo juego en uno contra uno. No fue algo tan representativo porque al póker generalmente se juega en mesa corta (6 jugadores) o larga (9 jugadores) y los enfrentamientos heads-up (1vs1) están reservados a los amantes de esta modalidad o a los últimos dos jugadores en liza que quedan en un torneo en el que previamente participaron decenas, miles o cientos.

Por eso es un hito lo que ahora han conseguido los investigadores de la Carnegie Mellon. Se dice que el póker es un juego de información incompleta porque podemos llegar a saber hasta siete cartas de la baraja (las dos de nuestra mano y las cinco de la mesa), pero no así el resto. Cuanto más atrás estemos sentados en la mesa, mejor podremos intuir qué cartas llevan nuestros rivales, sus apuestas (si nos farolea mucho, si es muy agresivo, si es pasivo...), sus patrones de juego o sus movimientos.

Las decisiones se toman en base a la información de la que disponemos. Por eso la mayoría de manos se ganan desde las últimas posiciones y no desde las primeras: cuanto más acción vemos delante, más sabemos estando atrás. El póker no se parece al ajedrez porque no puede calcularse y no es como el Go porque no se fundamenta en trazar una estrategia en el espacio, sino en tomar la mejor decisión posible con la información que sabemos en un momento determinado. Ninguna situación se parece a la anterior, ya que dependerá de los rivales y de las tres primeras cartas comunes que se tiran sobre la mesa (el flop). Existen hasta 2.598.960 combinaciones de cartas posibles y 1.326 manos iniciales diferentes.