Por qué es tan difícil que una máquina juegue al póker bien (y encima gane)

Desde el miércoles pasado Libratus juega al póker durante ocho horas al día contra cuatro humanos, que ganarán 200.000 dólares si le consiguen batir
Es la enésima inteligencia artificial que intenta ser mejor que nosotros: aunque antes las máquinas ya nos ganaron al Go, al ajedrez o al Jeopardy!, el póker es diferente

15 de enero de 2017 19:53 h

DeepBlue ganó a Gary Kasparov en 1997 terminando tres partidas en tablas. De los seis juegos, la máquina técnicamente ganó dos, empató tres y perdió uno. Con eso mejoró la actuación del ruso, que sucumbió ante el ordenador en dos partidas. Pero eso ocurrió en el siglo XX y la inteligencia artificial aún era un concepto de ciencia ficción para la mayoría. Desde este miércoles, una IA desarrollada por los investigadores de la Universidad Carnegie Mellon en Pensilvania jugará contra cuatro profesionales de póker que cobrarán 200.000 dólares si ganan.

El último precedente del hombre contra la máquina lo tenemos en AlphaGo, una IA desarrollada por DeepMind que en marzo del año pasado ganó a Lee Se-dol, el mejor jugador de Go de la última década. En el caso de DeepBlue, la máquina de IBM tenía más memoria y era más rápida pensando que Kasparov, así que “solo” tuvo que calcular las mejores jugadas para ganar. Con AlphaGo y Libratus (la IA del póker) es distinto, porque en primer lugar no son juegos matemáticos, sino intuitivos; y en segundo lugar (y esto es algo que solo afecta al juego de cartas) un buen jugador de póker se basa en la experiencia y en la observación para ganar a su rival, cosa que una simple máquina no puede hacer. Pero una inteligencia artificial sí: como Watson, que ganó al Jeopardy! en 2009.

El juego empezó el miércoles. La partida transcurre en el Rivers Casino de Pittsburgh (Pensilvania) y en este link pueden seguirse las hazañas de Jason Les, Dong Kim, Daniel McAulay y Jimmy Chou contra Libratus. Se sientan a las 17 horas y acaban a la una de la mañana (hora española): en total, ocho horas diarias que terminarán el 30 de enero, después de jugar 120.000 manos. Quién sabe si con 50.000 dólares más en el bolsillo de cada uno o la sensación de pertenecer al club de Se-dol, Kasparov y el resto de los caídos ante la máquina.

Los pros han sido emparejados para jugar partidas duplicadas y así evitar en la medida de lo posible el factor suerte. El jugador A juega con las mismas cartas con las que juega el ordenador contra el jugador B, y viceversa. Además, cada pareja jugará en sitios diferentes del casino para estar aislados físicamente y no tener comunicación entre sí durante las horas que dure el evento. Algunos días jugarán contra Libratus en dos mesas simultáneas para agilizar la partida. En total, serán 400 manos por jornada.

Juego de información y posiciones

El origen del póker no está claro. Hay teorías que señalan a los persas y a los chinos como exportadores del juego a Occidente, aunque en Europa ya se jugaba a juegos parecidos desde el siglo XVI. Su pronunciación recuerda a la palabra francesa poque, que a su vez proviene del alemán pochen, que significa golpear, pero no hay datos objetivos de que fuera inventado en uno o en otro lugar.

Aunque hay varios modos, la variante más popular tanto en los casinos del mundo como en Internet es el Hold'Em sin límite, al que también se le llama póker descubierto. Cada jugador recibe dos cartas en su mano que solo él conoce y, tras cuatro rondas de apuestas, tiene que intentar hacer jugada con las cinco que se muestran sobre la mesa y que son comunes a todos los jugadores (por eso es descubierto).

Durante una partida existen tres movimientos: subir la apuesta, pagarla y retirarse. Se dice que el póker es un juego de información incompleta porque podemos llegar a saber hasta siete cartas de la baraja (las dos de nuestra mano y las cinco de la mesa), pero no así el resto. Cuanto más atrás estemos sentados en la mesa, mejor podremos intuir qué cartas llevan nuestros rivales, sus apuestas (si nos farolea mucho, si es muy agresivo, si es pasivo...), sus patrones de juego o sus movimientos.

Las decisiones se toman en base a la información de la que disponemos. Por eso la mayoría de manos se ganan desde las últimas posiciones y no desde las primeras: cuanto más acción vemos delante, más sabemos estando atrás. El póker no se parece al ajedrez porque no puede calcularse y no es como el Go porque no se fundamenta en trazar una estrategia, sino en tomar la mejor decisión posible en una situación determinada. Ninguna situación se parece a la anterior, ya que dependerá de los rivales y de las tres primeras cartas comunes que se tiran sobre la mesa (el flop). Rizando más el rizo, en el juego existen hasta 2.598.960 combinaciones de cartas posibles y 1.326 manos iniciales diferentes.

Más habilidad que suerte

Los cuatro pros jugarán partidas de uno contra uno con Libratus. Según los investigadores del proyecto que lidera el profesor de ciencia computacional Tuomas Sandholm, este es el mejor pokerbot hecho jamás. Libratus ya tuvo un hermano pequeño, Claudico, que jugó 80.000 manos contra otros cuatro pros en abril del 2015. De aquel equipo repiten Dong Kim y Jason Les. Este último compara a la IA con “un jugador que ha estado practicando el juego solo durante años en la Antártida y ahora empieza a jugar contra otros”.

Han sido los propios jugadores quienes han pedido subir el número total de manos a jugar, de 80.000 a 120.000. Los que se dedican a esto aseguran que, para que la suerte se convierta en un factor simbólico, es necesario fijarse a partir de las 100.000 manos en adelante. En otras palabras: si los números de un jugador en esa cantidad de jugadas son positivos, probablemente sea un jugador ganador. En una partida, hasta el mejor del mundo de póker puede perder contra el peor. En diez, también. Incluso en 100. Pero en el largo plazo el bueno se impondrá sobre el malo, dejando el factor suerte a un lado.

En aquella ocasión, Claudico fue derrotado por los humanos. Su movimiento favorito era pagar por ver flops, lo que permitía a los pros explotar ese defecto. “Libratus hará todo tipo de movimientos raros, algo que ya sabemos”, dice Sandholm. Los investigadores de la Carnegie Mellon, además, aseguran que no han incluido estrategia alguna en el código de la IA, sino que han “escrito el algoritmo que calcula la estrategia”. Libratus, que en latín significa equilibrado, es según los científicos “no solo más rápido, sino mejor respondiendo” que Claudico.

Buscando al jugador perfecto

El profesor Sandholm ya diseñó en febrero del año pasado otra IA junto con Noam Brown, su alumno estrella con el que también ha programada a Libratus. Aunque no llegó a enfrentarse a humanos, Baby Tartanian8 ganó a todas las máquinas que se presentaron a la Annual Computer Poker Competition (Competición Anual de Póker de Ordenadores) de Phoenix.

La búsqueda del jugador perfecto de póker continúa. No es algo nuevo ni algo que solo estén desarrollando en Pittsburgh. Hace 20 años, un grupo de investigadores de la Universidad de Alberta en Minnesota creó a Loki, uno de los primeros pokerbots que funcionaba a un nivel muy básico. Fueron ellos los que, en 2008, sorprendieron al mundo con Cepheus. Dijeron que estaba diseñado para jugar de manera perfecta al póker, o dicho de otra forma, el bot era “tan bueno” que no perdía dinero. Pero el juego no trata de exactamente de eso, sino de lo contrario: obtener el máximo beneficio posible en cada jugada. Así que técnicamente, el bot dejaba de ganar dinero en muchas más ocasiones de las que los investigadores desearían.

El 6 de enero, un profesor de la universidad estadounidense en colaboración con varios colegas checos presentó en ArXiv, un repositorio abierto de artículos científicos, un trabajo titulado DeepStack: Expert-Level Artificial Intelligence in No-Limit Poker (DeepStack: la IA de nivel experto en el póker sin límite). Aunque aún no ha sido aprobado de forma oficial, presentan a la máquina como la primera capaz de derrotar a jugadores profesionales de póker con cierta comodidad. DeepStack ha jugado cerca de 45.000 manos contra 33 pros de la IFP (Federación Internacional de Póker), y les ha ganado “con un amplio margen”, según los investigadores. Claro que esto no quiere decir que haya jugado con los mejores, ya que ni todos los pros están federados ni todos los federados son necesariamente profesionales.

Decía Stu Ungar, uno de los mejores jugadores de póker de todos los tiempos, que algún día alguien sería mejor que él jugando al Hold'em sin límite. Aún es pronto para saber si ese día ha llegado pero, a diferencia de AlphaGo, que solo sabía jugar a su juego, la IA del Carnegie Mellon puede aplicarse a “diferentes situaciones en las que no contemos con toda la información, como los negocios, la estrategia militar, la ciberseguridad e incluso la medicina”. El póker no es un juego de matemáticas, sino de habilidad. No hay que contar cartas para ganar ni elaborar una estrategia meticulosa. La mejor decisión siempre será la que a la larga nos reporte mayor beneficio. Y una máquina no tiene ni idea de qué hora es, pero sí de cuándo está ganando a un humano.