La Inteligencia Artificial va rápido: un solo algoritmo aprende a ganar en tres juegos de estrategia diferentes
Nadie sabe qué oscuros razonamientos mueven a AlphaZero, pero la cuestión es que funcionan. Y la máquina gana. Lo hace porque nadie la entrenó, porque ningún humano usó su conocimiento previo a la hora de programarla para jugar al ajedrez, al shogi (su variante japonesa) y al go. DeepMind (empresa de Google) le dio las reglas de cada juego, una palmadita en la espalda y después le dijo: “Juega”.
AlphaZero solo gana. Y aunque también pierde partidas, a la larga siempre es mejor que sus tres colegas máquinas. Ya es el mejor jugador de ajedrez, de shogi y de go de todos los tiempos. Un tres en uno. Es trascendente la idea de que solo utilice un algoritmo, un mismo conjunto de reglas que aplica indistintamente según se trate de un juego u otro. Hasta la semana pasada, cada disciplina tenía una máquina todopoderosa que, por descontado, pelaba a los humanos jugando.
Stockfish, Elmo y AlphaGo eran los mejores jugando al ajedrez, al shogi y al go, respectivamente. Pero AlphaZero los ha reducido a meras anécdotas. Muy lejos queda ya en el tiempo (aunque solo hayan pasado algo menos de tres años) la sonada victoria de AlphaGo (también creación de DeepMind) contra Lee Se-dol. Aquel día de marzo, muchos comprobaron por primera vez que la Inteligencia Artificial (IA) no era un mero concepto de ciencia ficción, sino algo real, tangible, incluso peligroso. Una máquina había ganado al campeón mundial de go de la última década sin despeinarse.
La singularidad tecnológica es eso que pasa entre que AlphaGo gana a Lee Se-dol y AlphaZero humilla a la primera. El nombre no fue elegido en vano: es zero porque aprendió a jugar desde la nada, tan solo conociendo las reglas de cada disciplina. Y visto lo visto es lo mejor: como ya pasó con Libratus, otra IA que en enero del año pasado peló a cuatro jugadores de póker profesionales, no contaminarla con conocimiento humano fue el factor determinante para que les ganara.
Una máquina 100 veces mejor que el resto
Stockfish, Elmo y AlphaGo fueron entrenadas con jugadas de profesionales. Cada IA consiguió ser la mejor en lo suyo gracias a una base humana que ahora ha resultado inane. Estaban infectadas, por decirlo de alguna forma, con los razonamientos y las estrategias de los cerebros mortales, que les hacían procesar la información de una determinada manera, estéril frente a los cálculos de una máquina 100% máquina.
AlphaZero ha aprendido a ganar jugando contra sí misma. DeepMind la puso a funcionar en diciembre del 2017 y un año después han publicado los resultados en la revista Science. Para el ajedrez, la IA entrenó durante nueve horas y fue capaz de ganar a Stockfish en cuatro. Con el shogi estuvo 12 horas y ganó a Elmo en dos. Y para el go, el más difícil de los tres, se preparó durante 13 días y ganó a AlphaGo en 30 horas. El reloj del apocalipsis acercándose un poco más a la medianoche.
Nadie sabe por qué AlphaZero hace lo que hace. En DeepMind alucinan cuando ven cómo la IA, al poco de empezar una partida, mueve el rey al centro. “[Los movimientos] van en contra de la teoría del shogi y, desde una perspectiva humana, parecen poner a AlphaZero en una posición peligrosa. Pero increíblemente permanece con el control del tablero. Su estilo de juego único nos muestra que hay nuevas posibilidades para el juego”, dice Yoshiharu Habu, uno de los mejores jugadores de shogi de todos los tiempos.
AlphaZero también es más rápida que sus colegas: tomaba decisiones en menos tiempo que el resto de IAs, incluso cuando los investigadores priorizaban a las otras frente a esta, dándoles más tiempo para pensar. Por poner un ejemplo, mientras que la IA del ajedrez, Stockfish, se debatía entre 60 millones de decisiones, AlphaZero lo hacía entre 60.000. Era 100 veces mejor.
No sirve para nada más... de momento
Garry Kasparov se ha deshecho en elogios hacia AlphaZero: “¡No puedo disimular mi satisfacción por que juegue con un estilo muy dinámico, muy parecido al mío!”. La cuestión aquí es que la máquina crea sus propias estrategias, imposibles de descifrar para un humano. Lo que parece no tener sentido, para AlphaZero es una estrategia ganadora.
Es curioso cómo, al principio, mientras AlphaZero se entrenaba a sí misma, sí que utilizó estrategias y motivos humanos comunes “tales como aperturas, la protección del rey y la estructura de los peones”, según DeepMind. Cuando cogió soltura “desarrolló sus propias intuiciones y estrategias añadiendo un gran conjunto nuevo de ideas emocionantes y novedosas que aumentan siglos de pensamiento sobre la estrategia de ajedrez”, continúan. Desechaba el valor de las piezas, sacrificaba otras, pero al final, ganaba.
Si hay que ponerle un pero a AlphaZero es que no sirve para nada más (de momento). No pongan a esta máquina a hacer la lista compra ni a calcular la tasa de retorno de una inversión: no resultará. Estas máquinas nos ganan jugando a juegos mentales y de estrategia: calculan más, mejor y más rápido.