AlphaGo Zero apprend de lui-même, toujours plus vite

Écrit par Guillaume

Publié le : {{ dayjs(1509120025*1000).local().format("L").toString()}}

Il y a quelques mois, Google se faisait un petit coup de pub en étant le premier à proposer un moteur d’intelligence artificielle capable de battre les meilleurs joueurs de go de la planète. AlphaGo Master – c’est son nom – n’était toutefois qu’une première étape. Aujourd’hui, AlphaGo Zero va beaucoup plus loin. Capable d’apprendre seule, l’intelligence artificielle s’est entraînée durant trois jours… avant de battre sur le score sans appel de 100 parties à zéro AlphaGo Lee, la toute première mouture du programme. Des progrès impressionnants qui ne semblent pas près de s’arrêter.

En mars 2016, Google signait un premier exploit. Si cela faisait un moment que les intelligences artificielles étaient capables de battre n’importe quel grand maître aux échecs, le jeu de go semblait encore hors de portée. Pourtant, AlphaGo Lee avait créé la surprise en faisant tomber le Sud-Coréen Lee Sedol considéré par la plupart des spécialistes comme le meilleur joueur de la planète. Plus gênant pour nous autres humains, le score était assez net : 4 victoires à 1 pour AlphaGo Lee. Quelques mois plus tard, la seconde mouture du programme, AlphaGo Master faisait taire les mauvaises langues qui disaient que Lee Sedol n’était pas numéro un aux classements internationaux de go. AlphaGo Master battait effectivement Ke Jie sur le score sans appel de 3 victoires à 0. La cause était entendue.

Pour les ingénieurs de chez DeepMind, structure de recherche acquise par Google en 2014, l’étape suivante consistait à laisser leur intelligence artificielle apprendre seule. Les précédentes versions de leur programme avaient été contraintes d’enregistrer d’innombrables parties jouées par des humains afin de « comprendre » tous les raffinements du jeu de go. Avec AlphaGo Zero, le processus est complètement différent : l’IA n’a appris que les règles du jeu et le principe de pose des pierres. pour le reste, la partie a joué contre elle-même, un peu comme le WOPR du film Wargames lorsqu’il fait des parties de morpion.

Le résultat a de quoi impressionner, AlphaGo Zero est parvenu, en l’espace de seulement trois jours d’entraînement intensif, a battre AlphaGo Lee… et ce, de manière absolument systématique puisque sur 100 parties, AlphaGo Zero a obtenu 100 victoires. L’entraînement de l’intelligence artificielle s’est ensuite poursuivi durant encore 37 jours et c’est AlphaGo Master qui est tombé. Interrogé par nos confrères du Monde, Tristan Cazenave, professeur à l’université Paris-Dauphine, spécialiste de la programmation des jeux au laboratoire Lamsade, explique, « Cette technique est plus puissante que les précédentes versions d’AlphaGo car elle n’est plus contrainte par les limites de la connaissance humaine, expliquent les chercheurs. A la place, elle est capable d’apprendre à partir de zéro avec le meilleur joueur du monde : AlphaGo lui-même. »

Les progrès en matière d’intelligence artificielle soulèvent aujourd’hui de nombreuses questions. Il y a d’un côté ceux qui estiment que « les IA pourraient mettre fin à l’humanité » et, de l’autre, ceux qui y voient une source de progrès. Nul doute en tout cas que l’avenir se dessine en ce moment même, sous nos yeux.