Par: Krista Davidson
9 Déc, 2019
Comment peut-on prévoir le coup gagnant dans un jeu qui comporte plus de configurations possibles que le nombre d’atomes dans l’univers ?
Csaba Szepesvári est l’un des cerveaux derrière un algorithme qui a aidé un programme informatique à accomplir la tâche mathématiquement difficile de gagner contre le joueur professionnel Lee Sedol au go, le plus ancien jeu de stratégie connu.
Csaba compte parmi les prestigieux chercheurs qui ont été nommés titulaires d’une chaire en IA Canada-CIFAR, un programme clé de la Stratégie pancanadienne en matière d’IA du CIFAR. Ce programme fournit des fonds de recherche aux meilleurs chercheurs en IA du Canada. Ainsi, Csaba Szepesvári pourra poursuivre ses recherches avancées dans le domaine de l’apprentissage par renforcement en tant que boursier de l’Alberta Machine Intelligence Institute (Amii), de professeur au département d’informatique de l’Université de l’Alberta et de chercheur scientifique principal à DeepMind.
Les recherches de Csaba ont influencé le développement de deux techniques d’IA populaires : la recherche arborescente Monte-Carlo et les algorithmes de bandit. Son travail a permis d’aider les ordinateurs à faire mieux que les joueurs humains professionnels au jeu de go, un jeu de plateau semblable aux échecs qui exige une longue séquence d’étapes stratégiques entre adversaires.
La recherche arborescente Monte-Carlo, terme créé en 2006 par l’un de ses collègues, Rémi Coulom, est un algorithme qui utilise une traversée randomisée des coups possibles afin de prédire les coups gagnants.
La même année, Csaba et Levente Kocsis ont mis au point un algorithme qui raffinait l’algorithme initial en ajustant les prédictions de valeur à l’aide de limites de confiance supérieure dans le but d’éliminer l’incohérence de la version initiale de l’algorithme. Une variante de cette modification s’est révélée essentielle au succès des programmes informatiques AlphaGo et AlphaZero de Google DeepMind, qui l’emportent aujourd’hui contre des joueurs professionnels humains. AlphaGo est d’ailleurs le premier programme informatique à avoir réalisé cet exploit en octobre 2015.
« Cette réalisation de DeepMind a pris le monde entier par surprise, même les experts dans le domaine. Il s’agit d’une brillante démonstration de la puissance du mariage des algorithmes d’apprentissage et de la recherche. Je suis très heureux d’avoir été témoin de ce jalon important », a déclaré Csaba.
« J’ai toujours été intéressé par l’intelligence et la création d’agents intelligents. J’ai trouvé que le cadre fourni par l’apprentissage par renforcement était parfaitement adapté à la modélisation de l’intelligence »
L’algorithme de recherche arborescente Monte-Carlo utilise la randomisation pour les problèmes déterministes qui sont difficiles ou impossibles à résoudre au moyen d’autres approches. Il s’appuie sur l’approche exploration-exploitation : l’exploration des mouvements ou des étapes possibles, et l’exploitation du chemin offrant la plus grande récompense. Le plus bel exemple de dilemme exploration-exploitation est celui des problèmes de bandit, un domaine qui a suscité l’intérêt de Csaba et enrichi son expertise.
Ses contributions à la planification Monte-Carlo fondée sur un algorithme de bandit se sont traduites par l’obtention en 2016 du prix Test of Time, partagé avec son collègue Levente Kocsis, lors de la conférence internationale ECML/PKDD, la principale conférence européenne sur l’apprentissage automatique et l’exploration de données.
Csaba a été initié à l’apprentissage par renforcement alors qu’il était doctorant. « J’ai toujours été intéressé par l’intelligence et la création d’agents intelligents. J’ai trouvé que le cadre fourni par l’apprentissage par renforcement était parfaitement adapté à la modélisation de l’intelligence », dit-il.
Originaire de Hongrie, Csaba Szepesvári a terminé son doctorat à l’Université Attila József (Hongrie) et est au service de l’Université de l’Alberta depuis 2006.
« Il n’est pas exagéré de dire que le Canada est un chef de file en matière d’apprentissage par renforcement. L’apprentissage automatique peut contribuer à de nombreux changements positifs dans le monde, mais nous avons de meilleures chances d’y parvenir si nous relevons les défis liés à l’apprentissage par renforcement. »
Il est considéré par plusieurs comme un éminent expert en matière de convergence des algorithmes d’apprentissage par renforcement, de la recherche arborescente Monte-Carlo et de l’exploration dans les problèmes de bandit. Ses réalisations dans ce domaine l’ont amené à se joindre à DeepMind en 2017, où il dirige l’équipe Fondations. Auteur de plus de 140 communications de conférences, de 40 publications dans des revues et de 3 livres, il a fait considérablement progresser le domaine de l’apprentissage par renforcement.
Csaba est l’auteur de trois ouvrages. Performance of Nonlinear Approximate Adaptive Control (publié par Wiley en 2003) traite des garanties théoriques relatives à la performance des conceptions de commande adaptative. Algorithms for Reinforcement Learning (publié par Morgan & Claypool en 2010) aborde les questions théoriques et algorithmiques fondamentales de l’apprentissage par renforcement. Il est considéré comme une lecture obligatoire pour les chercheurs débutants dans le domaine. Un troisième livre, Bandit Algorithms, devrait paraître au début de 2020. Coécrit avec Tor Lattimore, il sera publié par Cambridge University Press.
Sa nomination comme titulaire de chaire en IA Canada-CIFAR signifie qu’il continuera à mener des recherches novatrices au Canada.
« Il n’est pas exagéré de dire que le Canada est un chef de file en matière d’apprentissage par renforcement. L’apprentissage automatique peut contribuer à de nombreux changements positifs dans le monde, mais nous avons de meilleures chances d’y parvenir si nous relevons les défis liés à l’apprentissage par renforcement. Il s’agit d’apprendre de la rétroaction lors d’une interaction avec un environnement », indique Csaba.
« On note plusieurs progrès passionnants dans le domaine de l’apprentissage par renforcement. Le moment est bien choisi de repousser les limites avec de nouvelles avancées. »
Le programme des chaires en IA Canada-CIFAR constitue le programme clé de la Stratégie pancanadienne en matière d’IA du CIFAR. Au total, 86,5 millions de dollars sur cinq ans ont été attribués à ce programme pour attirer et maintenir en poste des chercheurs en IA de renommée internationale au Canada. Les titulaires d’une chaire en IA Canada-CIFAR annoncés à ce jour réalisent des recherches dans un vaste éventail de domaines, notamment : apprentissage automatique au service de la santé, véhicules autonomes, réseaux neuronaux artificiels et changements climatiques.