Suis nous sur
CIFAR header logo
en
menu_mobile_logo_alt
  • NOTRE IMPACT
    • Pourquoi le CIFAR?
    • Pôles d’impact
    • Nouvelles
    • Stratégie du CIFAR
    • Favoriser la résilience de la Terre
    • Impact IA
    • Impact des dons
    • CIFAR 40
  • Activités
    • Événements publics
    • Réunions sur invitation seulement
  • Programmes
    • Programmes de recherche
    • Stratégie pancanadienne en matière d’IA
    • Initiatives à l’intention de la prochaine génération
  • Communauté
    • Membres et spécialiste-conseils
    • Chercheurs mondiaux CIFAR-Azrieli
    • Chaires en IA Canada-CIFAR
    • Direction – Stratégie en matière d’IA
    • Membres du réseau de solutions
    • Direction – CIFAR
    • Répertoire du personnel
  • Soutenez-nous
  • À propos
    • Notre histoire
    • Prix
    • Partenariats
    • Publications et rapports
    • Carrières
    • Équité, diversité et inclusion
    • Déclaration du CIFAR sur la neutralité institutionnelle
    • Sécurité de la recherche
  • en
Nouvelles

Surpasser les humains à leur propre jeu

Par: Krista Davidson
9 Déc, 2019
09 décembre 2019
Csaba Szepesvári I

Comment peut-on prévoir le coup gagnant dans un jeu qui comporte plus de configurations possibles que le nombre d’atomes dans l’univers ?

Csaba Szepesvári est l’un des cerveaux derrière un algorithme qui a aidé un programme informatique à accomplir la tâche mathématiquement difficile de gagner contre le joueur professionnel Lee Sedol au go, le plus ancien jeu de stratégie connu.

Csaba compte parmi les prestigieux chercheurs qui ont été nommés titulaires d’une chaire en IA Canada-CIFAR, un programme clé de la Stratégie pancanadienne en matière d’IA du CIFAR. Ce programme fournit des fonds de recherche aux meilleurs chercheurs en IA du Canada. Ainsi, Csaba Szepesvári pourra poursuivre ses recherches avancées dans le domaine de l’apprentissage par renforcement en tant que boursier de l’Alberta Machine Intelligence Institute (Amii), de professeur au département d’informatique de l’Université de l’Alberta et de chercheur scientifique principal à DeepMind.

Utiliser l’IA pour déjouer les humains au jeu de go

Les recherches de Csaba ont influencé le développement de deux techniques d’IA populaires : la recherche arborescente Monte-Carlo et les algorithmes de bandit. Son travail a permis d’aider les ordinateurs à faire mieux que les joueurs humains professionnels au jeu de go, un jeu de plateau semblable aux échecs qui exige une longue séquence d’étapes stratégiques entre adversaires.

La recherche arborescente Monte-Carlo, terme créé en 2006 par l’un de ses collègues, Rémi Coulom, est un algorithme qui utilise une traversée randomisée des coups possibles afin de prédire les coups gagnants.

La même année, Csaba et Levente Kocsis ont mis au point un algorithme qui raffinait l’algorithme initial en ajustant les prédictions de valeur à l’aide de limites de confiance supérieure dans le but d’éliminer l’incohérence de la version initiale de l’algorithme. Une variante de cette modification s’est révélée essentielle au succès des programmes informatiques AlphaGo et AlphaZero de Google DeepMind, qui l’emportent aujourd’hui contre des joueurs professionnels humains. AlphaGo est d’ailleurs le premier programme informatique à avoir réalisé cet exploit en octobre 2015.

« Cette réalisation de DeepMind a pris le monde entier par surprise, même les experts dans le domaine. Il s’agit d’une brillante démonstration de la puissance du mariage des algorithmes d’apprentissage et de la recherche. Je suis très heureux d’avoir été témoin de ce jalon important », a déclaré Csaba.

« J’ai toujours été intéressé par l’intelligence et la création d’agents intelligents. J’ai trouvé que le cadre fourni par l’apprentissage par renforcement était parfaitement adapté à la modélisation de l’intelligence »

L’algorithme de recherche arborescente Monte-Carlo utilise la randomisation pour les problèmes déterministes qui sont difficiles ou impossibles à résoudre au moyen d’autres approches. Il s’appuie sur l’approche exploration-exploitation : l’exploration des mouvements ou des étapes possibles, et l’exploitation du chemin offrant la plus grande récompense. Le plus bel exemple de dilemme exploration-exploitation est celui des problèmes de bandit, un domaine qui a suscité l’intérêt de Csaba et enrichi son expertise.

Ses contributions à la planification Monte-Carlo fondée sur un algorithme de bandit se sont traduites par l’obtention en 2016 du prix Test of Time, partagé avec son collègue Levente Kocsis, lors de la conférence internationale ECML/PKDD, la principale conférence européenne sur l’apprentissage automatique et l’exploration de données.

Un talent de calibre mondial demeure au Canada

Csaba a été initié à l’apprentissage par renforcement alors qu’il était doctorant. « J’ai toujours été intéressé par l’intelligence et la création d’agents intelligents. J’ai trouvé que le cadre fourni par l’apprentissage par renforcement était parfaitement adapté à la modélisation de l’intelligence », dit-il.

Originaire de Hongrie, Csaba Szepesvári a terminé son doctorat à l’Université Attila József (Hongrie) et est au service de l’Université de l’Alberta depuis 2006.

« Il n’est pas exagéré de dire que le Canada est un chef de file en matière d’apprentissage par renforcement. L’apprentissage automatique peut contribuer à de nombreux changements positifs dans le monde, mais nous avons de meilleures chances d’y parvenir si nous relevons les défis liés à l’apprentissage par renforcement. »

Il est considéré par plusieurs comme un éminent expert en matière de convergence des algorithmes d’apprentissage par renforcement, de la recherche arborescente Monte-Carlo et de l’exploration dans les problèmes de bandit. Ses réalisations dans ce domaine l’ont amené à se joindre à DeepMind en 2017, où il dirige l’équipe Fondations. Auteur de plus de 140 communications de conférences, de 40 publications dans des revues et de 3 livres, il a fait considérablement progresser le domaine de l’apprentissage par renforcement.

Csaba est l’auteur de trois ouvrages. Performance of Nonlinear Approximate Adaptive Control (publié par Wiley en 2003) traite des garanties théoriques relatives à la performance des conceptions de commande adaptative. Algorithms for Reinforcement Learning (publié par Morgan & Claypool en 2010) aborde les questions théoriques et algorithmiques fondamentales de l’apprentissage par renforcement. Il est considéré comme une lecture obligatoire pour les chercheurs débutants dans le domaine. Un troisième livre, Bandit Algorithms, devrait paraître au début de 2020. Coécrit avec Tor Lattimore, il sera publié par Cambridge University Press.

Sa nomination comme titulaire de chaire en IA Canada-CIFAR signifie qu’il continuera à mener des recherches novatrices au Canada.

« Il n’est pas exagéré de dire que le Canada est un chef de file en matière d’apprentissage par renforcement. L’apprentissage automatique peut contribuer à de nombreux changements positifs dans le monde, mais nous avons de meilleures chances d’y parvenir si nous relevons les défis liés à l’apprentissage par renforcement. Il s’agit d’apprendre de la rétroaction lors d’une interaction avec un environnement », indique Csaba.

 

« On note plusieurs progrès passionnants dans le domaine de l’apprentissage par renforcement. Le moment est bien choisi de repousser les limites avec de nouvelles avancées. »


Le programme des chaires en IA Canada-CIFAR constitue le programme clé de la Stratégie pancanadienne en matière d’IA du CIFAR. Au total, 86,5 millions de dollars sur cinq ans ont été attribués à ce programme pour attirer et maintenir en poste des chercheurs en IA de renommée internationale au Canada. Les titulaires d’une chaire en IA Canada-CIFAR annoncés à ce jour réalisent des recherches dans un vaste éventail de domaines, notamment : apprentissage automatique au service de la santé, véhicules autonomes, réseaux neuronaux artificiels et changements climatiques.

  • Suivez-nous

Articles liés

  • Renforcer l’écosystème des talents en IA au Canada
    16 avril 2025
  • Des titulaires de chaires en IA Canada-CIFAR se sont réunis à Banff à l’occasion de la rencontre annuelle d’IACan
    20 juin 2024
  • Comment le cerveau donne-t-il lieu à l’esprit?
    13 juin 2024
  • Élucider la causalité
    13 juin 2024

Soutenez-nous

L’Institut canadien de recherches avancées (CIFAR) est une organisation de recherche d’influence mondiale fièrement basée au Canada. Nous mobilisons les plus brillants personnes du monde, dans toutes les disciplines et à tous les stades de carrière, pour faire progresser les connaissances transformatrices et résoudre ensemble les plus grands problèmes de l’humanité. Nous recevons l’appui des gouvernements du Canada, de l’Alberta et du Québec, ainsi que de fondations, de particuliers, d’entreprises et d’organisations partenaires du Canada et du monde entier.

Dons
CIFAR footer logo

Centre MaRS, tour Ouest
661, avenue University, bureau 505
Toronto (Ontario) M5G 1M1 Canada

Contactez-nous
Médias
Carrières
Politiques sur l’accessibilité
Bienfaiteurs
Rapports financiers
Abonnez-vous

  • © Copyright 2025 CIFAR. Tous les droits sont réservés.
  • Numéro d’enregistrement d’organisme de bienfaisance : 11921 9251 RR0001
  • Conditions d'utilisation
  • Politique de confidentialité
  • Plan du Site

Souscrire

Rejoignez notre communauté! Restez à jour avec nos nouvelles, événements, conférences et ateliers et dernières découvertes à travers le monde.

Fields marked with an * are required

I prefer to register in English (click here)


S'abonner aux bulletins d'information du CIFAR: *
    Social Security#
subscribe form

Vous pouvez vous désabonner de ces communications à tout moment. Consultez notrepolitique de confidentialité.

 À titre d’abonné, vous recevrez aussi un exemplaire numérique de REACH, notre revue annuelle qui met en lumière nos chercheurs et leurs découvertes au moyen d’articles de fond, d’entrevues et d’illustrations.


Si vous souhaitez recevoir une édition papier de la revue REACH, veuillez fournir les renseignements supplémentaires suivants :


Ce site Web enregistre des témoins sur votre ordinateur. Ces témoins sont utilisés pour recueillir des renseignements sur votre interaction avec notre site Web et nous permettre de vous reconnaître. Nous utilisons ces renseignements afin d'améliorer et de personnaliser votre expérience de navigation et à des fins d'analyse et de mesures concernant nos visiteurs, tant sur ce site Web que sur d'autres médias. Pour en savoir plus sur les témoins que nous utilisons, consultez notre politique deconfidentialité.
Accepter En savoir plus

Notifications