Suis nous sur
Richard S. Sutton-BW_F

Richard S. Sutton

La nomination

  • Titulaire de chaire en IA Canada-CIFAR
  • Stratégie pancanadienne en matière d’IA

Connect

Website

À Propos

Richard S. Sutton est un pionnier et demeure un leader de l’apprentissage par renforcement, une approche de l’intelligence artificielle et naturelle qui met l’accent sur l’apprentissage et la planification à partir d’un échantillon d’expériences. Il cherche surtout à comprendre ce que signifient être intelligent, prévoir et influencer le monde, apprendre, percevoir, agir et penser. Il tente d’identifier les principes généraux de calcul qui sous-tendent ce que nous entendons par intelligence et comportement orienté vers un but. Au cours de sa carrière, il a réalisé d’importantes contributions dans ce domaine, notamment la théorie d’apprentissage par différence temporelle, la classe d’algorithmes acteur-critique (gradient de politique), l’architecture Dyna (intégration de l’apprentissage, de la planification et de la réaction), l’architecture Horde ainsi que les algorithmes du gradient et emphatiques (apprentissage par différence temporelle). Il cherche actuellement à étendre les concepts de l’apprentissage par renforcement à une approche empirique de la représentation des connaissances basée sur la prédiction. 

Richard Sutton est conseiller scientifique en chef de l’Amii, chercheur scientifique émérite de DeepMind et professeur au département d’informatique de l’Université de l’Alberta.

Prix

  • Boursier principal, programme Apprentissage automatique, apprentissage biologique du CIFAR, 2018
  • Prix d’excellence pour l’ensemble de ses réalisations et membre de l’Association pour l’intelligence artificielle au Canada, 2018
  • Membre de la Société royale du Canada, 2017
  • Boursier, Association for the Advancement of Artificial Intelligence, 2007-2010

Publications Pertinentes

  • R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction. Cambridge MA, MIT Press, 1998.
  • R. S. Sutton. « Learning to predict by the methods of temporal differences », Machine Learning, 3:9-44, 1988.
  • R. S. Sutton, D. McAllester, S. Singh, Y. Mansour. « Policy Gradient Methods for Reinforcement Learning with Function Approximation », Advances in Neural Information Processing Systems 12 (NeurIPS 1999).
  • R. S. Sutton, A. G. Barto. « Time-derivative models of pavlovian reinforcement », Learning and Computational Neuroscience: Foundations of Adaptive Networks, MIT Press, M. Gabriel et J. Moore éditeurs, p. 497-537, 1990.
  • R. S. Sutton, D. Precup, S. Singh. « Between MDPs and semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning », Artificial Intelligence, 112:181-211, 1999.

Soutenez-nous

Le CIFAR est un organisme de bienfaisance enregistré qui reçoit le soutien des gouvernements du Canada, de l’Ontario, de l’Alberta et du Québec, ainsi que de fondations, de donateurs individuels, d’entreprises et de partenaires canadiens et internationaux.

Centre MaRS, tour Ouest
661, avenue University, bureau 505
Toronto (Ontario) M5G 1M1 Canada