Par: Krista Davidson
5 Août, 2020
Chelsea Finn est une brillante chercheuse en IA qui définit le nouveau domaine de l’apprentissage par méta-renforcement et par renforcement multitâche. Cette boursière du programme Apprentissage automatique, apprentissage biologique du CIFAR est également chercheuse au sein de l’équipe Google Brain. En plus de diriger son propre laboratoire de recherche, IRIS, elle enseigne au premier cycle et aux cycles supérieurs en tant que professeure adjointe à l’Université de Stanford. C’est elle qui a conçu le plan de cours sur l’apprentissage par méta-renforcement, un nouveau sous-domaine de l’apprentissage automatique. Chelsea Finn se joint à la prestigieuse brochette de conférenciers de l’École d’été sur l’apprentissage profond et l’apprentissage par renforcement (APAR). Elle nous parle de ce qui l’inspire dans la recherche en IA et de la formation de la prochaine génération d’experts, ainsi que de la façon dont la pandémie de COVID-19 lui ouvre de nouvelles perspectives de recherche.
Quel est votre domaine de recherche actuel ?
C. F. : Mon travail se situe à la croisée de l’apprentissage automatique et de la robotique. Je conçois des algorithmes d’apprentissage automatique de base en m’inspirant des difficultés que pose le déploiement de systèmes dans le monde réel. Un problème d’ordre général auquel je m’intéresse est l’élaboration de systèmes d’apprentissage automatique capables d’effectuer simultanément plusieurs tâches. Les robots peuvent exceller dans la réalisation d’une seule tâche, mais pour être utiles et gérer des situations concrètes, ils doivent pouvoir s’adapter à différents contextes et effectuer une multitude de tâches. Autrement dit, les robots à usage général doivent avoir une connaissance plus vaste du monde pour avoir une utilité concrète. Le défi est énorme, car nous devons créer des systèmes capables de généraliser et de gérer différents types d’environnements. Une grande part de mon travail récent vise à introduire un robot dans un nouvel environnement et à lui enseigner rapidement de nouvelles tâches à partir d’une petite quantité de données.
Quels sont les défis posés par l’apprentissage par renforcement ?
C. F. : L’un des principaux défis de l’apprentissage par renforcement est le fonctionnement concret de ces algorithmes. En théorie, les algorithmes apprennent beaucoup mieux à partir de zéro, mais ils le font de manière très inefficace. Mes travaux visent à développer une méthode pour améliorer la façon dont les robots apprennent en tirant parti de leurs expériences passées. Si nous franchissons ce jalon, ils pourront peut-être apprendre en quelques minutes plutôt qu’en quelques jours.
Est-ce bien ce qu’on appelle l’apprentissage par renforcement multitâche ?
C. F. : L’apprentissage par renforcement multitâche permet à un robot d’apprendre plusieurs choses à partir d’une structure partagée. Par exemple, il peut apprendre à percevoir des objets ou à les faire glisser sur la table. Et il peut se familiariser avec toutes ces tâches plus vite que s’il devait les apprendre une à une à partir de zéro. Quant à l’apprentissage par méta-renforcement, il nous amène un peu plus loin : il permet au robot de tirer parti d’expériences passées pour apprivoiser une nouvelle tâche.
C’est un travail assez colossal. Pouvez-vous nous faire part de certains des défis qui en découlent ?
C. F. : L’une des difficultés consiste à définir quelles sont les tâches à apprendre et à appliquer pour maîtriser de nouvelles tâches. Par exemple, si le robot a appris précédemment une série de 50 tâches, cet apprentissage peut-il être appliqué à une nouvelle tâche ? Est-il préférable d’enseigner cette nouvelle tâche à partir de zéro ? En robotique, nous nous concentrons souvent sur des tâches de manipulation d’objets comme verser du liquide d’un récipient à un autre ou pousser un objet sur une table. Il y a un nombre incalculable de tâches qu’on peut enseigner à un robot. Nous avons récemment publié une liste de 50 tâches de référence pour aider les chercheurs à tester ce problème de manière isolée.
Un autre problème est ce qu’on appelle les « changements de répartition ». Si l’on a formé un robot dans un type d’environnement et que quelque chose change dans cet environnement, par exemple les conditions d’éclairage, le robot ne sera pas en mesure de gérer une situation qui diffère sensiblement de ce qu’il a appris. L’IA et l’apprentissage automatique réaliseraient une avancée considérable si nous trouvions certaines des clés essentielles pour résoudre ce problème. Les robots pourraient sortir de l’usine et intervenir intelligemment dans les maisons et les autres lieux où travaillent les humains. Les défis que pose l’introduction de robots dans ces environnements sont comparables à ceux que présentent les véhicules sans conducteur, où la situation s’avère assez prévisible 99 % du temps, mais où elle change le 1 % restant. Il peut s’agir d’une zone de travaux, d’un tracé de rue peint différemment ou d’un panneau d’arrêt tenu par un signaleur routier.
Comment en êtes-vous venue à faire carrière dans le domaine de l’apprentissage automatique ?
C. F. : J’étais très intéressée par l’informatique, l’ingénierie et la résolution de problèmes. Ce qui me plaît dans la recherche, c’est qu’on s’attache à résoudre des problèmes que personne n’a résolus auparavant. J’ai toujours été attirée par l’IA parce qu’elle soulève des défis fondamentaux très intéressants, mais aussi en raison de ses liens avec le fonctionnement de l’intelligence humaine. L’IA pourrait vraiment avoir des retombées importantes dans la société. En 2010, avant que les voitures sans conducteur ne servent à des fins commerciales, ma voiture a été emboutie par un conducteur distrait sur l’autoroute. Je me souviens d’avoir écrit dans ma dissertation d’admission à l’université que l’IA permettrait d’éviter ce genre d’accident, car les voitures sans conducteur ne se laisseraient pas distraire comme les humains et ne seraient pas sujettes à la somnolence.
Pourquoi est-il important pour des chercheurs comme vous de participer à des programmes de formation en IA comme l’École d’été APAR ?
C. F. : J’espère former et inspirer la prochaine génération de chercheurs. Les étudiants en début de carrière incarnent la relève dans le domaine. C’est eux qui vont définir la voie que prendra l’apprentissage automatique dans les années à venir. Le fait de former des chercheurs de tous les coins du monde peut influencer l’orientation de leurs recherches et la façon dont ils envisagent les problèmes futurs.
Nous vivons une période vraiment intéressante en ce moment. Comment la pandémie de COVID-19 influence-t-elle vos recherches ?
C. F. : L’accès aux laboratoires et aux bâtiments pose de nombreuses difficultés. Cela m’a vraiment fait réfléchir. Comme il y a plus de gens qui travaillent à domicile, comment pouvons-nous intégrer plus de robots dans les maisons ? Mon laboratoire a acheté des robots bon marché avec lesquels nos étudiants travaillent et qu’ils utilisent chez eux. Ce que j’aimerais faire, c’est d’étendre les données à ces robots, de sorte qu’ils puissent voir différents environnements plutôt qu’un seul environnement de laboratoire. De nombreux algorithmes d’apprentissage automatique extraient des ensembles de données d’Internet, mais les robots qui fonctionnent dans le monde réel ont besoin de données pertinentes pour le contexte dans lequel ils évoluent. Cela pourrait nous aider à comprendre ce qui se passe lorsque nous déployons des robots dans des cadres plus variés.
Y a-t-il quelque chose qui vous surprend dans le monde passionnant de l’IA ?
C. F. : Je sais à quel point il est difficile d’amener des robots à effectuer certaines tâches pourtant simples à première vue, mais en même temps, ils maîtrisent des jeux comme le Go et les échecs, qui sont extrêmement difficiles pour les humains. L’IA et l’apprentissage automatique ont réalisé d’énormes progrès, mais leur portée demeure assez limitée. Je suis toujours ébahie de voir à quel point il est difficile d’enseigner à des robots des compétences élémentaires que maîtrisent les jeunes enfants, par exemple saisir des objets comme une tasse. Par contre, peu d’humains peuvent jouer au Go avec autant de virtuosité qu’une machine. Les humains sont vraiment doués pour les tâches intuitives ; et ce sont précisément ces tâches qu’il est difficile d’enseigner aux systèmes d’IA.