Par: Krista Davidson
9 Déc, 2019
Aishwarya Agrawal, titulaire d’une chaire en IA Canada-CIFAR, est une pionnière en matière de questions-réponses visuelles, un système qui révolutionnera la façon dont les machines comprennent le contenu des images.
Aishwarya Agrawal est une figure de proue en matière de questions-réponses visuelles (ou VQA pour Visual Question Answering), une tâche complexe et stimulante qui permet aux machines de comprendre la vision, le langage, les connaissances et le raisonnement fondé sur le bon sens. Le VQA peut aider l’intelligence artificielle (IA) en matière de perception visuelle et de communication en langage naturel.
Le VQA permet aux machines de répondre à des questions complexes d’une manière accessible aux humains, comme « Que tient l’homme à la chemise bleue ? ». Pour pouvoir répondre à la question, les machines doivent identifier la région de l’image où se trouve une personne portant une chemise bleue (ce qu’on appelle l’entraînement linguistique). Ensuite, elles doivent comprendre le sens du mot « tient », c’est-à-dire qu’elles doivent regarder les mains de la personne, même si le mot « mains » n’est pas mentionné dans la question. Enfin, elles doivent identifier l’objet qui se trouve dans les mains de la personne.
Dre Agrawal est enthousiaste à l’égard du VQA en raison de ses applications potentielles qui pourraient améliorer la qualité de vie des malvoyants, soutenir le développement éducatif des enfants et améliorer l’expérience utilisateur avec des assistants virtuels comme Siri et Alexa.
« Il est passionnant de tenter de résoudre la question de l’intelligence elle-même et d’envisager ce que cette technologie pourrait signifier pour notre avenir », dit-elle.
Le système de questions-réponses visuelles a fait son apparition sur la scène de l’IA en 2014 et a suscité un intérêt considérable, en grande partie grâce au travail d’Aishwarya Agrawal et de ses collègues à la suite de la publication, l’année suivante, d’un article à l’International Conference on Computer Vision (ICCV).
« Il est passionnant de tenter de résoudre la question de l’intelligence elle-même et d’envisager ce que cette technologie pourrait signifier pour notre avenir »
L’équipe, qui comprenait des chercheurs de Virginia Tech et de Microsoft Research, a recueilli et rendu public le premier et le plus important ensemble de données libre et ouvert pour le VQA. Elle a également lancé un défi annuel pour améliorer les performances des machines dans ce domaine.
Chaque année, ce défi présente une série d’images et de questions en langage naturel, comme « Quel genre de fromage y a-t-il sur la pizza ? » ou « Cette personne a-t-elle une vision 20/20 ? », et invite des chercheurs et des étudiants du monde entier à fournir des réponses en langage naturel. À ce jour, l’ensemble de données contient environ 250 000 images, 760 000 questions et 10 millions de réponses. En l’espace de quatre ans, Dre Agrawal et son équipe ont obtenu plus de 1 300 citations, ont vu leur ensemble de données être téléchargé plus de 800 fois et ont reçu le prix de la meilleure affiche à l’atelier sur la compréhension de l’objet et de ses interactions à l’ICCV 2015.
Aishwarya Agrawal se joindra à Mila et au département d’informatique et de recherche opérationnelle de l’Université de Montréal à titre de professeure adjointe en 2020. Elle a obtenu son doctorat au Georgia Institute of Technology. Elle explique qu’elle a choisi de poursuivre ses recherches au Canada en raison du dynamisme et du climat de collaboration de son milieu de recherche.
« En ce moment, le changement climatique constitue un enjeu de taille. Pour moi, qui viens d’une petite ville de l’Inde aux prises avec de nombreux problèmes en enseignement et en santé, relever le défi de l’IA peut aider à solutionner les problèmes liés au changement climatique, à l’éducation et aux soins de santé », soutient-elle.
« Je crois que le milieu qui nous entoure peut jouer un rôle important dans le type de recherche que nous faisons. Je crois que Montréal, et le Canada en général, dispose de l’un des meilleurs environnements en IA au monde. On y trouve de brillants chercheurs en IA dont les orientations de recherche sont déterminantes. De plus, les institutions et les gouvernements appuient grandement la recherche à long terme. Et, ce qui est moins courant, c’est que le Canada jouit d’un écosystème très sain dans lequel les industries et les universités collaborent.»
« En ce moment, le changement climatique constitue un enjeu de taille. Pour moi, qui viens d’une petite ville de l’Inde aux prises avec de nombreux problèmes en enseignement et en santé, relever le défi de l’IA peut aider à solutionner les problèmes liés au changement climatique, à l’éducation et aux soins de santé »
Dre Agrawal consacrera son temps en tant que titulaire d’une chaire en IA Canada-CIFAR à l’amélioration du système de questions-réponses visuelles. « Les modèles d’entraînement fondés sur de vastes ensembles de données peuvent donner lieu à des biais dans les systèmes d’IA. Par exemple, si un système reconnaît que la plupart des personnes qui figurent dans les images tiennent des porte-documents, il pourrait supposer que toutes les questions qui demandent ce qu’une personne tient devraient recevoir la réponse “porte-document” », indique-t-elle.
« Il est très difficile d’entraîner des modèles à surmonter les biais des ensembles de données et à répondre en se basant uniquement sur les preuves présentées dans l’image », précise Dre Agrawal, mais elle est déterminée à y parvenir pendant son mandat de titulaire d’une chaire en IA Canada-CIFAR.
Le programme des chaires en IA Canada-CIFAR constitue le programme clé de la Stratégie pancanadienne en matière d’IA du CIFAR. Au total, 86,5 millions de dollars sur cinq ans ont été attribués à ce programme pour attirer et maintenir en poste des chercheurs en IA de renommée internationale au Canada. Les titulaires d’une chaire en IA Canada-CIFAR annoncés à ce jour réalisent des recherches dans un vaste éventail de domaines, notamment : apprentissage automatique au service de la santé, véhicules autonomes, réseaux neuronaux artificiels et changements climatiques.