Chaque jour, les télescopes et autres instruments astronomiques produisent un déluge de données à propos de l’Univers. Les astronomes et les cosmologues ont recours à de puissants algorithmes informatiques, y compris des méthodes d’apprentissage automatique, pour analyser ces données bruitées et cerner des phénomènes particuliers dignes d’intérêt. Ces outils peuvent être, et ont d’ailleurs été, appliqués au traitement de données tout aussi complexes en biomédecine, qu’il s’agisse de génomique ou d’imagerie médicale.
Le 9 juillet 2020, le CIFAR a organisé une table ronde virtuelle qui a réuni des boursiers du programme Extrême Univers et gravité du CIFAR et des titulaires d’une chaire en IA Canada-CIFAR, ainsi que d’autres experts internationaux du milieu universitaire et de l’industrie pour discuter des percées réalisées dans le domaine des algorithmes utilisés en recherche astronomique et de la façon de les adapter à la biomédecine, et vice versa. Par l’entremise de brèves présentations et de discussions dirigées, cette rencontre a exploré le recours à l’intelligence artificielle (IA) pour relever des défis communs aux deux domaines, y compris l’identification et la classification de phénomènes d’intérêt et le traitement des données bruitées. Cette table ronde a constitué le point de départ de discussions et de collaborations intersectorielles au long cours qui pourraient susciter des innovations technologiques, ainsi que contribuer à la recherche fondamentale.
Parties prenantes cibles
Astronomes et cosmologues d’observation
Experts en microscopie, en radiologie et en imagerie médicale provenant des milieux universitaires, cliniques et industriele
Informaticien en apprentissage automatique et en vision artificielle
Développeurs de matériel (optique, électronique) et de logiciels pour les télescopes, les microscopes et autres instruments d’imagerie
Résultats clés
Les astronomes cherchent à appliquer l’apprentissage automatique (AA) à trois aspects de l’analyse des données et des images : la détection (trouver des choses qui n’ont jamais été vues), la classification (trier les objets astronomiques par catégorie) et l’inférence (créer des modèles astrophysiques et formuler des prédictions). De même, les scientifiques biomédicaux utilisent les outils d’AA pour effectuer de multiples tâches liées à l’analyse d’images : détection, classification, segmentation (identifier correctement la morphologie et la taille des objets d’intérêt), enregistrement (combiner des images provenant de modalités différentes, comme la tomodensitométrie et l’IRM, pour le même patient ou le même échantillon, ou des images provenant de la même modalité, mais pour un patient ou un échantillon différent) et génération (d’images à haute résolution à partir de données à faible résolution).
Comparativement aux méthodes d’AA pour la classification d’objets courants de la vie quotidienne (tels que les voitures, les chats ou les visages humains), l’analyse d’images en astronomie et en biologie comporte un certain nombre de défis similaires : les objets ou régions d’intérêt ne constituent généralement qu’une toute petite portion des images; les différences entre deux exemples différents d’un objet de la vie quotidienne sont souvent beaucoup plus petites qu’entre deux images du même objet astronomique ou biologique réalisées par des instruments différents ou à des moments différents; et il peut y avoir une grande variabilité dans le jugement des experts eux-mêmes relativement à la présence, à l’identité et aux caractéristiques d’un objet astronomique ou biologique.
De plus, comparativement aux milliers, voire aux millions d’images d’objets quotidiens disponibles dans des bases de données telles queImageNet et Cityscapes Dataset, les algorithmes d’AA pour l’imagerie astronomique et biomédicale disposent de bases de données beaucoup plus petites avec lesquelles s’entraîner, et la création de tels ensembles de données par des annotations d’experts exige beaucoup de temps. En guise de données d’entraînement, il faut souvent utiliser un sous-ensemble de données d’observations réelles, autrement les chercheurs doivent produire des données simulées ou « fausses » pour l’entraînement. Pour tenir compte des effets éventuels de la variabilité inter-instruments sur les algorithmes, les modèles d’AA entraînés avec des données obtenues à l’aide d’un instrument en particulier pourraient devoir suivre un nouvel entraînement avec un sous-ensemble de données provenant d’un autre instrument et faire l’objet d’une vérification. Compte tenu de certaines des similarités entre les images en astronomie et en microscopie, il serait peut-être possible d’utiliser des ensembles de données dans un domaine, qu’elles soientsimulées ou réelles, pour entraîner préalablement des algorithmes dans l’autre domaine.
Dans le ciel, des millions d’événements astronomiques se produisent à tout moment dans l’ensemble du spectre électromagnétique — qu’il s’agisse des rayons X, de la lumière visible ou des ondes radio — et une nouvelle génération de grands télescopes, comme l’Observatoire LSST/Vera Rubin au Chili, va surveiller l’intégralité du ciel avec une résolution comparable à celle du télescope spatial Hubble. Cela signifie que les astronomes doivent décider de rejeter une certaine proportion des observations afin qu’une quantité raisonnable de données soit stockée et fasse l’objet d’un suivi. Des classificateurs fondés sur l’apprentissage profond ont été utilisés pour filtrer les données et éliminer les signaux probablement « faux ».
L’une des tâches principales de l’observation astronomique consiste à identifier des objets ou des phénomènes d’intérêt « transitoires » qui ne sont que de courte durée, comme une étoile en explosion ou une collision entre deux corps. Traditionnellement, les phénomènes transitoires sont identifiés en obtenant une image des « différences » entre les observations de nuits différentes, souvent réalisées dans des conditions très différentes qui mènent à des images aux propriétés différentes; il faudra alors évaluer si la différence observée représente réellement un phénomène astronomique transitoire. Certains astronomes ont mis au point des à base de réseaux neuronaux convolutifs (RNC) pour accélérer ce processus. Les biologistes qui utilisent la microscopie par fluorescence pour analyser l’activité neuronale en temps réel rencontrent un problème similaire — les courtes salves de signaux qui représentent les événements neuronaux d’intérêt se produisent de manière aléatoire dans l’espace et le temps, et ne représentent qu’une très petite partie de l’ensemble du champ de vision (aussi peu que 0,01 %). En outre, des biologistes sont en train de mettre au point des outils à base de RNC pour détecter et étiqueter de tels événements dans des images ou des vidéos d’activité neuronale.
Une autre tâche présente des similarités entre les deux domaines : la segmentation et la classification des objets d’intérêt dans les images, qu’il s’agisse de ou planétaires, ou de différents types de , de cellules ou de structures cellulaires. Ces objets se caractérisent par le fait que ceux qui appartiennent à la même classe peuvent présenter de grandes différences de forme et de taille, ainsi que des limites difficiles à définir ou floues en raison de la résolution des images ou de la diffraction de la lumière. Les astronomes et les biologistes ont conçu divers outils d’AA pour accélérer et automatiser ces tâches, identifier les objets manqués, et accroître la fiabilité et la précision de la classification.
Priorités et prochaines étapes
Alors que les techniques actuelles fonctionnent bien avec des données « épurées » à signaux forts, la plupart des observations astronomiques affichent de faibles rapports signal-bruit, ainsi que des modèles de bruit (les distributions des probabilités de bruit dans les données) compliqués. Les images obtenues par microscopie se heurtent souvent à un problème similaire avec des bruits de fond tels que l’autofluorescence (où certaines molécules ou structures cellulaires émettent naturellement de la lumière et occultent le signal émanant de molécules d’intérêt étiquetées à l’aide de facteurs chimiques). La mise au point d’algorithmes efficaces avec ce genre de données bruitées demeure un défi. L’une des méthodes possibles consiste à entraîner les algorithmes avec des données « sales » simulées, mais cela exige une bonne compréhension du modèle de bruit afin que le bruit généré soit comparable à celui des données réelles.
Les informaticiens qui travaillent dans des domaines tels que l’IA, l’AA et la vision artificielle ont beaucoup à apporter au développement d’algorithmes pour l’analyse d’images complexes en astronomie et en biomédecine, mais ils devront apprendre comment mieux composer avec les problèmes de bruit et d’incertitude. Ils sont aussi confrontés à une difficile courbe d’apprentissage en ce qui concerne le langage et les types de données dans ces domaines. Une meilleure documentation des données et des outils par les astronomes et les biologistes peut se révéler utile, mais il y a souvent un manque de formation ou de motivation chez ces chercheurs — ces tâches prennent du temps et il est peu probable que des publications s’ensuivent. Diverses initiatives telles que des concours, des ensembles de données ouverts, et des conférences ou des clubs de lecture communs peuvent contribuer à accroître la compréhension mutuelle, à promouvoir une culture d’ouverture et à susciter la collaboration.
À l’avenir, l’élaboration d’un « dictionnaire » commun qui répertorie les termes utilisés dans les deux domaines (pour quelque chose d’apparemment aussi simple que « bruit ») contribuerait à faciliter un dialogue plus fructueux entre ces domaines. Un groupe de travail pourrait aussi voir le jour afin de réunir les deux domaines autour d’une initiative commune pour l’analyse quantitative d’images à haut débit, en particulier pour l’imagerie à intervalle en microscopie et en astronomie.
Christian Gagné, professeur, Université Laval, et titulaire d’une Chaire en IA Canada-CIFAR, Mila
Daryl Haggard, professeure agrégée et titulaire de la Chaire de recherche du Canada en astrophysique multi-messagers, Université McGill, et chercheuse mondiale Azrieli, programme Extrême Univers et gravité, CIFAR
Renée Hložek, professeure adjointe, Université de Toronto, et Chercheuse mondiale Azrieli, programme Extrême Univers et gravité, CIFAR
Elizabeth Huynh, physicienne médicale, Brigham and Women’s Hospital / École de médecine de Harvard
David Ruhe, étudiant diplômé, Université d’Amsterdam
Kendrick Smith, professeur et titulaire d’une chaire de recherche, Institut Périmètre de physique théorique, et boursier, programme Extrême Univers et gravité, CIFAR
Ce site Web enregistre des témoins sur votre ordinateur. Ces témoins sont utilisés pour recueillir des renseignements sur votre interaction avec notre site Web et nous permettre de vous reconnaître. Nous utilisons ces renseignements afin d'améliorer et de personnaliser votre expérience de navigation et à des fins d'analyse et de mesures concernant nos visiteurs, tant sur ce site Web que sur d'autres médias. Pour en savoir plus sur les témoins que nous utilisons, consultez notre politique deconfidentialité.