Les algorithmes d’intelligence artificielle (IA) et les systèmes intelligents sont très prometteurs dans le secteur de la santé, notamment pour réduire le coût de l’accompagnement d’une population vieillissante, découvrir de nouveaux traitements thérapeutiques pour des maladies complexes comme les cancers, et améliorer la gestion des patients. Pour soutenir les progrès à long terme du système de santé canadien à l’aide d’algorithmes intelligents, il faut lever les obstacles à l’accès aux données et à la protection de la vie privée. En outre, plusieurs membres de la communauté scientifique se tournent vers les modèles génératifs et les ensembles de données synthétiques pour proposer des solutions novatrices.
Le 25 novembre, le CIFAR, IVADO et Mila organiseront un symposium auquel participeront des spécialistes du Canada et d’ailleurs. Ces personnes se pencheront sur les occasions et les défis liés à l’utilisation et au déploiement des données synthétiques dans le domaine de la santé.
Un atelier privé aura lieu le 26 novembre, sur invitation seulement, afin de faciliter les discussions et les collaborations entre les membres de la communauté de recherche universitaire et les partenaires du secteur privé ou hospitalier. Si vous souhaitez y participer, veuillez vous adresser à notre équipe des événements.
Conférenciers et conférencières
Raymond Ng, Université de la Colombie-Britannique
Khaled El Emam, Université d’Ottawa ; Replica Analytics
David Buckeridge
Flora Jay, Université Paris Saclay/CNRS
Aurélien Decelle, Université Complutense de Madrid
Blake Richards, Mila, Université McGill
Guillaume Lajoie, Mila, Université de Montréal
Ordre du jour
11 h – 11 h 05
Mot d’ouverture et reconnaissance territoriale
Elissa Strome, CIFAR
11 h 05 – 11 h 40
Conférence : Génération de données synthétiques pour la diffusion de données sur la santé dont la confidentialité est préservée
Raymond Ng, professeur et directeur, Institut de science des données, Université de la Colombie-Britannique
Rob Bergen et Jean-François Rajotte, Institut de science des données, Université de la Colombie-Britannique
Dans le cadre d’un partenariat de recherche entre la Régie de santé provinciale de la Colombie-Britannique et l’Institut de science des données de l’Université de la Colombie-Britannique, nous avons mis en place un programme qui étudie la manière de fournir des données sur la santé tout en préservant leur confidentialité. Dans cet exposé, nous donnerons un aperçu du programme. Nous présenterons un modèle récemment mis au point pour générer des images 3D par TEP. Nous montrerons également comment générer des données synthétiques avec un apprentissage fédéré, sans que les collaborateurs aient besoin de partager les données d’entraînement locales. Enfin, nous discuterons de l’importance de mesurer les attaques par inférence d’appartenance sur les données synthétiques.
11 h 40 – 12 h
Problèmes pratiques du développement et du déploiement de technologies de génération de données synthétiques
Khaled El Emam, professeur, Université d’Ottawa ; cofondateur et chef de la direction, Replica Analytics
Nous avons mis au point des outils de génération de données synthétiques (GDS) afin de permettre le partage de données sur la santé et d’effectuer des simulations. Parallèlement, nous avons déployé ces outils dans les milieux de pratique d’organisations des secteurs public et privé dans le monde entier. L’adaptation de la GDS à la pratique nécessite la résolution de problèmes de base tels que l’identification et la validation de mesures d’utilité pertinentes autant pour la formation et la communication sur les modèles de GDS que pour leur réglage. Les données de santé réelles sont longitudinales et leurs schémas complexes doivent être modélisés, ce dont les solutions de GDS doivent tenir compte. De plus, l’un des premiers enjeux en matière de GDS est la gestion des risques liés à la vie privée. Cette présentation couvrira certains des problèmes pratiques liés à la GDS et la façon dont nous les avons abordés.
12 h – 12 h 15
Pause
12 h 15 – 12 h 35
Amélioration de l’interface avec le système nerveux grâce à la synthèse de données basée sur des réseaux antagonistes génératifs
Blake Richards, membre principal, Mila ; professeur adjoint, Université McGill
Guillaume Lajoie, membre principal, Mila ; professeur adjoint, Université de Montréal
Les ensembles de données simulées d’enregistrements de l’activité neuronale sont essentiels en ingénierie neuronale pour tester la capacité des algorithmes de décodage à récupérer la vérité de base connue. Dans cet exposé, nous présentons PNS-GAN, un réseau antagoniste génératif capable de produire des enregistrements réalistes de l’activité neuronale en fonction de biomarqueurs physiologiques. Le fonctionnement de PNS-GAN est basé sur les ondelettes pour préserver à la fois le moment et la fréquence des événements neuronaux avec une haute résolution. PNS-GAN génère des séquences de scalogrammes à partir du bruit en utilisant un réseau neuronal récurrent et des couches de convolution transposées en 2D, et discrimine les scalogrammes avec un réseau de couches de convolution en 3D. Nous constatons que le signal que nous générons reproduit un certain nombre de caractéristiques du signal réel, dont la similarité des caractéristiques des séries temporelles dans un espace canonique. De plus, il contient des événements neuronaux physiologiquement liés, y compris la modulation de la respiration et des distributions similaires des signaux afférents et efférents.
12 h 35 – 12 h 55
Création de génomes humains artificiels à l’aide de réseaux neuronaux génératifs
Flora Jay, chercheuse CNRS, LISN, Université Paris-Saclay
Aurélien Decelle, chercheur, Université Complutense de Madrid
Les modèles génératifs ont fait des percées dans un large éventail de domaines grâce aux progrès récents des algorithmes d’apprentissage automatique et à l’augmentation de la puissance de calcul. Malgré ces réalisations impressionnantes, la capacité des modèles génératifs à créer des données synthétiques réalistes est encore sous-exploitée en génétique et absente en génétique des populations. Bien que l’accès à de nombreuses bases de données génétiques soit limité en raison des préoccupations liées à la violation de la vie privée des individus, elles constitueraient une ressource inestimable pour l’exploration et l’intégration de données en vue de faire progresser les études génétiques. Dans cette étude, nous démontrons que les réseaux antagonistes génératifs et la machine de Boltzmann restreinte peuvent être entraînés et apprendre les distributions complexes d’ensembles de données génomiques réels afin de générer des génomes artificiels de haute qualité sans menacer la confidentialité des données. Les génomes artificiels que nous générons reproduisent les caractéristiques de l’ensemble de données source, telles que la fréquence des allèles, le déséquilibre de liaison, la distribution des paires d’haplotypes et la structure de la population. De plus, ils peuvent également hériter de caractéristiques complexes comme les signaux de sélection. Pour illustrer les résultats prometteurs de notre méthode, nous montrons que la qualité de l’imputation pour les allèles de basse fréquence peut être améliorée par l’augmentation des données des panels de référence des génomes artificiels et que l’espace latent de la machine de Boltzmann restreinte fournit un codage pertinent des données, ce qui permet une exploration plus poussée de l’ensemble de données et des caractéristiques de référence pour résoudre les tâches supervisées. Les modèles génératifs et les génomes artificiels pourraient devenir de précieux atouts en génétique en fournissant une représentation riche mais compacte des génomes existants et une solution de haute qualité, facile d’accès et anonyme en remplacement des bases de données privées.
Recherche conjointe de Burak Yelmen, Aurélien Decelle, Linda Ongaro, Davide Marnetto, Corentin Tallec, Francesco Montinaro, Cyril Furtlehner, Luca Pagani et Flora Jay.
12 h 55 – 13 h 15
Données synthétiques : possibilités et défis pour la recherche clinique
David Buckeridge, professeur, Université McGill ; chef de la santé numérique, CUSM
Les méthodes d’apprentissage automatique nécessitent généralement de grandes quantités de données détaillées pour entraîner les modèles. Cependant, il est difficile pour les chercheurs en apprentissage automatique d’accéder aux données cliniques et de les gérer en raison de problèmes de confidentialité et d’autres obstacles. Dans ce contexte, les données synthétiques offrent la possibilité d’améliorer l’accès à des données réalistes, ce qui pourrait augmenter le rythme et l’ampleur de la recherche sur les données cliniques basée sur l’apprentissage automatique. L’utilisation de données synthétiques soulève toutefois quelques difficultés. Par exemple, les méthodes de synthèse actuelles ne conviennent pas nécessairement à tous les types de données et ne garantissent pas toujours la protection de la confidentialité des données. Cette présentation passera en revue les possibilités et défis des données synthétiques afin d’identifier des applications prometteuses de l’utilisation de données cliniques synthétiques.