Par: Krista Davidson
19 Mai, 2026
En démocratie, l’IA est devenue un paradoxe difficile à résoudre. D’un côté, elle peut améliorer la vie démocratique en favorisant l’interactivité des élections, la participation citoyenne et l’efficacité des services publics; de l’autre, elle pose des risques importants, tels que la propagation des biais et la désinformation. L’un des risques les plus sérieux réside peut-être dans l’immense pouvoir qu’elle concentre entre les mains de quelques grandes entreprises dotées de ressources considérables.
C’est précisément ce qui motive les recherches de Colin Raffel, titulaire d’une chaire en IA Canada-CIFAR et directeur associé de la recherche à l’Institut Vecteur. M. Raffel est également professeur agrégé d’informatique à l’Université de Toronto et chercheur au sein de l’équipe de Hugging Face, une plateforme collaborative en ligne consacrée aux modèles, aux ensembles de données et aux applications d’IA.
Les travaux de Colin Raffel visent à atténuer les risques liés à l’IA, à décentraliser le développement de cette technologie et à faciliter la tâche de ceux et celles qui souhaitent concevoir des modèles à grande échelle sans avoir à s’encombrer de quantités de données d’entraînement superflues ou recueillies sans consentement.
« Ce qui m’a motivé, c’est l’inquiétude croissante que suscite la concentration du pouvoir entre les mains d’une poignée d’entreprises richissimes. Voilà pourquoi nous misons sur des méthodes décentralisées de développement de l’IA à grande échelle. Plus l’IA est devenue performante, plus mes inquiétudes ont grandi. Mon équipe a donc intensifié les efforts consacrés à la réduction des risques », explique-t-il.
Les recherches de Colin Raffel trouvent un écho tout particulier aujourd’hui, dans un contexte marqué par la crainte d’une pénurie imminente de données et par la multiplication des poursuites judiciaires liées à l’utilisation non autorisée de données protégées par le droit d’auteur aux fins de l’entraînement des grands modèles de langage – ces systèmes d’IA avancés capables de comprendre, de traiter et de générer des tâches complexes à la manière des humains.
De nombreuses entreprises soutiennent que l’utilisation de données non autorisées s’avère le seul moyen d’optimiser la qualité des modèles de pointe et de soutenir l’évolution rapide du secteur. Or, Colin Raffel et son équipe viennent de prouver le contraire avec leur projet The Common Pile.
À partir d’un vaste ensemble de données composé de textes libres de droits ou du domaine public, l’équipe a entraîné une série de modèles dont les résultats rivalisent avec ceux de modèles entraînés à partir de données protégées. L’équipe a testé des contenus provenant de 30 sources de divers domaines : articles scientifiques, code informatique, ouvrages littéraires, transcriptions audio et plus encore. Ces travaux ont été salués comme un premier pas vers un entraînement éthique et responsable des modèles.
De plus, ces recherches facilitent la tâche de ceux et celles qui souhaitent faire progresser et perfectionner les systèmes d’IA.
« Nous avons mis au point des méthodes qui permettent à des collaboratrices et collaborateurs indépendants de mettre leur travail en commun et d’intégrer leurs modifications en continu afin d’améliorer les modèles de manière décentralisée », explique-t-il.
Malgré ces avancées techniques, Colin Raffel demeure méfiant face à notre dépendance croissante envers l’IA. Selon lui, le fait de confier de plus en plus de tâches manuelles et cognitives aux grands modèles de langage peut, à terme, engendrer des problèmes existentiels. D’ailleurs, remarque-t-il, les failles techniques à l’origine des risques existentiels et sociétaux sont souvent les mêmes.
L’intérêt de Colin Raffel pour la recherche est né de son amour de la musique. « Si je me suis lancé en recherche, c’est parce que j’étais musicien et que je voulais développer de nouveaux logiciels de musique », raconte-t-il. C’est cette passion qui l’a mené vers la recherche de données musicales, un champ interdisciplinaire qui consiste à extraire des informations complexes de fichiers audio – une technologie utilisée notamment par les applications d’identification de chansons et les algorithmes de recommandation.
De là est né son intérêt pour l’apprentissage automatique, en particulier pour les algorithmes nécessitant peu de données étiquetées.
Selon Colin Raffel, c’est grâce au programme de chaires en IA Canada-CIFAR, à l’Institut Vecteur et à l’Université de Toronto qu’un écosystème de collaboration aussi unique a pu voir le jour.
Pilier de la Stratégie pancanadienne en matière d’IA, le programme de chaires en IA Canada-CIFAR offre la stabilité et le financement à long terme nécessaires pour permettre à l’élite de la recherche en IA de se consacrer à des travaux à fort impact. À ce jour, le programme a permis à plus de 140 chercheuses et chercheurs de venir au Canada pour y poursuivre leurs travaux.