Suis nous sur
CIFAR header logo
en
menu_mobile_logo_alt
  • NOTRE IMPACT
    • Pourquoi le CIFAR?
    • Pôles d’impact
    • Nouvelles
    • Stratégie du CIFAR
    • Favoriser la résilience de la Terre
    • Impact IA
    • Impact des dons
    • CIFAR 40
  • Programmes
    • Programmes de recherche
    • Stratégie pancanadienne en matière d’IA
    • Initiatives à l’intention de la prochaine génération
    • Initiative sur l’avenir de l’alimentation CIFAR-Arrell
  • Communauté
    • Membres et spécialiste-conseils
    • Chercheurs mondiaux CIFAR-Azrieli
    • Direction – Stratégie en matière d’IA
    • Direction – CIFAR
    • Répertoire du personnel
  • Soutenez-nous
  • À propos
    • Notre histoire
    • Prix
    • Partenariats
    • Publications et rapports
    • Carrières
    • Équité, diversité et inclusion
    • Déclaration du CIFAR sur la neutralité institutionnelle
    • Sécurité de la recherche
  • Événements publics
  • en
Chaire en IA Canada-CIFAR

Rendre l’IA plus sûre grâce à des méthodes d’évaluation avancées

Par: Justine Brooks
3 Déc, 2025
03 décembre 2025
Wenhu Chen and Victor Zhong

Comment des titulaires de chaires en IA Canada-CIFAR définissent un nouveau baromètre de sécurité

Plus les modèles d’IA se répandent et se perfectionnent, plus il est essentiel d’en garantir l’exactitude, l’impartialité et l’alignement sur les valeurs humaines. En l’absence de cadres standardisés d’évaluation de la sécurité, et en raison de l’évolution fulgurante des capacités des modèles, cette mission n’est toutefois pas à la portée du premier venu. 

Les tests d’évaluation de la sécurité servent à s’assurer que les modèles d’IA de pointe (c’est-à-dire les modèles capables d’accomplir une multitude de tâches dépassant souvent les facultés humaines) sont utiles, précis et sans danger pour l’humanité avant qu’ils ne soient mis à la disposition du public. Il s’agit d’une étape cruciale du processus de développement, car le moindre défaut dans le fonctionnement d’un modèle peut mener à de la désinformation, à des biais et à plusieurs autres conséquences susceptibles de toucher des millions de personnes. Dans sa plus récente édition, le rapport intitulé International AI Safety Report reconnaît la nécessité d’améliorer les méthodes d’évaluation, un mécanisme indispensable pour résoudre les enjeux liés à la sécurité de l’IA.

Deux titulaires de chaires en IA Canada-CIFAR affiliés à l’Institut Vecteur, Wenhu Chen et Victor Zhong, développent chacun des méthodes d’évaluation avancées qui gagnent en notoriété dans le secteur en raison de leur adaptabilité et de leur robustesse. En s’ingéniant à créer de meilleurs outils d’évaluation, ils contribuent à façonner un écosystème canadien de l’IA plus solide et résilient et à positionner le Canada comme un chef de file de la sécurité de l’IA – une étape importante pour gagner la confiance du public et favoriser l’adoption à grande échelle de l’IA.

Wenhu Chen, MMLU-Pro

De l’avis du professeur adjoint à l’Université de Waterloo Wenhu Chen, l’un des principaux défauts des ensembles de tests actuels tient à leur manque de diversité thématique. La plupart se concentrent sur une poignée de sujets comme les mathématiques et la programmation, au détriment d’autres thématiques que l’IA doit pourtant maîtriser. 

La solution, soutient M. Chen, consiste à se concentrer davantage sur ces domaines spécialisés et à les inclure dans les évaluations actuelles, mais aussi à accroître la diversité des ensembles de tests que nous utilisons. Comme la plupart des tests actuels sont quasi identiques, évaluer un modèle à partir de plusieurs d’entre eux devient inutilement répétitif. Dans ce contexte, M. Chen cherche à aider les équipes de développement à diversifier leurs tests de performances afin que ceux-ci recouvrent davantage de capacités, de domaines et de compétences.

Par ailleurs, Wenhu Chen s’intéresse à la possibilité que les modèles réussissent à donner les bonnes réponses simplement en les devinant. « Il arrive que le modèle ignore comment résoudre un problème, mais qu’il pressente qu’une solution est meilleure qu’une autre et qu’il choisisse la bonne réponse malgré tout. Il s’agit selon nous d’un enjeu assez sérieux, puisque cela peut nous amener à surestimer les capacités d’un modèle », souligne-t-il.

Cet enjeu, Wenhu Chen en a tenu compte dans la conception de son ensemble de tests appelé MMLU-Pro. Jusqu’à présent, les tests se limitaient à quatre choix de réponse; M. Chen et son équipe ont étendu ce nombre à dix afin de relever le niveau de difficulté. « La possibilité que le modèle trouve la bonne réponse par pure conjecture est ainsi considérablement réduite », explique-t-il. Cette méthode a grandement amélioré la qualité des tests, qui sont maintenant utilisés par des géants comme OpenAI, Google et Anthropic.

Aux dires de Wenhu Chen, l’amélioration des évaluations permettra aux équipes de développement de prendre des décisions plus éclairées quant à l’entraînement et à la sécurité des modèles. Ces progrès contribueront, à terme, à la conception de produits plus performants et plus sûrs pour les utilisatrices et utilisateurs finaux.

Victor Zhong – OS World

De nos jours, les modèles d’IA fondamentaux surpassent rapidement les tests statiques, d’où la nécessité pour des développeurs comme le professeur adjoint à l’Université de Waterloo Victor Zhong de concevoir des tests dynamiques qui évoluent au même rythme que les capacités des modèles. Si les tests statiques fournissent un ensemble fixe de tâches à évaluer, les tests dynamiques sont conçus pour empêcher les modèles de mémoriser des défis particuliers ou d’optimiser leur capacité à les résoudre.

C’est ce besoin d’évaluations plus rigoureuses qui a amené Victor Zhong à développer OS World, une plateforme utilisant une machine virtuelle pour tester les modèles d’IA selon des scénarios plus généraux et réalistes. « L’un des meilleurs moyens de tester les capacités de ces modèles est simplement d’utiliser l’ordinateur comme le feraient des humains », explique-t-il. OS World peut accomplir des tâches ouvertes qui sont généralement effectuées sur un ordinateur, comme naviguer sur Internet, utiliser des logiciels ou créer des documents. 

Victor Zhong et son équipe ont ensuite élaboré ce qu’ils appellent un « forum d’agents informatiques ». Dans ce lieu virtuel, un groupe de personnes soumet des instructions à un modèle d’IA, tandis qu’un autre groupe en évalue les performances. Il en résulte un test de performances « évolutif » qui confère à OS World la capacité à s’adapter et à s’améliorer sans cesse.

Cette approche redéfinit la norme en matière de techniques d’évaluation, si bien qu’elle constitue à présent le test de performances privilégié par OpenAI et Anthropic. Il s’agit d’une avancée aux retombées mondiales, puisque le cadre d’évaluation qui en découle est beaucoup plus efficace pour mesurer l’évolution des modèles d’IA de pointe.

Articles liés

  • Le CIFAR lance de nouveaux réseaux axés sur la sécurité de l’IA afin de se pencher sur les inégalités linguistiques et sur les preuves synthétiques dans le système judiciaire
    19 novembre 2025
  • Appel de propositions pour des projets de recherche mondiaux sur l’alignement de l’IA
    05 août 2025
  • Nomination de Nicolas Papernot et de Catherine Régis à la codirection du Programme de recherche de l’ICSIA au CIFAR
    12 décembre 2024
  • Le gouvernement du Canada annonce la création de l’Institut canadien de la sécurité de l’IA
    12 novembre 2024

Soutenez-nous

L’Institut canadien de recherches avancées (CIFAR) est une organisation de recherche d’influence mondiale fièrement basée au Canada. Nous mobilisons les plus brillants personnes du monde, dans toutes les disciplines et à tous les stades de carrière, pour faire progresser les connaissances transformatrices et résoudre ensemble les plus grands problèmes de l’humanité. Nous recevons l’appui des gouvernements du Canada, de l’Alberta et du Québec, ainsi que de fondations, de particuliers, d’entreprises et d’organisations partenaires du Canada et du monde entier.

Dons
CIFAR header logo

Centre MaRS, tour Ouest
661, avenue University, bureau 505
Toronto (Ontario) M5G 1M1 Canada

Contactez-nous
Médias
Carrières
Politiques sur l’accessibilité
Bienfaiteurs
Rapports financiers
Abonnez-vous

  • © Copyright 2025 CIFAR. Tous les droits sont réservés.
  • Numéro d’enregistrement d’organisme de bienfaisance : 11921 9251 RR0001
  • Conditions d'utilisation
  • Politique de confidentialité
  • Plan du Site

Souscrire

Rejoignez notre communauté! Restez à jour avec nos nouvelles, événements, conférences et ateliers et dernières découvertes à travers le monde.

Ce site Web enregistre des témoins sur votre ordinateur. Ces témoins sont utilisés pour recueillir des renseignements sur votre interaction avec notre site Web et nous permettre de vous reconnaître. Nous utilisons ces renseignements afin d'améliorer et de personnaliser votre expérience de navigation et à des fins d'analyse et de mesures concernant nos visiteurs, tant sur ce site Web que sur d'autres médias. Pour en savoir plus sur les témoins que nous utilisons, consultez notre politique deconfidentialité.
Accepter En savoir plus