Par: Justine Brooks
3 Déc, 2025
Plus les modèles d’IA se répandent et se perfectionnent, plus il est essentiel d’en garantir l’exactitude, l’impartialité et l’alignement sur les valeurs humaines. En l’absence de cadres standardisés d’évaluation de la sécurité, et en raison de l’évolution fulgurante des capacités des modèles, cette mission n’est toutefois pas à la portée du premier venu.
Les tests d’évaluation de la sécurité servent à s’assurer que les modèles d’IA de pointe (c’est-à-dire les modèles capables d’accomplir une multitude de tâches dépassant souvent les facultés humaines) sont utiles, précis et sans danger pour l’humanité avant qu’ils ne soient mis à la disposition du public. Il s’agit d’une étape cruciale du processus de développement, car le moindre défaut dans le fonctionnement d’un modèle peut mener à de la désinformation, à des biais et à plusieurs autres conséquences susceptibles de toucher des millions de personnes. Dans sa plus récente édition, le rapport intitulé International AI Safety Report reconnaît la nécessité d’améliorer les méthodes d’évaluation, un mécanisme indispensable pour résoudre les enjeux liés à la sécurité de l’IA.
Deux titulaires de chaires en IA Canada-CIFAR affiliés à l’Institut Vecteur, Wenhu Chen et Victor Zhong, développent chacun des méthodes d’évaluation avancées qui gagnent en notoriété dans le secteur en raison de leur adaptabilité et de leur robustesse. En s’ingéniant à créer de meilleurs outils d’évaluation, ils contribuent à façonner un écosystème canadien de l’IA plus solide et résilient et à positionner le Canada comme un chef de file de la sécurité de l’IA – une étape importante pour gagner la confiance du public et favoriser l’adoption à grande échelle de l’IA.
De l’avis du professeur adjoint à l’Université de Waterloo Wenhu Chen, l’un des principaux défauts des ensembles de tests actuels tient à leur manque de diversité thématique. La plupart se concentrent sur une poignée de sujets comme les mathématiques et la programmation, au détriment d’autres thématiques que l’IA doit pourtant maîtriser.
La solution, soutient M. Chen, consiste à se concentrer davantage sur ces domaines spécialisés et à les inclure dans les évaluations actuelles, mais aussi à accroître la diversité des ensembles de tests que nous utilisons. Comme la plupart des tests actuels sont quasi identiques, évaluer un modèle à partir de plusieurs d’entre eux devient inutilement répétitif. Dans ce contexte, M. Chen cherche à aider les équipes de développement à diversifier leurs tests de performances afin que ceux-ci recouvrent davantage de capacités, de domaines et de compétences.
Par ailleurs, Wenhu Chen s’intéresse à la possibilité que les modèles réussissent à donner les bonnes réponses simplement en les devinant. « Il arrive que le modèle ignore comment résoudre un problème, mais qu’il pressente qu’une solution est meilleure qu’une autre et qu’il choisisse la bonne réponse malgré tout. Il s’agit selon nous d’un enjeu assez sérieux, puisque cela peut nous amener à surestimer les capacités d’un modèle », souligne-t-il.
Cet enjeu, Wenhu Chen en a tenu compte dans la conception de son ensemble de tests appelé MMLU-Pro. Jusqu’à présent, les tests se limitaient à quatre choix de réponse; M. Chen et son équipe ont étendu ce nombre à dix afin de relever le niveau de difficulté. « La possibilité que le modèle trouve la bonne réponse par pure conjecture est ainsi considérablement réduite », explique-t-il. Cette méthode a grandement amélioré la qualité des tests, qui sont maintenant utilisés par des géants comme OpenAI, Google et Anthropic.
Aux dires de Wenhu Chen, l’amélioration des évaluations permettra aux équipes de développement de prendre des décisions plus éclairées quant à l’entraînement et à la sécurité des modèles. Ces progrès contribueront, à terme, à la conception de produits plus performants et plus sûrs pour les utilisatrices et utilisateurs finaux.
De nos jours, les modèles d’IA fondamentaux surpassent rapidement les tests statiques, d’où la nécessité pour des développeurs comme le professeur adjoint à l’Université de Waterloo Victor Zhong de concevoir des tests dynamiques qui évoluent au même rythme que les capacités des modèles. Si les tests statiques fournissent un ensemble fixe de tâches à évaluer, les tests dynamiques sont conçus pour empêcher les modèles de mémoriser des défis particuliers ou d’optimiser leur capacité à les résoudre.
C’est ce besoin d’évaluations plus rigoureuses qui a amené Victor Zhong à développer OS World, une plateforme utilisant une machine virtuelle pour tester les modèles d’IA selon des scénarios plus généraux et réalistes. « L’un des meilleurs moyens de tester les capacités de ces modèles est simplement d’utiliser l’ordinateur comme le feraient des humains », explique-t-il. OS World peut accomplir des tâches ouvertes qui sont généralement effectuées sur un ordinateur, comme naviguer sur Internet, utiliser des logiciels ou créer des documents.
Victor Zhong et son équipe ont ensuite élaboré ce qu’ils appellent un « forum d’agents informatiques ». Dans ce lieu virtuel, un groupe de personnes soumet des instructions à un modèle d’IA, tandis qu’un autre groupe en évalue les performances. Il en résulte un test de performances « évolutif » qui confère à OS World la capacité à s’adapter et à s’améliorer sans cesse.
Cette approche redéfinit la norme en matière de techniques d’évaluation, si bien qu’elle constitue à présent le test de performances privilégié par OpenAI et Anthropic. Il s’agit d’une avancée aux retombées mondiales, puisque le cadre d’évaluation qui en découle est beaucoup plus efficace pour mesurer l’évolution des modèles d’IA de pointe.