Séminaires des nouveaux professeurs – Rafid Mahmood
Optimiser la collecte de données pour l’apprentissage automatique
Date limite : le 17 juin 2023,

Les systèmes d’intelligence artificielle (IA) faisant appel à l’apprentissage profond sont entraînés à l’aide d’ensembles de données monumentaux. Toutefois, il existe relativement peu d’information sur la quantité et la nature des données requises pour ce faire. Alors qu’une collecte excessive entraîne des coûts inutiles, une collecte insuffisante peut retarder le flux des travaux et comporter des coûts ultérieurement. Notre équipe propose un nouveau cadre pour modéliser le flux de travail de la collecte de données en le formulant comme un problème formel de collecte optimale des données, de sorte que les responsables puissent fixer des objectifs de performance, des coûts de collecte, un horizon temporel et des pénalités en cas de non-respect des objectifs. Cette formule générale, qui peut être appliquée aux tâches impliquant plusieurs fournisseurs de données, permet de mener des analyses personnalisées, par exemple pour mettre à niveau un modèle d’IA existant ou choisir entre des politiques de collecte divergentes. Afin de résoudre ce problème, nous développons la méthode Learn-Optimize-Collect (LOC) (« apprentissage-optimisation-collecte ») qui permet d’estimer et de réduire au minimum les coûts de collecte prévus. Enfin, par extrapolation des lois d’échelle neuronales, nous effectuons une comparaison numérique entre notre cadre et la méthode conventionnelle d’estimation des données requises. De cette manière, nous réduisons considérablement les risques de ne pas atteindre les objectifs de performance pour six applications de vision artificielle tout en maintenant des coûts de collecte globaux peu élevés.
À propos du conférencier
Rafid Mahmood est professeur adjoint en finance à l’École de