Thierry Artières – [Luminy] Thierry Artières (LIP6) : Classification dans un très grand nombre de catégories

Carte non disponible

Date/heure
Date(s) - 27 mars 2014

Catégories Pas de Catégories


La croissance du volume des données, leur complexification, la multiplication des besoins exprimés par les nouvelles applications liées aux nouveaux moyens d’accès aux données (web, mobilité, sites collaboratifs, etc,) génèrent quantité de nouveaux problèmes de traitement de données pour lesquels l’apprentissage automatique doit produire de nouvelles solutions. Un exemple emblématique de ce phénomène est le problème de la classification multiclasses et de sa déclinaison à un grand nombre de classes (e.g. > 100 000), ce qui correspond à des problématiques telles que l’indexation de documents textuels dans une ontologie ou une taxonomie hiérarchique, l’annotation de photos ou de vidéos… Ce changement quantitatif du problème impose un changement qualitatif des méthodes. Il est impératif pour obtenir des systèmes exploitables en pratique de concevoir des méthodes de complexité sous linéaire dans le nombre de classes, en apprentissage mais surtout en inférence. \nDans ce contexte, je décrirai des travaux réalisés sur la conception de classifieurs rapides en inférence pour le cadre monolabel inspirés de l’idée des Error Correcting Output Codes. Puis je décrirai comment il est possible d’étendre cette idée à la classification multilabels, en exploitant une procédure de codage d’un ensemble d’éléments par filtres de Bloom, tout en ayant une garantie sur l’erreur réalisée en termes de Hamming Loss.[

Thierry Artières – [Luminy] Thierry Artières (LIP6) : Classification dans un très grand nombre de catégories

Carte non disponible

Date/heure
Date(s) - 27 mars 2014

Catégories Pas de Catégories


La croissance du volume des données, leur complexification, la multiplication des besoins exprimés par les nouvelles applications liées aux nouveaux moyens d’accès aux données (web, mobilité, sites collaboratifs, etc,) génèrent quantité de nouveaux problèmes de traitement de données pour lesquels l’apprentissage automatique doit produire de nouvelles solutions. Un exemple emblématique de ce phénomène est le problème de la classification multiclasses et de sa déclinaison à un grand nombre de classes (e.g. > 100 000), ce qui correspond à des problématiques telles que l’indexation de documents textuels dans une ontologie ou une taxonomie hiérarchique, l’annotation de photos ou de vidéos… Ce changement quantitatif du problème impose un changement qualitatif des méthodes. Il est impératif pour obtenir des systèmes exploitables en pratique de concevoir des méthodes de complexité sous linéaire dans le nombre de classes, en apprentissage mais surtout en inférence. \nDans ce contexte, je décrirai des travaux réalisés sur la conception de classifieurs rapides en inférence pour le cadre monolabel inspirés de l’idée des Error Correcting Output Codes. Puis je décrirai comment il est possible d’étendre cette idée à la classification multilabels, en exploitant une procédure de codage d’un ensemble d’éléments par filtres de Bloom, tout en ayant une garantie sur l’erreur réalisée en termes de Hamming Loss.[