Thierry Artières – [Luminy] Thierry Artières (LIP6) : Classification dans un très grand nombre de catégories Carte non disponible Date/heure Date(s) - 27 mars 2014 Catégories Pas de Catégories La croissance du volume des données, leur complexification, la multiplication des besoins exprimés par les nouvelles applications liées aux nouveaux moyens daccès aux données (web, mobilité, sites collaboratifs, etc,) génèrent quantité de nouveaux problèmes de traitement de données pour lesquels lapprentissage automatique doit produire de nouvelles solutions. Un exemple emblématique de ce phénomène est le problème de la classification multiclasses et de sa déclinaison à un grand nombre de classes (e.g. > 100 000), ce qui correspond à des problématiques telles que lindexation de documents textuels dans une ontologie ou une taxonomie hiérarchique, lannotation de photos ou de vidéos… Ce changement quantitatif du problème impose un changement qualitatif des méthodes. Il est impératif pour obtenir des systèmes exploitables en pratique de concevoir des méthodes de complexité sous linéaire dans le nombre de classes, en apprentissage mais surtout en inférence. \nDans ce contexte, je décrirai des travaux réalisés sur la conception de classifieurs rapides en inférence pour le cadre monolabel inspirés de lidée des Error Correcting Output Codes. Puis je décrirai comment il est possible d’étendre cette idée à la classification multilabels, en exploitant une procédure de codage dun ensemble déléments par filtres de Bloom, tout en ayant une garantie sur l’erreur réalisée en termes de Hamming Loss.[
Thierry Artières – [Luminy] Thierry Artières (LIP6) : Classification dans un très grand nombre de catégories Carte non disponible Date/heure Date(s) - 27 mars 2014 Catégories Pas de Catégories La croissance du volume des données, leur complexification, la multiplication des besoins exprimés par les nouvelles applications liées aux nouveaux moyens daccès aux données (web, mobilité, sites collaboratifs, etc,) génèrent quantité de nouveaux problèmes de traitement de données pour lesquels lapprentissage automatique doit produire de nouvelles solutions. Un exemple emblématique de ce phénomène est le problème de la classification multiclasses et de sa déclinaison à un grand nombre de classes (e.g. > 100 000), ce qui correspond à des problématiques telles que lindexation de documents textuels dans une ontologie ou une taxonomie hiérarchique, lannotation de photos ou de vidéos… Ce changement quantitatif du problème impose un changement qualitatif des méthodes. Il est impératif pour obtenir des systèmes exploitables en pratique de concevoir des méthodes de complexité sous linéaire dans le nombre de classes, en apprentissage mais surtout en inférence. \nDans ce contexte, je décrirai des travaux réalisés sur la conception de classifieurs rapides en inférence pour le cadre monolabel inspirés de lidée des Error Correcting Output Codes. Puis je décrirai comment il est possible d’étendre cette idée à la classification multilabels, en exploitant une procédure de codage dun ensemble déléments par filtres de Bloom, tout en ayant une garantie sur l’erreur réalisée en termes de Hamming Loss.[