– PhD Defense : Sokol Koço (LIF), Méthodes ensemblistes pour des problèmes de classification multi-vues et multi-classes avec déséquilibres Carte non disponible Date/heure Date(s) - 16 décembre 2013 Catégories Pas de Catégories Méthodes ensemblistes pour des problèmes de classification multi-vues et multi-classes avec déséquilibres\n\nLieu : FRIIAM et FRUMAM, 2ème étage du bâtiment de chimie (bâtiment 7/c1 sur le plan http://sciences.univ-amu.fr/sites/sciences.univ-amu.fr/files/plan_du_site_st_charles_02-12.pdf)\n\nBy Sokol Koço, LIF, Marseille.\n\nRésumé de la thèse :\nDe nos jours, dans plusieurs domaines, tels que la bio-informatique ou le multimédia, les données peuvent être représentées par plusieurs ensembles d’attributs, appelés des vues. Bien que représentant les mêmes objets, chaque vue est plus ou moins adaptée à une tâche d’apprentissage donnée. Pour une tâche de classification donnée, nous distinguons deux types de vues : les vues fortes sont celles adaptées à la tâche, les vues faibles sont adaptées à une (petite) partie de la tâche \ ; en classification multi-classes, chaque vue peut s’avérer forte pour reconnaître une classe, et faible pour reconnaître dautres classes : une telle vue est dite déséquilibrée. Les travaux présentés dans cette thèse s’inscrivent dans le cadre de l’apprentissage supervisé et ont pour but de traiter les questions d’apprentissage multi-vue dans le cas des vues fortes, faibles et déséquilibrées.\n\nLa première contribution de cette thèse est un algorithme d’apprentissage multi-vues théoriquement fondé sur le cadre de boosting multi-classes utilisé par AdaBoost.MM. Le but de cet algorithme est d’améliorer les performances des classifieurs appris sur les vues fortes en utilisant des informations contenues dans les vues faibles et en établissant ainsi une coopération entre les vues.\n\nLa seconde partie de cette thèse concerne la mise en place d’un cadre général pour les méthodes d’apprentissage de classes déséquilibrées (certaines classes sont plus représentées que les autres). Ce cadre consiste à utiliser la norme de la matrice de confusion comme mesure d’erreur pour un classifieur donné. Dans ce cadre, nous proposons une extension de AdaBoost.MM permettant de prendre en compte des classes déséquilibrées.\n\nDans la troisième partie, nous traitons le problème des vues déséquilibrées en combinant notre approche des classes déséquilibrées et la coopération entre les vues mise en place pour appréhender la classification multi-vues. Dans ce cas, la coopération passe de l’espace d’entrée à celui de sortie, ce qui permet de trouver la meilleure vue pour chaque classe. Plusieurs méthodes basées sur cette idée sont proposées, parmi lesquelles une méthode de boosting proche de la première méthode.\n\nAfin de tester les méthodes sur des données réelles, nous nous intéressons au problème de classification d’appels téléphoniques, qui a fait l’objet du projet ANR DECODA.Ainsi chaque partie traite différentes facettes du problème. La première partie présente le problème en tant que problème multi-vues (sacs de mots et de concepts, prosodie, mesures de l’interaction entre les locuteurs, etc.) : est-ce que la séparation des vues, traitées par coopération, améliore les performances d’une fusion précoce de toutes ces vues ? Dans la seconde partie, nous considérons le problème des classes déséquilibrées (par exemple, il y a beaucoup plus d’appels concernant les itinéraires que les procès verbaux). La troisième partie regroupe les aspects multi-vues et les déséquilibres entre classes.\n\nRapporteurs :\nMarc Sebban, Université Jean Monnet de Saint-Etienne\nFrançois Yvon, Université Paris Sud\n\nExaminateurs :\nGéraldine Damnati, Orange Labs\nLiva Ralaivola, Aix*Marseille Université\nNicolas Usunier, Université Technologique de Compiègne\n\nDirecteurs :\nFrédéric Béchet, Aix*Marseille Université\nCécile Capponi, Aix*Marseille Université[
– PhD Defense : Sokol Koço (LIF), Méthodes ensemblistes pour des problèmes de classification multi-vues et multi-classes avec déséquilibres Carte non disponible Date/heure Date(s) - 16 décembre 2013 Catégories Pas de Catégories Méthodes ensemblistes pour des problèmes de classification multi-vues et multi-classes avec déséquilibres\n\nLieu : FRIIAM et FRUMAM, 2ème étage du bâtiment de chimie (bâtiment 7/c1 sur le plan http://sciences.univ-amu.fr/sites/sciences.univ-amu.fr/files/plan_du_site_st_charles_02-12.pdf)\n\nBy Sokol Koço, LIF, Marseille.\n\nRésumé de la thèse :\nDe nos jours, dans plusieurs domaines, tels que la bio-informatique ou le multimédia, les données peuvent être représentées par plusieurs ensembles d’attributs, appelés des vues. Bien que représentant les mêmes objets, chaque vue est plus ou moins adaptée à une tâche d’apprentissage donnée. Pour une tâche de classification donnée, nous distinguons deux types de vues : les vues fortes sont celles adaptées à la tâche, les vues faibles sont adaptées à une (petite) partie de la tâche \ ; en classification multi-classes, chaque vue peut s’avérer forte pour reconnaître une classe, et faible pour reconnaître dautres classes : une telle vue est dite déséquilibrée. Les travaux présentés dans cette thèse s’inscrivent dans le cadre de l’apprentissage supervisé et ont pour but de traiter les questions d’apprentissage multi-vue dans le cas des vues fortes, faibles et déséquilibrées.\n\nLa première contribution de cette thèse est un algorithme d’apprentissage multi-vues théoriquement fondé sur le cadre de boosting multi-classes utilisé par AdaBoost.MM. Le but de cet algorithme est d’améliorer les performances des classifieurs appris sur les vues fortes en utilisant des informations contenues dans les vues faibles et en établissant ainsi une coopération entre les vues.\n\nLa seconde partie de cette thèse concerne la mise en place d’un cadre général pour les méthodes d’apprentissage de classes déséquilibrées (certaines classes sont plus représentées que les autres). Ce cadre consiste à utiliser la norme de la matrice de confusion comme mesure d’erreur pour un classifieur donné. Dans ce cadre, nous proposons une extension de AdaBoost.MM permettant de prendre en compte des classes déséquilibrées.\n\nDans la troisième partie, nous traitons le problème des vues déséquilibrées en combinant notre approche des classes déséquilibrées et la coopération entre les vues mise en place pour appréhender la classification multi-vues. Dans ce cas, la coopération passe de l’espace d’entrée à celui de sortie, ce qui permet de trouver la meilleure vue pour chaque classe. Plusieurs méthodes basées sur cette idée sont proposées, parmi lesquelles une méthode de boosting proche de la première méthode.\n\nAfin de tester les méthodes sur des données réelles, nous nous intéressons au problème de classification d’appels téléphoniques, qui a fait l’objet du projet ANR DECODA.Ainsi chaque partie traite différentes facettes du problème. La première partie présente le problème en tant que problème multi-vues (sacs de mots et de concepts, prosodie, mesures de l’interaction entre les locuteurs, etc.) : est-ce que la séparation des vues, traitées par coopération, améliore les performances d’une fusion précoce de toutes ces vues ? Dans la seconde partie, nous considérons le problème des classes déséquilibrées (par exemple, il y a beaucoup plus d’appels concernant les itinéraires que les procès verbaux). La troisième partie regroupe les aspects multi-vues et les déséquilibres entre classes.\n\nRapporteurs :\nMarc Sebban, Université Jean Monnet de Saint-Etienne\nFrançois Yvon, Université Paris Sud\n\nExaminateurs :\nGéraldine Damnati, Orange Labs\nLiva Ralaivola, Aix*Marseille Université\nNicolas Usunier, Université Technologique de Compiègne\n\nDirecteurs :\nFrédéric Béchet, Aix*Marseille Université\nCécile Capponi, Aix*Marseille Université[