– Soutenance de thèse E. Morvant (LIF)

Carte non disponible

Date/heure
Date(s) - 18 septembre 2013

Catégories Pas de Catégories


Apprentissage de vote de majorité pour la classification supervisée et l’adaptation de domaine : approches PAC-Bayésienne et combinaison de similarités par Emilie Morvant, LIF. Le jury sera composé de : Rapporteurs : Michèle Sebag, Directrice de recherche CNRS, Université d’Orsay Mario Marchand, Professeur, Université Laval de Québec Examinateur : Antoine Cornuéjols, Professeur, AgroParisTech Rémi Gilleron, Professeur, Université de Lille Liva Ralaivola, Professeur, Aix*Marseille Université Directeurs Amaury Habrard, Professeur, Université de Saint-Etienne Stéphane Ayache, Maître de Conférences, Aix*Marseille Université Résumé: De nos jours, avec l’expansion d’Internet, l’abondance et la diversité des données accessibles qui en résulte, de nombreuses applications requièrent l’utilisation de méthodes d’apprentissage automatique supervisé capables de prendre en considération différentes sources d’informations. Par exemple, pour des applications relevant de l’indexation sémantique de documents multimédia, il s’agit de pouvoir efficacement tirer bénéfice d’informations liées à la couleur, au texte, à la texture ou au son des documents à traiter. La plupart des méthodes existantes proposent de combiner ces informations multimodales, soit en fusionnant directement les descriptions, soit en combinant des similarités ou des classifieurs, avec pour objectif de construire un modèle de classification automatique plus fiable pour la tâche visée. Ces aspects multimodaux induisent généralement deux types de difficultés. D’une part, il faut être capable d’utiliser au mieux toute l’information a priori disponible sur les objets à combiner. D’autre part, les données sur lesquelles le modèle doit être appliqué ne suivent nécessairement pas la même distribution de probabilité que les données utilisées lors de la phase d’apprentissage. Dans ce contexte, il faut être à même d’adapter le modèle à de nouvelles données, ce qui relève de l’adaptation de domaine. Dans cette thèse, nous proposons plusieurs contributions fondées théoriquement et répondant à ces problématiques. Une première série de contributions s’intéresse à l’apprentissage de votes de majorité pondérés sur un ensemble de votants dans le cadre de la classification supervisée. Ces contributions s’inscrivent dans le contexte de la théorie PAC-Bayésienne permettant d’étudier les capacités en généralisation de tels votes de majorité en supposant un {\it a priori} sur la pertinence des votants. Notre première contribution vise à étendre un algorithme récent, MinCq, minimisant une borne sur l’erreur du vote de majorité en classification binaire. Cette extension permet de prendre en compte une connaissance {\it a priori} sur les performances des votants à combiner sous la forme d’une distribution alignée. Nous illustrons son intérêt dans une optique de combinaison de classifieurs de type plus proches voisins, puis dans une perspective de fusion de classifieurs pour l’indexation sémantique de documents multimédia. Nous proposons ensuite une contribution théorique pour des problèmes de classification multiclasse. Cette approche repose sur une analyse PAC-Bayésienne originale en considérant la norme opérateur de la matrice de confusion comme mesure de risque. Notre seconde série de contributions concerne la problématique de l’adaptation de domaine. Dans cette situation, nous présentons notre troisième apport visant à combiner des similarités permettant d’inférer un espace de représentation de manière à rapprocher les distributions des données d’apprentissage et des données à traiter. Cette contribution se base sur la théorie des fonctions de similarités (epsilon,gamma,tau)-bonnes et se justifie par la minimisation d’une borne classique en adaptation de domaine. Pour notre quatrième et dernière contribution, nous proposons la première analyse PAC-Bayésienne appropriée à l’adaptation de domaine. Cette analyse se base sur une mesure consistante de divergence entre distributions permettant de dériver une borne en généralisation pour l’apprentissage de votes de majorité en classification binaire. Elle nous permet également de proposer un algorithme adapté aux classifieurs linéaires capable de minimiser cette borne de manière directe.

– Soutenance de thèse E. Morvant (LIF)

Carte non disponible

Date/heure
Date(s) - 18 septembre 2013

Catégories Pas de Catégories


Apprentissage de vote de majorité pour la classification supervisée et l’adaptation de domaine : approches PAC-Bayésienne et combinaison de similarités\n\npar Emilie Morvant, LIF.\n\nLe jury sera composé de :\n\nRapporteurs :\nMichèle Sebag, Directrice de recherche CNRS, Université d’Orsay\nMario Marchand, Professeur, Université Laval de Québec\n\nExaminateur :\nAntoine Cornuéjols, Professeur, AgroParisTech\nRémi Gilleron, Professeur, Université de Lille\nLiva Ralaivola, Professeur, Aix*Marseille Université\n\nDirecteurs\nAmaury Habrard, Professeur, Université de Saint-Etienne\nStéphane Ayache, Maître de Conférences, Aix*Marseille Université\n\nRésumé :\nDe nos jours, avec l’expansion d’Internet, l’abondance et la diversité des données accessibles qui en résulte, de nombreuses applications requièrent l’utilisation de méthodes d’apprentissage automatique supervisé capables de prendre en considération différentes sources d’informations. Par exemple, pour des applications relevant de l’indexation sémantique de documents multimédia, il s’agit de pouvoir efficacement tirer bénéfice d’informations liées à la couleur, au texte, à la texture ou au son des documents à traiter. La plupart des méthodes existantes proposent de combiner ces informations multimodales, soit en fusionnant directement les descriptions, soit en combinant des similarités ou des classifieurs, avec pour objectif de construire un modèle de classification automatique plus fiable pour la tâche visée. Ces aspects multimodaux induisent généralement deux types de difficultés. D’une part, il faut être capable d’utiliser au mieux toute l’information a priori disponible sur les objets à combiner. D’autre part, les données sur lesquelles le modèle doit être appliqué ne suivent nécessairement pas la même distribution de probabilité que les données utilisées lors de la phase d’apprentissage. Dans ce contexte, il faut être à même d’adapter le modèle à de nouvelles données, ce qui relève de l’adaptation de domaine. \nDans cette thèse, nous proposons plusieurs contributions fondées théoriquement et répondant à ces problématiques.\nUne première série de contributions s’intéresse à l’apprentissage de votes de majorité pondérés sur un ensemble de votants dans le cadre de la classification supervisée. Ces contributions s’inscrivent dans le contexte de la théorie PAC-Bayésienne permettant d’étudier les capacités en généralisation de tels votes de majorité en supposant un \it a priori sur la pertinence des votants. Notre première contribution vise à étendre un algorithme récent, MinCq, minimisant une borne sur l’erreur du vote de majorité en classification binaire. Cette extension permet de prendre en compte une connaissance \it a priori sur les performances des votants à combiner sous la forme d’une distribution alignée. Nous illustrons son intérêt dans une optique de combinaison de classifieurs de type plus proches voisins, puis dans une perspective de fusion de classifieurs pour l’indexation sémantique de documents multimédia. Nous proposons ensuite une contribution théorique pour des problèmes de classification multiclasse. Cette approche repose sur une analyse PAC-Bayésienne originale en considérant la norme opérateur de la matrice de confusion comme mesure de risque.\nNotre seconde série de contributions concerne la problématique de l’adaptation de domaine. Dans cette situation, nous présentons notre troisième apport visant à combiner des similarités permettant d’inférer un espace de représentation de manière à rapprocher les distributions des données d’apprentissage et des données à traiter. Cette contribution se base sur la théorie des fonctions de similarités (epsilon,gamma,tau)-bonnes et se justifie par la minimisation d’une borne classique en adaptation de domaine. Pour notre quatrième et dernière contribution, nous proposons la première analyse PAC-Bayésienne appropriée à l’adaptation de domaine. Cette analyse se base sur une mesure consistante de divergence entre distributions permettant de dériver une borne en généralisation pour l’apprentissage de votes de majorité en classification binaire. Elle nous permet également de proposer un algorithme adapté aux classifieurs linéaires capable de minimiser cette borne de manière directe.[