– E. Vincent (INRIA) : comment interfacer séparation de sources et classification audio ?

Carte non disponible

Date/heure
Date(s) - 11/07/2013
14 h 00 min - 15 h 00 min

Catégories Pas de Catégories


Comment interfacer séparation de sources et classification audio? By Emmanuel Vincent, Inria Nancy – Grand Est. On considère le problème de la classification audio au sens large: reconnaissance de la parole, identification du locuteur ou du chanteur, etc. En situation réelle, le signal cible est souvent superposé à d’autres signaux (bruit, accompagnement musical, etc). Si la séparation de sources permet de rehausser le signal cible, elle introduit aussi des distorsions de sorte que la performance de classification augmente peu voire diminue. L’approche appelée “propagation de l’incertitude” consiste à estimer la distribution a posteriori des signaux sources et à la propager à travers les étapes de calcul des descripteurs et de classification, de sorte à améliorer la robustesse aux distorsions. Après avoir introduit cette approche, nous présenterons deux nouvelles contributions dans ce cadre: – une méthode d’estimation de la distribution a posteriori des signaux sources basée sur un algorithme variationnel bayésien – une méthode d’apprentissage des classifieurs par mélanges de gaussiennes ou par modèles de Markov cachés fonctionnant directement sur des signaux bruités Nous présentons des applications de ces résultats à l’identification du locuteur dans un contexte domestique bruité et à l’identification du chanteur dans la musique polyphonique. Kamil Adiloglu and Emmanuel Vincent, “A general variational Bayesian framework for robust feature extraction in multisource recordings”, in Proc. 2012 IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 273–276, 2012. http://hal.inria.fr/hal-00656613/PDF/VARNMF.pdf Alexey Ozerov, Mathieu Lagrange, and Emmanuel Vincent, “Uncertainty-based learning of acoustic models from noisy data”, Computer Speech and Language, 27(3), pp. 874–894, 2013. http://hal.inria.fr/hal-00717992/PDF/ozerov_CSL12.pdf Mathieu Lagrange, Alexey Ozerov, and Emmanuel Vincent, “Robust singer identification in polyphonic music using melody enhancement and uncertainty-based learning”, in Proc. 13th Int. Society for Music Information Retrieval Conf. (ISMIR), pp. 595–600, 2012. http://hal.inria.fr/hal-00709826/PDF/lagrange_ISMIR12.pdf

– E. Vincent (INRIA) : comment interfacer séparation de sources et classification audio ?

Carte non disponible

Date/heure
Date(s) - 11/07/2013
14 h 00 min - 15 h 00 min

Catégories Pas de Catégories


Comment interfacer séparation de sources et classification audio ?\nBy Emmanuel Vincent, Inria Nancy – Grand Est.\n\nOn considère le problème de la classification audio au sens large : reconnaissance de la parole, identification du locuteur ou du chanteur, etc. En situation réelle, le signal cible est souvent superposé à d’autres signaux (bruit, accompagnement musical, etc). Si la séparation de sources permet de rehausser le signal cible, elle introduit aussi des distorsions de sorte que la performance de classification augmente peu voire diminue. L’approche appelée “propagation de l’incertitude” consiste à estimer la distribution a posteriori des signaux sources et à la propager à travers les étapes de calcul des descripteurs et de classification, de sorte à améliorer la robustesse aux distorsions.\n\nAprès avoir introduit cette approche, nous présenterons deux nouvelles contributions dans ce cadre :\n- une méthode d’estimation de la distribution a posteriori des signaux sources basée sur un algorithme variationnel bayésien\n- une méthode d’apprentissage des classifieurs par mélanges de gaussiennes ou par modèles de Markov cachés fonctionnant directement sur des signaux bruités\nNous présentons des applications de ces résultats à l’identification du locuteur dans un contexte domestique bruité et à l’identification du chanteur dans la musique polyphonique.\n\nKamil Adiloglu and Emmanuel Vincent, “A general variational Bayesian framework for robust feature extraction in multisource recordings”, in Proc. 2012 IEEE Int. Conf. on Acoustics, Speech and Signal\nProcessing (ICASSP), pp. 273–276, 2012.\nhttp://hal.inria.fr/hal-00656613/PDF/VARNMF.pdf\n\nAlexey Ozerov, Mathieu Lagrange, and Emmanuel Vincent, “Uncertainty-based learning of acoustic models from noisy data”, Computer Speech and Language, 27(3), pp. 874–894, 2013.\nhttp://hal.inria.fr/hal-00717992/PDF/ozerov_CSL12.pdf\n\nMathieu Lagrange, Alexey Ozerov, and Emmanuel Vincent, “Robust singer identification in polyphonic music using melody enhancement and uncertainty-based learning”, in Proc. 13th Int. Society for Music Information Retrieval Conf. (ISMIR), pp. 595–600, 2012.\nhttp://hal.inria.fr/hal-00709826/PDF/lagrange_ISMIR12.pdf[