Proposition de thèse : Apprentissage profond pour le rehaussement de la parole dans les antennes acoustiques ad-hoc

Informations générales:

  • Location : Loria/Inria Nancy Grand-Est (Nancy, France) et LCTI/Télécom ParisTech (Paris, France)
  • Encadrants : Romain Serizel (Université de Lorraine, Loria), Irina Illina (Université de Lorraine, Loria), Slim Essid (Télécom ParisTech, LTCI)
  • Thèmes de recherche : Perception, Cognition, Interaction
  • Equipe-projet : Multispeech
  • Date de début : Septembre 2018

Clôture des candidatures : 30 avril 2018

Contexte scientifique :

La parole est omniprésente dans notre vie quotidienne. C’est l’un des moyens de communication les plus intuitifs si bien qu’au cours d’une journée normale vous aurez probablement une multitude d’interactions basées sur la parole. Cependant, la plupart des applications informatiques qui sont basées sur la parole s’appuient sur l’hypothèse qu’une version “propre” de la parole est disponible. C’est rarement le cas dans la réalité. Une solution est d’appliquer des techniques de rehaussement de la parole pour extraire la composante parole d’un mélange bruité [1]. Dans le contexte actuel de déploiement rapide de terminaux mobiles équipés d’au moins deux microphones, tout le monde a accès en permanence à de nombreux microphones. Cependant, exploiter la multitude d’appareils équipés de microphones présents dans notre vie quotidienne (composant une antenne acoustique hétérogène) est loin d’être simple.

Missions :

Ces dernières années, de nombreuses recherches ont été dédiées au rehaussement de la parole multicanal : s’appuyant à l’origine sur le traitement du signal [4, 5] et plus récemment tirant partie de l’apprentissage profond [6]. L’application de ces algorithmes aux signaux collectés par une antenne composée de multiples terminaux nécessite une calibration et une synchronisation des terminaux difficiles à réaliser au niveau signal. Durant cette thèse, plutôt que de considérer chaque terminal comme faisant partie d’une antenne de grande dimension, nous considérerons les signaux issus de chaque terminal comme différentes vues d’une même scène. Pour résoudre le problème du rehaussement multicanal nous explorerons donc l’apprentissage conjoint basé sur l’apprentissage profond [7, 8], sur la factorisation en matrices positives [9] ou sur une combinaison des deux.

Profil :

  • Master recherche en informatique, apprentissage ou traitement du signal
  • Expérience de programmation en Python
  • Une expérience avec un outil pour l’apprentissage profond serait un plus

Références :

[1] Loizou, P. C. “Speech enhancement: theory and practice.” CRC Press, 2013

[2] Kako, T., Niwa, K., Kobayashi, K., and Ohmuro, H. “Wiener filter design by estimating sensitivities between distributed asynchronous microphones and sound sources.” In Proc of the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA) (2015), pp. 1–5.

[3] Doclo, S., Spriet, A., Wouters, J., and Moonen, M. “Frequency-domain criterion for the speech distortion weighted multichannel wiener filter for robust noise reduction.” Speech Communication 49, 7 (2007), 636–656.

[4] Serizel, R., Moonen, M., Van Dijk, B., and Wouters, J. “Low-rank Approximation Based Multichannel Wiener Filter Algorithms for Noise Reduction with Application in Cochlear Implants.” IEEE/ACM Transactions on Audio, Speech and Language Processing 22 (2014), 785–799.

[6] Nugraha, A. A., Liutkus, A. and Vincent, E. “Multichannel audio source separation with deep neural networks”, IEEE/ACM Transactions on Audio, Speech, and Language Processing 24, 9 (2016), 1652–1664.

[7] Wang, W., Arora, R., Livescu, K., and Bilmes, J. A. “On deep multi-view representation learning.” In Proc of the International Conference on Machine Learning (ICML) (2015), pp. 1083–1092.

[8] Andrew, G., Arora, R., Bilmes, J. A., and Livescu, K. “Deep canonical correlation analysis.” In Proc of the International Conference on Machine Learning (ICML) (2013), pp. 1247–1255.

[9] Seichepine, N., Essid, S., Févotte, C., and Cappé, O. “Soft nonnegative matrix co-factorization.” IEEE Transactions on Signal Processing 62, 22 (2014), 5940–5949.

Informations complémentaires :

Les candidats potentiels doivent envoyer les documents suivants à Romain Serizel (https://members.loria.fr/RSerizel/) : 

Clôture des candidatures : 30 avril 2018

  • CV

  • Lettre de motivation décrivant leur intérêt pour le sujet

  • Attestation de diplôme et relevés de notes pour les licences et master (ou pour les 5 dernières années)

  • Mémoire de master (ou équivalent) si déjà soutenu, ou une description des travaux en cours dans le cas contraire

  • Publication du candidat, s’il y en a (il n’est pas attendu que les candidats aient des publications)

En complément, une lettre de recommandation d’une personne ayant encadré les tr

En ce moment

Colloquium Loria 2018

Exposés précédents

Logo du CNRS
Logo Inria
Logo Université de Lorraine