Offre de thèse : Apprentissage profond pour la réduction de la parole dans les antennes acoustiques ad-hoc

Type de poste :  Doctorat

Thèmes de recherche : Perception, Cognition, Interaction

Equipe-projet : MULTISPEECH

Encadrement et contact : Romain Serizel (romain.serizel@loria.fr) et Emmanuel Vincent (emmanuel.vincent@inria.fr)

Mots clés : rehaussement de la parole, traitement du signal, apprentissage profond, antennes acoustiques

Description de la problématique de recherche

Contexte scientifique : La parole est l’un des moyens de communication entre humains les plus intuitifs. Depuis le début des années 2010, avec l’émergence d’applications grand-public fiables reposant sur la voix, la parole est même devenue un moyen privilégié d’interagir avec les terminaux mobiles. Cependant, la plupart des applications qui reposent sur la communication parlée s’appuient sur l’hypothèse qu’une version ‘propre’ de la parole est disponible. C’est rarement le cas dans les scénarios réels où la parole est généralement corrompue par du bruit qui peut très largement dégrader la communication. Le rehaussement de la parole est une solution à ce problème qui consiste à extraire la parole d’un signal bruité. Les approches multicanales en particulier, ont attiré l’attention ces dernières années principalement car elles sont supérieures aux approches monocanales sur biens des aspects. Cependant, les antennes acoustiques traditionnelles sont limitées notamment en terme d’espace et de géométrie et les antennes acoustiques ah-hoc (composées d’un ensemble de nœuds équipés de microphones) sont récemment apparues comme une alternative crédible.

Missions : Le but de cette thèse et de généraliser les progrès récemment obtenus en utilisant l’apprentissage profond [1] au rehaussement de la parole dans les antennes acoustiques ad-hoc. Les approches actuelles sont pour la plupart limitées au cas monocanal [2, 3] ou s’appuient d’une manière sur de la formation de voies classique [4, 5] ou du moyennage [6] pour produire un signal monocanal qui servira d’entrée au réseau profond. Ces approches dépendent donc d’un traitement centralisé et de certaines hypothèses sur la topologie de l’antenne acoustique. Ainsi, leur extension aux réseaux ad-hoc qui ont une topologie libre pouvant varier au cours du temps et pour lesquels on préférera généralement le traitement distribué, est loin d’être évidente. Reformuler le problème du rehaussement de la parole comme un problème d’apprentissage profond prenant des signaux multicanaux en entrée, proposer des méthodes d’apprentissage distribué et en ligne doit permet d’appliquer le rehaussement de la parole à base d’apprentissage profond aux antennes acoustiques ad-hoc et d’améliorer les performances par rapport aux approches de l’état de l’art [7].

Profil et compétences recherchées :
Master recherche en informatique, apprentissage, traitement du signal
Expérience avec le langage de programmation Python
Une expérience des boites à outils pur l’apprentissage profond serait un plus

Documents nécessaires pour postuler :

  • CV;
  • Lettre de motivation;
  • Copie des diplômes et relevés de notes pour Licence et Master (ou les 5 dernières années);
  • Mémoire de Master (ou équivalent) si déjà complété, ou une description des travaux en cours;
  • Toutes vos publications, si vous en avez (il n’est pas attendu que vous en ayez);
  • Au moins une lettre de recommandation de la personne qui vous encadre (a encadré) durant votre stage de master ; vous pouvez envoyer au plus deux autres lettres de recommandation.
    Les lettres de recommandation doivent être envoyées directement à l’encadrant de thèse.

Tous les documents doivent être envoyés dans au plus 2 fichiers pdf : un fichier pour les publication (si il y en a) ; un autre fichier pour tous les documents restants. Ces deux fichiers doivent être envoyés doivent être envoyé à l’encadrant de thèse.

Références bibliographiques

[1] L. Deng and D. Yu, Deep Learning: Methods and Applications, NOW Publishers, 2014.

[2] Wang, Y., Narayanan, A., & Wang, D. (2014). On training targets for supervised speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12), 1849-1858.

[3] Chen, J., Wang, Y., & Wang, D. (2015). Noise perturbation improves supervised speech separation. In International Conference on Latent Variable Analysis and Signal Separation (pp. 83-90).

[4] Weninger, F., Erdogan, H., Watanabe, S., Vincent, E., Le Roux, J., Hershey, J. R., & Schuller, B. (2015). Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In International Conference on Latent Variable Analysis and Signal Separation (pp. 91-99).

[5] Pfeifenberger, L., Schrank, T., Zohrer, M., Hagm, M., & Pernkopf, F. (2015). Multi-channel speech processing architectures for noise robust speech recognition: 3rd CHiME challenge results. In 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (pp. 452-459).

[6] Nugraha, A. A., Liutkus, A., & Vincent, E. (2015). Multichannel audio source separation with deep neural networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24 (10), pp.1652-1664.

[7] Markovich-Golan, S., Bertrand, A., Moonen, M., & Gannot, S. (2015). Optimal distributed minimum-variance beamforming approaches for speech enhancement in wireless acoustic sensor networks. Signal Processing, 107, 4-20.

En ce moment

Logo du CNRS
Logo Inria
Logo Université de Lorraine