Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Soutenance de thèse / PhD defense, Lauréline Perotin

31 octobre 2019 @ 13:30 - 14:30

“Localisation et rehaussement de sources de parole au format Ambisonique”

Jury
Dorothea KOLOSSA, Professeure, Ruhr-Universität Bochum, Allemagne
Laurent GIRIN, Professeur, Grenoble INP, France
Christine EVERS, EPSRC Research Fellow, Imperial College London, Royaume-Uni

Encadrants
Emmanuel VINCENT, Directeur de recherche, Inria Nancy – Grand Est, France
Romain SERIZEL, Professeur associé, Université de Lorraine Loria, Nancy, France
Alexandre GUERIN, Ingénieur de recherche, Orange Labs, Cesson Sévigné, France

Résumé
Les assistants vocaux sont de plus en plus présents autour de nous. Comment faire pour que les commandes vocales soient correctement comprises, même si l’appareil est situé loin du locuteur, en présence de bruit ambiant ou si plusieurs personnes parlent en même temps ?
Cette thèse utilise un type de microphone particulier, dit Ambisonique, qui permet de capter la dimension spatiale du son. Grâce à cette information, nous proposons des systèmes combinant réseaux de neurones et traitement du signal audio afin de localiser la position spatiale et extraire le signal de parole du locuteur principal. Cela se traduit par une forte amélioration de la qualité de reconnaissance vocale, ce qui est une étape essentielle pour le développement d’un majordome domotique virtuel.

 


“Deep learning-based speaker localization and speech separation from Ambisonics recordings”

Jury
Dorothea KOLOSSA, Professor, Ruhr-Universität Bochum, Germany
Laurent GIRIN, Professor, Grenoble INP, France
Christine EVERS, EPSRC Research Fellow, Imperial College London, United Kingdom

Supervisors
Emmanuel VINCENT, Directeur de recherche, Inria Nancy – Grand Est, France
Romain SERIZEL, Professeur associé, Université de Lorraine Loria, Nancy, France
Alexandre GUERIN, Ingénieur de recherche, Orange Labs, Cesson Sévigné, France

Abstract
Voice assistants are more and more present around us. How to make sure that the voice commands are correctly understood, even if the unit is located far from the speaker, in the presence of ambient noise or if several people are talking at the same time?
This thesis uses a particular type of microphone, called Ambisonique, which captures the spatial dimension of sound. With this information, we propose systems combining neural networks and audio signal processing to locate the spatial position and extract the speech signal from the main speaker. This allows a strong improvement in speech recognition quality, which is an essential step for the development of a virtual home butler.

 

Détails

Date :
31 octobre 2019
Heure :
13:30 - 14:30
Catégorie d’évènement:

Lieu

C005