Offre de thèse : Apprentissage profond pour l’analyse de scènes sonores en environnements réels

Type de poste :  Doctorat

Thèmes de recherche : Perception, Cognition, Interaction

Equipe-projet : MULTISPEECH

Encadrement et contact : Romain Serizel (romain.serizel@loria.fr) et Emmanuel Vincent (emmanuel.vincent@inria.fr)

Mots clés : apprentissage profond, analyse de sons de l’environnement

Description de la problématique de recherche

Contexte scientifique : L’objectif de cette thèse est de concevoir un système d’analyse automatique de scènes sonores par apprentissage profond [2] qui soit robuste à la variabilité et aux dégradations du signal en conditions réelles. Le premier axe de recherche consiste, à partir d’un système initial appris par exemple sur AudioSet [3], à simuler des dégradations afin d’augmenter la variabilité et la quantité des données d’apprentissage. Nous avons proposé un algorithme pour optimiser ces deux étapes [4] que nous proposons d’appliquer à l’analyse de scènes sonores. Le deuxième axe vise à exploiter l’ensemble des microphones répartis dans l’environnement constituant un réseau de capteurs acoustiques sans fil. De tels réseaux ont été abordés sous l’angle du traitement du signal classique [5]. Nous proposons de les exploiter dans le cadre de l’apprentissage profond et de l’apprentissage multi-vues [6]. Il s’agit de concevoir un algorithme permettant à chaque capteur d’affiner sa perception de la scène et de suivre les sons en mouvement grâce aux informations échangées avec ses voisins. Le système conçu sera validé sur des scènes sonores urbaines réelles.

Missions : Nous baignons en permanence dans un flux sonore complexe porteur d’informations sur notre environnement. Ainsi, l’ouïe est l’un de nos sens privilégiés pour la détection d’événements nécessitant une réponse rapide (sirène d’ambulance, alarmes, pleurs de bébé, cris…). L’audition présente plusieurs avantages : détection des évènements à 360 degrés (potentiellement hors du champ de vision), jusqu’à plusieurs dizaines de mètres et indépendamment de la luminosité. L’analyse automatique de scènes sonores suscite donc un intérêt croissant [1]. Mais les travaux actuels restent centrés sur des scénarios très contrôlés et le déploiement de systèmes d’analyse sonore en conditions réelles soulève plusieurs problèmes : variabilité des sons associés à un événement, dégradation du signal capté due à la propagation acoustique entre la source sonore et le microphone et à la superposition de plusieurs sources, contraintes sur la position et la qualité des capteurs. Les approches actuelles n’en tiennent pas compte et deviennent donc rapidement inexploitables dans ces conditions.

Profil et compétences recherchées :
Master recherche en informatique, apprentissage, traitement du signal
Expérience avec le langage de programmation Python
Une expérience des boites à outils pur l’apprentissage profond serait un plus

Documents nécessaires pour postuler :

  • CV;
  • Lettre de motivation;
  • Copie des diplômes et relevés de notes pour Licence et Master (ou les 5 dernières années);
  • Mémoire de Master (ou équivalent) si déjà complété, ou une description des travaux en cours;
  • Toutes vos publications, si vous en avez (il n’est pas attendu que vous en ayez);
  • Au moins une lettre de recommandation de la personne qui vous encadre (a encadré) durant votre stage de master ; vous pouvez envoyer au plus deux autres lettres de recommandation.
    Les lettres de recommandation doivent être envoyées directement à l’encadrant de thèse.

Tous les documents doivent être envoyés dans au plus 2 fichiers pdf : un fichier pour les publication (si il y en a) ; un autre fichier pour tous les documents restants. Ces deux fichiers doivent être envoyés doivent être envoyé à l’encadrant de thèse.

Références bibliographiques

[1] http://www.cs.tut.fi/sgn/arg/dcase2016/index

[2] L. Deng and D. Yu, Deep Learning: Methods and Applications, NOW Publishers, 2014.

[3] Gemmeke, J. F., Ellis, D. P., Freedman, D., Jansen, A., Lawrence, W., Moore, R. C., … & Ritter, M. (2017). Audio Set: An ontology and human-labeled dataset for audio events. In Proc. ICASSP.

[4] Sivasankaran, S., Vincent, E., & Illina, I. (2017). Discriminative importance weighting of augmented training data for acoustic model training. In Proc. ICASSP.

[5] Bertrand, A. (2011). Applications and trends in wireless acoustic sensor networks: a signal processing perspective. In Proc. SCVT.

[6] Wang, W., Arora, R., Livescu, K., & Bilmes, J. A. (2015). On deep multi-view representation learning. In Proc. ICML.

En ce moment

Logo du CNRS
Logo Inria
Logo Université de Lorraine