[Doctorant F/H] Modèles non gaussiens pour le traitement de signaux sonores par apprentissage profond

Pour candidater, suivez les instructions ici.

Lieu : Inria Nancy – Grand Est, équipe MULTISPEECH
Encadrants : Emmanuel Vincent (Directeur de Recherche, INRIA), Paul Magron (Chargé de Recherche, INRIA).

Contexte

Le traitement des signaux sonores (parole, sons ambiants, musique) a connu des progrès considérables ces dernières années, notamment grâce à l’avènement des systèmes par apprentissage profond. De façon générale, ces systèmes manipulent une représentation temps-fréquence des données telle qu’un spectrogramme d’amplitude en le structurant via un réseau de neurones.

Ces approches reposent sur un modèle statistique élémentaire des données, le modèle gaussien local [1]. Bien que pratique à manipuler, ce modèle est fondé sur certaines hypothèses qui sont limitées en pratique : (i) la symétrie circulaire, qui équivaut à ignorer l’information de phase (= l’argument des coefficients temps-fréquence complexes) ; (ii) l’indépendance des coefficients, qui ignore la structure existant dans les signaux audio (dynamique temporelle, dépendances fréquentielles) ; et (iii) l’hypothèse de densité gaussienne, qui n’est pas observée empiriquement.

Bien que la modélisation statistique des signaux audio soit un domaine de recherche actif qui a connu de nombreux développements, ceux-ci ne s’interfacent encore que trop peu avec l’apprentissage profond. Par ailleurs, certains de ces développements ne sont pas encore assez mûrs pour être pleinement déployés.

L’objectif de cette thèse est donc de mettre au point des modèles statistiques de signaux qui dépassent le modèle gaussien local, tout en les combinant à la structuration de spectrogrammes par réseaux de neurones. Ces modèles seront mis en œuvre pour la séparation de sources audio et le rehaussement de la parole.

Objectifs

Le/la doctorant(e) aura donc pour principaux objectifs :

  1. Le développement de modèles probabilistes structurés de signaux sonores qui lèvent les limites du modèle gaussien local. Il/elle s’attachera en particulier à structurer ces modèles à partir de propriétés venant de l’analyse des signaux, comme la régularité temporelle [2] ou la consistance de la représentation [3], afin qu’ils soient interprétables et conservent un sens physique. Par exemple, les distributions alpha-stables ont été exploitées en audio car elles possèdent une propriété de robustesse aux valeurs aberrantes [4]. Les modèles anisotropes sont une piste intéressante car ils permettent de dépasser l’hypothèse de symétrie circulaire tout en conservant une paramétrisation interprétable des moments statistiques [5]. Enfin, une structuration fine de la matrice de covariance permet de prendre explicitement en compte les relations temporelles et/ou fréquentielles [6].
  2. La combinaison de ces modèles statistiques et des réseaux de neurones. Cette interfaçage pose certaines difficultés : choix des architectures, des fonctions de coût, du formalisme pour l’inférence, etc. Cette tâche reposera sur le formalisme développé en apprentissage profond bayésien, notamment sur les autoencodeurs variationnels [7], ainsi que sur la procédure d’inférence développée dans d’autres modèles non gaussiens sans apprentissage profond [8].
  3. La validation expérimentale de ces méthodes sur des bases de données de signaux sonores réalistes. Le/la doctorante utilisera pour cela des bases de données publiques comme LibriMix (parole) et MUSDB (musique), qui sont des bases de référence pour la séparation de sources et le rehaussement de la parole.

Le/la doctorant(e) diffusera ses résultats de recherche dans des revues et conférences internationales. Afin de promouvoir une recherche reproductible, ces publications seront déposées dès les premiers stades de rédaction sur des plates-formes ouvertes (HAL, arXiv). Le code sera intégré à Asteroid, le logiciel de référence pour la séparation et le rehaussement de la parole développé par Multispeech.

Compétences

  • Master 2 ou diplôme d’ingénieur en informatique, science des données, traitement du signal ou apprentissage statistique.
  • Capacité professionnelle en anglais (parlé, lu et écrit).
  • Expérience de programmation en Python et dans un framework de deep learning (e.g., Pytorch).
  • Une expérience préalable et/ou un intérêt pour le traitement de la parole / l’audio sont un plus.

Environnement de travail

Le/la doctorant(e) intégrera l’équipe Multispeech d’Inria, la plus grosse équipe de recherche dans le domaine du traitement de la parole d’Inria et en France. Il/elle bénéficiera de l’environnement de recherche et de l’expertise en traitement du signal audio de cette équipe, qui compte de nombreux chercheurs, doctorants, post-doctorants et ingénieurs travaillant dans ce domaine.

Bibliographie

[1] E. Vincent, M. Jafari, S. Abdallah, M. Plumbley, M. Davies, Probabilistic modeling paradigms for audio source separation, Machine Audition: Principles, Algorithms and Systems, p. 162–185, 2010.

[2] T. Virtanen, Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria, IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 15, no. 3, pp. 1066-1074, 2007.

[3] J. Le Roux, N. Ono, S. Sagayama, Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction, Proc. SAPA, 2008.

[4] S. Leglaive, U. Şimşekli, A. Liutkus, R. Badeau and G. Richard, Alpha-stable multichannel audio source separation, Proc. IEEE ICASSP, 2017.

[5] P. Magron, R. Badeau, B. David, Phase-dependent anisotropic Gaussian model for audio source separation, Proc. IEEE ICASSP, 2017.

[6] M. Pariente, Implicit and explicit phase modeling in deep learning-based source separation, Thèse de doctorat – Université de Lorraine, 2021.

[7] L. Girin, S. Leglaive, X. Bie, J. Diard, T. Hueber, X. Alameda-Pineda, Dynamical variational autoencoders: A comprehensive review, Foundations and Trends in Machine Learning, vol. 15, no. 1-2, 2021.

[8] P. Magron, T. Virtanen, Complex ISNMF: a phase-aware model for monaural audio source separation, IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 27, no. 1, pp. 20-31, 2019.