[Sujet de thèse] Inversion acoustique articulatoire de la parole à l’aide d’images IRM dynamiques

[Sujet de thèse] Inversion acoustique articulatoire de la parole à l’aide d’images IRM dynamiques

MultiSpeech – Inria et IADI-INSERM U1254 – Nancy, France

Pierre-André Vuissoz (pa.vuissoz@chru-nancy.fr) and Yves Laprie (Yves.Laprie@loria.fr)

Contexte

La synthèse articulatoire imite le processus de production de la parole en générant d’abord la forme du conduit vocal à partir d’une séquence de phonèmes à prononcer, puis le signal acoustique en résolvant les équations de l’aéro-acoustique [7, 8]. Par rapport à d’autres approches de la synthèse de la parole qui offrent un niveau de qualité très élevé, l’intérêt est avant tout de contrôler l’ensemble du processus de production, au-delà du seul signal acoustique.

L’inversion acoustique articulatoire est le processus inverse qui consiste à retrouver la forme du conduit vocal à partir du signal acoustique.

En associant l’inversion acoustique articulatoire aux outils de synthèse articulatoire qui progressent rapidement il deviendra possible d’étudier la production de la parole en profondeur pour aborder notamment la question des troubles de la production de la parole, d’expliquer les difficultés rencontrées par les malentendants lors de l’acquisition de la langue orale et de fournir des retours audiovisuels articulatoires pour la remédiation.

 

La quasi-totalité des travaux actuels en inversion reposent sur l’utilisation de données issues de l’articulographie électro-magnétique (EMA ElectroMagnetic Articulography) qui donne la position de capteurs collés sur la langue et les autres articulateurs facilement accessibles. Du point de vue des techniques d’inversion proprement dites l’apprentissage profond est largement utilisé parce qu’il permet d’exploiter efficacement les corpus de données EMA. À l’heure actuelle, l’approche LSTM (LongShort-Term Memory) et sa variante bidirectionnelle donne les meilleurs résultats [1].

Malgré leur très bonne précision géométrique, et parce que les données EMA ne peuvent couvrir que la partie du conduit vocal la plus proche de la bouche, les approches actuelles ne permettent pas de retrouver la géométrie complète du conduit vocal alors que l’on sait par exemple que le larynx joue un rôle déterminant sur l’acoustique du conduit vocal. En pratique, cela limite considérablement l’intérêt des techniques d’inversion puisque les résultats ne peuvent pas être utilisés pour reconstruire le signal de parole.

L’objectif de cette thèse est de lever ce verrou et de retrouver toute la géométrie du conduit vocal. Pour cela nous nous proposons d’utiliser les données de l’IRM dynamique que nous pouvons acquérir à Nancy au laboratoire IADI.

Description du travail

L’inversion de la parole nécessite de résoudre deux problèmes.

Le premier est l’inversion proprement dite. L’IRM dynamique fournit des images bidimensionnelles dans le plan médiosagittal à 50Hz de très bonne qualité et le signal de parole acquis à l’aide d’un microphone optique et débruité très efficacement (exemples disponibles sur https://artspeech.loria.fr/resources/). Nous prévoyons d’utiliser des corpus déjà acquis ou en cours d’acquisition. Ces corpus représentent un volume de données très grand (plusieurs centaines de milliers d’images) et il est donc nécessaire de les prétraiter afin d’identifier le contour des articulateurs impliqués dans la production de la parole (mandibule, langue, lèvres, vélum, larynx, épiglotte). L’an dernier nous avons développé une approche du suivi du contour des articulateurs dans les images IRM qui donne de très bons résultats [6]. Les contours suivis automatiquement peuvent donc être utilisés pour réaliser l’inversion. Dans l’optique d’utiliser l’inversion afin d’analyser le comportement individuel d’un articulateur qui peut être défaillant, chaque articulateur est suivi indépendamment des autres.

Dans un premier temps l’objectif est de réaliser l’inversion en utilisant vraisemblablement l’approche LSTM sur les données d’un petit nombre de locuteurs pour lesquels il existe des données en quantité suffisante. Cette approche devra être adaptée à la nature des données et afin de pouvoir identifier la contribution de chacun des articulateurs.

En soi, réussir l’inversion sur quelques sujets sera déjà un succès remarquable puisque les résultats actuels ne couvrent que très partiellement le conduit vocal (quelques points sur la partie avant du conduit vocal). Il est cependant important de pouvoir transposer ce résultat à un sujet quelconque ce qui pose la question de l’adaptation au locuteur.

Les techniques d’adaptation au locuteur les plus récentes reposent sur la construction de plongements (ou « embeddings » en anglais) utilisés très largement en reconnaissance ou identification du locuteur dans l’idée de « plonger » un individu dans un espace continu afin de réaliser l’adaptation du système à un nouveau locuteur [4, 5].

Ici, on dispose à la fois de données acoustiques et de données anatomiques. Dans le cadre de cette thèse l’objectif prioritaire est de construire des plongements anatomiques parce que nous souhaitons pouvoir étudier les gestes d’un articulateur séparément des autres, ce qui nécessite de connaître assez précisément sa position et son environnement anatomique immédiat. Cette adaptation au locuteur sur la base de quelques IRM statiques seulement, répond à une double contrainte : la rareté et le coût de l’IRM dynamique d’une part, l’impossibilité d’utiliser l’IRM d’autre part, par exemple après la pose d’un implant cochléaire par exemple dont la compatibilité avec l’IRM n’est pas garantie.

Nous avons déjà abordé la question de l’adaptation anatomique à travers la construction d’atlas dynamiques de l’articulation des consonnes [9] qui repose notamment sur l’utilisation d’une transformation assez classique en médecine [3]. Elle a le défaut de ne pas identifier les points de repère anatomiques remarquables comme tels et la piste que nous comptons suivre consistera à s’inspirer de plongements anatomiques récemment proposés pour le traitement des images radiologiques [2]. Dans l’esprit, l’idée de ces plongements est assez proche des réseaux LSTM (Long Short Term Memory) puisque qu’ils associent un plongement global et un plongement local.

Environnement

Ce projet de thèse est un projet commun INSERM- Inria entre :

  • Multispeech, INRIA Nancy Grand-Est, https://team.inria.fr/multispeech/fr/
  • IADI, INSERM U1254, Nancy http://www.iadi.fr/

Yves Laprie (Yves.Laprie@loria.fr) et Pierre-André Vuissoz (pa.vuissoz@chru-nancy.fr) codirigeront cette thèse.

Ce projet sera mené conjointement au laboratoire IADI (INSERM U1254) et au Loria (équipe Inria MultiSpeech) qui collaborent ensemble depuis plusieurs années sur l’imagerie du conduit vocal et l’étude de la production de la parole.

Ce projet reposera en particulier sur le système d’acquisition IRM bidimensionnelle en temps réel (à 50 images par seconde) dont s’est équipé le laboratoire IADI dans le cadre d’une collaboration régionale avec Loria. Ce système est unique en France et permet d’imager le conduit vocal à une fréquence de 50 Hz dans n’importe quelle direction.

Candidater

Master en informatique ou en mathématiques appliquées dans le domaine du traitement des images médicales ou de la parole.

Envoyer un CV à Pierre-André Vuissoz (pa.vuissoz@chru-nancy.fr) et Yves.Laprie (Yves.Laprie@loria.fr).

Bibliographie

  1. Maud Parrot, Juliette Millet, Ewan Dunbar. Independent and Automatic Evaluation of Speaker-Independent Acoustic-to-Articulatory Reconstruction. Interspeech 2020 – 21st Annual Conference of the International Speech Communication Association, Oct 2020, Shanghai / Virtual, China. ⟨hal-03087264⟩
  2. Ke Yan, Jinzheng Cai, Dakai Jin, Shun Miao, Adam P. Harrison, Dazhou Guo, Youbao Tang, Jing Xiao, Jingjing Lu, Le Lu Self-supervised Learning of Pixel-wise Anatomical Embeddings in Radiological Images. arXiv:2012.02383 [cs.CV], 2020
  3. Rueckert D, Sonoda LI, Hayes C, Hill DL, Leach MO, Hawkes DJ. Nonrigid registration using free-form deformations: application to breast MR images. IEEE Trans Med Imaging. 1999 Aug;18(8):712-21. doi: 1109/42.796284.
  4. David Snyder, Daniel Garcia-Romero, Daniel Povey,and Sanjeev Khudanpur, “Deep neural network embed-dings for text-independent speaker verification.,” pp. 999–1003, Interspeech, 2017,https://www.isca-speech.org/archive/Interspeech_2017/pdfs/0620.PDF
  5. David Snyder, Daniel Garcia-Romero, Gregory Sell,Daniel Povey, and Sanjeev Khudanpur, “X-vectors: Ro-bust dnn embeddings for speaker recognition,” in IEEE International Conference on Acoustics, Speechand Signal Processing (ICASSP). IEEE, 2018, pp.5329–5333.
  6. Karyna Isaieva, Yves Laprie, Freddy Odille, Ioannis Douros, Jacques Felblinger, et al.. Measurement of Tongue Tip Velocity from Real-Time MRI and Phase-Contrast Cine-MRI in Consonant Production. Journal of Imaging, MDPI, 2020, 6 (5), pp.31. ⟨3390/jimaging6050031⟩. ⟨hal-02923466⟩
  7. Benjamin Elie, and Yves Laprie, Extension of the single-matrix formulation of the vocal tract: consideration of bilateral channels and connection of self-oscillating models of the vocal folds with a glottal chink. Speech Comm. 82, pp. 85-96 (2016). https://hal.archives-ouvertes.fr/hal-01199792v3
  8. Benjamin Elie, and Yves Laprie. Copy-synthesis of phrase-level utterances. EUSIPCO, Budapest 2016 https://hal.archives-ouvertes.fr/hal-01278462
  9. Ioannis Douros, Ajinkya Kulkarni, Chrysanthi Dourou, Yu Xie, Jacques Felblinger, Karyna Isaieva, Pierre-Andé Vuissoz and Yves Laprie. Using Silence MR Image to Synthesise Dynamic MRI Vocal Tract Data of CV. INTERSPEECH 2020, Oct 2020, Shangaï / Virtual, China. ⟨hal-03090808⟩

 

Logo d'Inria