[Thèse / PhD 2020] Supervision profonde de la forme du conduit vocal pour la synthèse articulatoire

[Thèse / PhD 2020] Supervision profonde de la forme du conduit vocal pour la synthèse articulatoire
Equipe : MultiSpeech
Encadrant : Yves Laprie (Yves.Laprie@loria.fr)

Candidature et profil – Date limite le 20 mai 2020

Informatique, traitement automatique de la parole, mathématique appliquées

Contacter Yves.Laprie@loria.fr

Contexte

La synthèse articulatoire imite le processus de production de la parole en générant d’abord la forme du conduit vocal à partir d’une séquence de phonèmes à prononcer, puis le signal acoustique en résolvant les équations aéro-acoustiques.
Par rapport à d’autres approches de la synthèse de la parole qui offrent un niveau de qualité élevé, l’intérêt est avant tout de contrôler l’ensemble du processus de production et pas seulement le signal acoustique. Il devient donc possible d’étudier la production de la parole en profondeur pour expliquer l’origine des expressions dans le discours, d’aborder la question des troubles de la production de la parole et de découvrir les difficultés rencontrées par les apprenants d’une langue étrangère, entre autres applications.

Le défi consiste à générer les positions des articulateurs sans construire un modèle géométrique explicite, mais en apprenant leur position à partir d’un vaste corpus de films IRM de parole continue. Les articulateurs de la parole (mâchoire, langue, lèvres, larynx, palais mou et épiglotte) sont utilisés pour modifier la forme du conduit, donc ses propriétés acoustiques, et l’objectif est de contrôler l’évolution temporelle du conduit vocal de manière réaliste et efficace, afin de permettre l’utilisation de simulations acoustiques et ainsi de réaliser la synthèse articulatoire.
En plus de la forme du conduit vocal ces simulations nécessitent une source de signal, c’est-à-dire la vibration des cordes vocales ou un bruit de turbulence à l’intérieur du conduit vocal. Ces informations seront soit mesurées sur de la parole naturelle, soit générées automatiquement.

L’intérêt de la synthèse articulatoire est d’expliquer l’origine articulatoire des contrastes phonétiques, de permettre de modifier le mouvement des articulateurs (voire de bloquer l’un d’entre eux), de modifier les paramètres de contrôle des cordes vocales, de permettre une adaptation réaliste à un nouveau locuteur en modifiant la taille et la forme des articulateurs, et enfin de donner accès à des quantités physiques (par exemple la pression dans le conduit vocal) sans nécessiter l’introduction de capteurs matériels.

La génération de la forme géométrique du conduit vocal à chaque instant de la synthèse est une étape critique puisqu’il s’agit des données en entrée des simulations acoustiques. Le plus souvent, la détermination de la forme du conduit vocal repose sur l’utilisation d’un modèle articulatoire [1,2] qui donne la forme du conduit avec un petit nombre de paramètres. Chacun des paramètres correspond à un mode de déformation de l’articulateur considéré ; par exemple, la langue qui est l’articulateur le plus déformable nécessite au moins six paramètres. Un modèle articulatoire est généralement construit à partir d’environ 100 images IRM statiques du conduit vocal. Cela présente deux points faibles. D’une part, il n’est pas garanti que ce modèle ait la capacité de produire toutes les formes du conduit vocal correspondant à la parole naturelle et d’autre part, cela pose la question de l’anticipation de la forme du conduit vocal en fonction des phonèmes à articuler, c’est-à-dire de la coarticulation.

Description du travail

L’objectif du doctorat est d’exploiter les techniques d’apprentissage automatique, en particulier l’apprentissage profond, pour effectuer la supervision de la forme du conduit vocal, c’est-à-dire le calcul de la position et de la forme géométrique de chaque articulateur, pour la séquence de phonèmes à articuler.
Cette transformation sera apprise à partir d’un corpus de films IRM du conduit vocal. Récemment, le laboratoire IADI (INSERM U1254) du centre hospitalier de Nancy a été équipé d’un système d’acquisition IRM bidimensionnelle en temps réel (à 50 images par seconde) dans le cadre d’une collaboration régionale avec Loria et une base de données de plusieurs heures de parole pour plusieurs locuteurs est maintenant disponible.

La qualité de ces images de la coupe médio-sagittale du conduit vocal est très bonne et récemment nous avons effectué des expériences préliminaires de suivi du contour de la langue avec une très bonne précision. Sur la base de ce travail préliminaire inspiré de [3,4,5,6], nous voulons suivre les contours de tous les articulateurs de la parole, c’est-à-dire la mandibule, la langue, les lèvres, le larynx, l’épiglotte et le vélum. Contrairement à d’autres travaux, nous voulons suivre chacun des articulateurs indépendamment des autres car la parole implique des gestes compensatoires et de coordination complexes qui seraient masqués si tout le conduit vocal était traité à l’aide d’un seul contour [7].
La première partie du travail consistera à suivre le contour de tous les articulateurs pour obtenir une description géométrique complète de l’appareil vocal. Un des aspects à aborder est de garantir la cohérence géométrique et temporelle de tous les contours afin d’éviter que le suivi ne fournisse des formes et des gestes non réalistes. Le travail consistera à améliorer la stratégie d’entraînement du suivi afin d’accroître la robustesse face à la variabilité intra et interlocutrice et aux situations où plusieurs articulateurs sont en contact.

La deuxième partie du travail, et la plus importante, sera consacrée au contrôle de la forme du conduit vocal. L’idée est de développer une approche d’apprentissage profond pour déterminer la position des articulateurs en fonction des phonèmes à articuler. La contrainte est de pouvoir identifier le rôle de chaque articulateur de manière suffisamment détaillée pour pouvoir contrôler son impact sur la forme globale du conduit vocal et d’étudier les stratégies de coordination et de compensation entre les articulateurs. Une autre question concerne l’existence d’un répertoire de gestes articulatoires identifiés comme tels et utilisés pour mettre en œuvre des contrastes phonétiques.
La deuxième donnée d’entrée des simulations acoustiques est l’ouverture de la glotte associée à l’activité des plis vocaux [8]. Ces deux flux de données seront introduits dans des simulations acoustiques numériques [9] afin de vérifier la qualité due la parole produite et d’étudier les facteurs articulatoires de la parole expressive.

Bibliographie

[1] B. J. Kröger, V. Graf-Borttscheller, A. Lowit. (2008). Two- and Three-Dimensional Visual Articulatory Models for Pronunciation Training and for Treatment of Speech Disorders, Proc. Of Interspeech 2008, Brisbane, Australia

[2] Y. L aprie, J. Busset. (2011). Construction and evaluation of an articulatory model of the vocal tract, In : 19th European Signal Processing Conference – EUSIPCO-2011. – Barcelona, Spain
[3] A. Jaumard-Hakoun, K. Xu, P. Roussel, G. Dreyfus, M. Stone and B. Denby. Tongue contour extraction from ultrasound images based on deep neulral network. Proc. of International Congress of Phonetic Sciences, Glasgow, 2015.
[4] I. Fasel and J. Berry. Deep Belied Networks for Real-Time Extraction of Tongue Contours from Ultrasound During Speech. Proc. of 20th ICPR, Istanbul, 2010.
[5] O. Ronneberger, P. Fischer &T. Brox. U-Net: Convolutional Networks for BiomedicalImage Segmentation (2015). Proc. Of Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351: 234–241, 2015
[6] G. Litjens, T. Kooi et al. A survey on deep learning in medical image analysis. Medical Image Analysis, 42 :60-88, 2017.

[7] Silva, S., & Teixeira, A. (2016). Quantitative systematic analysis of vocal tract data. Computer Speech & Language, 36, 307–329. doi:10.1016/j.csl.2015.05.004

[7] Silva, S., & Teixeira, A. (2016). Quantitative systematic analysis of vocal tract data. Computer Speech & Language, 36, 307–329. doi:10.1016/j.csl.2015.05.004

[8] Y. Laprie, B. Elie, A. Amelot and S. Maeda (2019). Glottal Opening Measurements in VCV and VCCV Sequences, Proceedings of 23rd International Congress on Acoustics, Aachen, Germany, pp. 1810-1815

[9] B. Elie, Y Laprie. (2016). Extension of the single-matrix formulation of the vocal tract : consideration of bilateral channels and connection of self-oscillating models of the vocal folds with a glottal chink. – Speech Communication 82, pp. 85–96.

 

Logo d'Inria