[Sujet thèse 2019] Supervision profonde de la forme du conduit vocal pour la synthèse articulatoire

Titre : Supervision profonde de la forme du conduit vocal pour la synthèse articulatoire

Equipe: MultiSpeech

Encadrant : Yves Laprie

Mots clés : synthèse articulatoire, IRM temps-réel, modélisation articulatoire, apprentissage profond

Contexte

Pour produire de la parole il faut une source de signal – la vibration des plis vocaux ou un bruit de turbulence dans le conduit vocal – et un système de cavités résonnantes – le conduit vocal. Les articulateurs de la parole qui sont la mâchoire, la langue, les lèvres, la larynx, le voile du palais et l’épiglotte servent à modifier la forme du conduit vocal, et donc les propriétés acoustiques dont les résonances du conduit vocal. Lors de l’apprentissage de la parole ou d’une langue seconde, les locuteurs apprennent comment mobiliser et contrôler les articulateurs pour produire de la parole intelligible.

La synthèse articulatoire imite ce processus en utilisant comme entrées les déformations du conduit vocal, et les paramètres de contrôle des plis vocaux au cours du temps. L’intérêt de la synthèse articulatoire est de pouvoir : expliquer l’origine articulatoire des contrastes phonétiques, jouer sur le mouvement des articulateurs (voire d’en bloquer un), modifier les paramètres de contrôle des plis vocaux, s’adapter à un nouveau locuteur en modifiant la taille et la forme des articulateurs, et enfin accéder à des grandeurs physiques (par exemple de pression) dans le conduit vocal par exemple) sans devoir introduire de capteurs.

Comparée à d’autres approches de la synthèse qui offrent un haut niveau de qualité, l’intérêt de la synthèse articulatoire est donc avant tout de maîtriser tout le processus de production de la parole.

La génération de la forme géométrique du conduit vocal à chaque instant de la synthèse repose le plus souvent sur l’utilisation d’un modèle articulatoire [1,2] qui donne la forme du conduit avec un petit nombre de paramètres. Chacun des paramètres correspond à un mode de déformation de l’articulateur considéré et la langue étant l’articulateur le plus déformable nécessite au moins 6 six paramètres. Le modèle articulatoire est construit à partir d’une centaine d’images IRM statiques du conduit vocal.

Description du travail

Depuis peu nous disposons d’un système d’acquisition temps réel (à 55 images par seconde) d’IRM bidimensionnelles du conduit vocal dans le cadre d’une collaboration avec le laboratoire IADI (INSERM U1254) du CHRU de Nancy, et d’une base de données de plusieurs heures de parole pour un locuteur.

Ces images de la forme médio-sagittale du conduit vocal sont de très bonne qualité et il est donc possible de suivre le contour des articulateurs [4,5,6]. Nous souhaitons faire le suivi de chacun des articulateurs indépendamment des autres car la parole fait intervenir des gestes de compensation et de coordinations complexes qui disparaissent quand le conduit vocal est traité en un seul morceau [7].

La partie la plus importante de la thèse sera consacrée au contrôle de la forme du conduit vocal. L’idée est de développer une approche d’apprentissage profond pour déterminer la position des articulateurs en fonction des phonèmes à articuler. La contrainte est de pouvoir identifier suffisamment finement le rôle de chaque articulateur afin de pouvoir contrôler son impact sur la forme globale du conduit vocal, et d’autre part d’étudier les stratégies de coordination et de compensation entre les articulateurs.

Les gestes d’abduction et d’adduction des plis vocaux peuvent être enregistrés à l’aide de l’électro-photoglottographie [8] et comme pour les paramètres articulatoires il sera possible de les apprendre en fonction de la suite de phonèmes à articuler. Ces deux flux de données seront utilisés comme entrée des simulations acoustiques numériques [9] afin de vérifier la qualité de la parole produit et d’étudier quels sont les facteurs articulatoires de la parole expressive.

Bibliographie

[1] B. J. Kröger, V. Graf-Borttscheller, A. Lowit. (2008). Two- and Three-Dimensional Visual Articulatory Models for Pronunciation Training and for Treatment of Speech Disorders, Proc. Of Interspeech 2008, Brisbane, Australia

[2] Y. Laprie, J. Busset. (2011). Construction and evaluation of an articulatory model of the vocal tract, In : 19th European Signal Processing Conference – EUSIPCO-2011. – Barcelona, Spain

[4] A. Jaumard-Hakoun, K. Xu, P. Roussel, G. Dreyfus, M. Stone and B. Denby. Tongue contour extraction from ultrasound images based on deep neulral network. Proc. of International Congress of Phonetic Sciences, Glasgow, 2015.

[5] I. Fasel and J. Berry. Deep Belied Networks for Real-Time Extraction of Tongue Contours from Ultrasound During Speech. Proc. of 20th ICPR, Istanbul, 2010.

[6] G. Litjens, T. Kooi et al. A survey on deep learning in medical image analysis. Medical Image Analysis, 42 :60-88, 2017.

[7] A. J. Gully, T. Yoshimura, D.T. Murphy, K. Hashimoto, Y. Nankaku,and K. Tokuda. (2017). Articulatory Text-to-Speech Synthesis using the Digital Waveguide Meshdriven by a Deep Neural Network, INTERSPEECH, Stokholm

[8] K. Honda and S. Maeda. (2008). Glottal-opening and airflow pattern during production of voiceless fricatives: A new non-invasive instrumentation. Journal of the Acoustical Society of America, 123(5):3788.

[9] B. Elie, Y Laprie. (2016). Extension of the single-matrix formulation of the vocal tract : consideration of bilateral channels and connection of self-oscillating models of the vocal folds with a glottal chink. – Speech Communication 82, pp. 85–96.

Compétences requises

apprentissage profond, informatique, traitement de la parole, mathématiques appliquées

Logo du CNRS

Logo d'Inria

Logo Université de Lorraine