[Sujet de Thèse] Synthèse de parole audio-visuelle expressive dans un contexte d’interaction.

Synthèse de parole audio-visuelle expressive dans un contexte d’interaction

Lieu: LORIA , Nancy, France

Equipe de recherche: MULTISPEECH (https://team.inria.fr/multispeech/)

Contexte scientifique :

La parole peut être considérée comme multimodale. Elle est portée à la fois par le signal acoustique mais aussi par les mouvements du visage et corps. Cette dimension multimodale est d’autant plus importante à considérer lorsque la parole véhicule une certaine émotion ou emphase sur des mots ou partie du discours. Nous parlons alors d’expressivité de la parole. De plus, lors d’une interaction verbale entre deux personnes, cette expressivité devient même un élément prépondérant car elle accompagne le discours et rend plus efficace l’acte de communication. C’est ainsi que naturellement le signal de acoustique va être accompagné de mouvement du visage (mimiques), de gestes des mains ou des bras lorsque l’un des interlocuteurs s’exprime, l’on parle alors de geste co-verbaux. Mais de la même manière la personne qui écoute sera amenée à suivre le discours avec des gestes co-verbaux régulateurs, comme des hochements de tête ou des mimiques du visage, pour marquer son accord, son incompréhension ou indiquer qu’il suit son interlocuteur. Enfin, chez le locuteur comme chez l’auditeur, des gestes, dits extra-communicatifs, interviennent comme les mouvements des paupières, de la tête ou du corps, que l’on peut considéré comme non liés directement à l’interaction verbale mais à la personne elle-même (mouvements de confort).

Ces dernières années, des avancées conséquentes ont été réalisées dans le domaine des assistants vocaux ou avatars conversationnels en particulier dans la conduite d’un dialogue entre un humain et une entité conversationnelle. Les technologies vocales en synthèse et reconnaissance de la parole ont ainsi fait l’objet d’un attention particulière dans le développement de ce type d’interactions, l’interface vocale étant le point d’entrée (et de sortie). Si la reconnaissance de la requête vocale et la restitution de la réponse (généralement vocale) par une synthèse de parole intelligible et de qualité est nécessaire et indispensable, elles ne suffisent pas pour aboutir à une interaction sociale réaliste. Ainsi, dans le cadre de la réalisation d’une entité conversationnelle visible (un avatar 3D ou un robot), le signal acoustique va devoir être à la fois expressif (pour transmettre une émotion ou une emphase) et s’accompagner des différents types de gestes activés lors d’une interaction verbale. De nombreux travaux existent sur la génération de gestes du corps (buste, bras, tête) pour accompagner une parole énoncée ou écoutée [Alexanderson et al. 2020, Yoon et al. 2019, Yunus et al. 2020, Wu et al. 2021]. Cependant, dans le contexte d’un engagement dans une interaction verbale, la génération d’une parole expressive simultanément dans le domaine acoustique et visuel (notamment le visage) n’est pas encore maîtrisée. C’est dans ce cadre que la thèse se situe : la synthèse de parole expressive audio-visuelle dans un contexte d’interaction.

Missions :

L’objectif de la thèse est double. Tout d’abord, il est important de réussir à élaborer des systèmes de synthèse de parole expressive (audio et audio-visuelle) capable de découpler finement les éléments qui concourent à la génération d’un signal. De nombreux éléments, comme la prosodie, le contenu sémantique et les caractéristiques intrinsèques d’une émotion interfèrent dans le processus de génération. Dissocier les contributions des éléments comme la langue, l’émotion, le locuteur lors de l’apprentissage par réseau de neurone permet un meilleur contrôle de ces éléments mais aussi faciliter le transfert d’information ou l’adaptation à différentes tâches du réseau [Kulkarni et al. 2020]. En effet, des approches de types auto-encoder variationnels VAE [Blei et al. 2017] et de conditionnement ont permis de tirer profit de corpus de taille limitées [Dahmani et al . 2019], ce qui est notamment le cas pour des corpus audio-visuels d’émotion ou d’interaction. Étendre ces approches en exploitant des mécanismes d’attention ou des approches de type Glow [Kingma et al. 2016], permettrait d’améliorer la prise en compte de ces dimensions. Des corpus pour la synthèse audio-visuelle expressive existent déjà dans l’équipe.

Par ailleurs, l’acte d’interaction nécessite de prendre en compte spécifiquement certains éléments ou informations. Ainsi lors de l’énoncé d’un discours, la parole et les gestes co-verbaux peuvent être liés au contenu lexical lui-même ou la mise en avant d’un mot en particulier (focus). Lors de la génération d’un geste régulateur (accompagné ou non d’un signal acoustique), il devient nécessaire de prendre en compte cette fois-ci les éléments linguistiques ou prosodiques de la personne écoutée. Pour la thèse, le deuxième objectif sera de proposer une réponse gestuelle crédible et réaliste. Un système de reconnaissance vocale (déjà disponible) pourra alors être utilisé.

Profil :

Master en informatique.

Compétences en apprentissage profond.

Bonnes compétences en informatique (programmation notamment en Python)

Une expérience dans le domaine de la synthèse de la parole et/ou en traitement de données 3D serait un plus.

Bibliographie:

Alexanderson, S., Székely, É., Henter, G. E., Kucherenko, T., & Beskow, J. (2020). Generating coherent spontaneous speech and gesture from text. In Proceedings of the 20th ACM International Conference on Intelligent Virtual Agents (pp. 1-3).

Blei, D. M., Kucukelbir, A., & McAuliffe, J. D. (2017). Variational inference: A review for statisticians. Journal of the American statistical Association, 112(518), 859-877.

Dahmani S., Colotte V., Girard V., & Ouni S. (2019). Conditional Variational Auto-Encoder for Text-Driven Expressive AudioVisual Speech Synthesis. In Interspeech – Sep 2019, Graz, Austria

Kingma, D. P., Salimans, T., Jozefowicz, R., Chen, X., Sutskever, I.,  & Welling, M. (2016). Improving variational inference with inverse  autoregressive flow. In 29th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain.

Kulkarni A., Colotte V., & Jouvet D. (2020). Transfer learning of the expressivity using flow metric learning in multispeaker text-to-speech synthesis. Interspeech, Oct 2020, Shanghai / Virtual, China

Yoon Y., Ko W-R., Jang M., Lee J., Kim J. and Lee G. (2019) “Robots Learn Social Skills: End-to-End Learning of Co-Speech Gesture Generation for Humanoid Robots,” 2019 International Conference on Robotics and Automation (ICRA), Montreal, QC, Canada, 2019, pp. 4303-4309

Yunus, F., Clavel, C., & Pelachaud, C. (2020). Sequence-to-Sequence Predictive Model: From Prosody To Communicative Gestures. Workshop sur les Affects, Compagnons artificiels et Interactions.

Wu, B., Liu, C., Ishi, C. T., & Ishiguro, H. (2021). Modeling the Conditional Distribution of Co-Speech Upper Body Gesture Jointly Using Conditional-GAN and Unrolled-GAN. Electronics10(3), 228.

Information complémentaire :

Direction et contacts :

  • Vincent Colotte (Vincent.Colotte@univ-lorraine.fr)
  • Slim Ouni (Slim.Ouni@univ-lorraine.fr)

Durée : 3 ans

Début : automne 2021

Logo d'Inria