Proposition de thèse sur “Synthèse de parole expressive par apprentissage profond”

Synthèse de parole expressive par apprentissage profond

Lieu: INRIA Nancy Grand Est research centerLORIA Laboratory, Nancy, France

Thème de recherche: Perception, Cognition, Interaction,

Equipe de recherche: MULTISPEECH (https://team.inria.fr/multispeech/)

Contexte scientifique :

Au cours des dernières décennies, la synthèse de parole à partir du texte a atteint un bon niveau de qualité et d’intelligibilité et est maintenant couramment utilisée pour la fourniture vocale d’informations dans des centres d’appel téléphonique, dans des systèmes de navigation et avec les assistants vocaux. Par le passé, le principal objectif des systèmes de synthèse était de fournir un signal intelligible et de bonne qualité. La parole générée était de style “lue”, elle résultait du style employé dans les données de parole utilisées lors du développement du système de synthèse. Si le style “lu” est acceptable lorsque l’interaction entre une personne et le système est ponctuelle, les systèmes de synthèse devraient intégrer plus de variabilité et d’expressivité pour des situations d’interactions plus longues ou plus fréquentes. Cela constitue un des buts à atteindre dans la recherche actuelle sur la synthèse de parole expressive. Contrairement à de la parole neutre, qui est lue sans émotion particulière, la parole expressive peut être définie comme portant une émotion, ou un style particulier comme la spontanéité, ou encore intégrant des phénomènes d’intonation comme l’emphase sur certains mots d’une phrase.

Missions : (objectifs, approches, etc.)

L’approche par apprentissage profond a montré dernièrement ses capacités à générer une synthèse de bonne qualité. Cependant pour ce type d’approche, la principale barrière scientifique et technologique reste la nécessité de disposer de corpus de parole correspondant au locuteur ainsi qu’aux styles de parole à produire, ici la parole expressive. L’objectif de cette thèse est d’étudier des approches qui, pour générer de la parole expressive pour un locuteur particulier, exploitera d’une part, des données de parole neutre de ce locuteur, et d’autre part, des données de parole expressive provenant d’autres locuteurs. Le but est d’éviter le processus long et coûteux qu’est l’acquisition de corpus ad hoc de parole expressive pour un locuteur spécifique (la parole neutre “lue” étant plus facile à collecter).

Les trois principales étapes de la synthèse paramétrique sont la génération de la séquence des unités de base (phonèmes, pauses, etc.) à partir du texte, la génération des caractéristiques prosodiques (durée des sons, valeur de F0, etc.) et la génération des paramètres acoustiques qui conduisent au signal de parole final. Ces trois niveaux sont impliqués dans la synthèse de parole expressive : altération de la prononciation, présence de pauses, modification de la prosodie, modification des caractéristiques spectrales, etc.

Cette thèse portera essentiellement sur les deux dernières étapes, c’est-à-dire la prédiction de la prosodie et des caractéristiques spectrales pour produire de la parole expressive, par une approche basée sur l’apprentissage profond. Quelques aspects à étudier et approfondir incluent la combinaison de la parole neutre du locuteur cible avec de la parole expressive d’autres locuteurs, directement dans processus d’apprentissage profond ou dans une étape d’adaptation, ainsi que les aspects d’augmentation de données.

Les travaux utiliseront des corpus de parole neutre et expressive déjà collectés pour la synthèse de parole dans l’équipe Multispeech. Des expériences complémentaires pourront être envisagées sur d’autres données de parole expressive, comme par exemple des données de parole expressive provenant de livres audios.

Profil et compétences :

  • Master en traitement automatique des langues et en informatique.
  • Compétences en statistiques et en apprentissage profond.
  • Expérience avec des outils d’apprentissage profond.
  • Bonnes compétences en informatique (notamment en Python)
  • Une expérience dans le domaine de la synthèse de la parole serait un plus.

Bibliographie: (si besoin)

  • M. Schröder. Emotional speech synthesis: A review. Proc. EUROSPEECH, 2001.
  • M. Schröder. Expressive speech synthesis: Past, present, and possible futures. Affective information processing, pp. 111–126, 2009.
  • A. Iida, N. Campbell, F. Higuchi and M. Yasumura. A corpus-based speech synthesis system with emotion. Speech Communication, vol. 40, n. 1, pp. 161–187, 2003.
  • J.F. Pitrelli, R. Bakis, E.M. Eide, R. Fernandez, W. Hamza and M.A. Picheny. The IBM expressive text-to-speech synthesis system for American English. IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, n. 4, pp. 1099–1108, 2006.
  • D. Jiang,W. Zhang, L. Shen and L. Cai. Prosody analysis and modeling for emotional speech synthesis. Proc. ICASSP, 2005.
  • Z. Wu, P. Swietojanski, C. Veaux, S. Renals, S. King. A study of speaker adaptation for DNN-based speech synthesis. Proc. INTERSPEECH, pp. 879–883, 2015.

Information complémentaire :

Date limite de candidature 1er mai 2018

Documents à fournir dans un unique fichier pdf ou sous forme d’un fichier zip:

  • CV
  • Lettre de motivation (précisant entre autres l’intérêt pour le sujet).
  • Diplômes et notes de Licence et Master (ou des 5 dernières années)
  • Rapport de master (ou équivalent) si déjà disponible ou sinon la description des travaux en cours.
  • La liste des publications du candidat (ou lien Web) si le candidat a déjà des publications (mais il n’est pas attendu qu’il y en ait)
  • En complément, une lettre de recommandation de la personne qui a encadré le stage de Master (ou du projet/stage de recherche) envoyée directement par cette personne aux futurs directeurs de thèse.

En ce moment

Colloquium Loria 2018

Exposés précédents

Logo du CNRS
Logo Inria
Logo Université de Lorraine