Postdoc – Amélioration des outils vocaux d’évaluation de la prononciation en apprentissage de langues

Postdoc – Amélioration des outils vocaux d’évaluation de la prononciation en apprentissage de langues (english version)

  • Lieu :        LORIA (Nancy)
  • Equipe :  MULTISPEECH
  • Durée :    16 mois
  • Début :    Hiver 2018
  • Contact :
    • Slim Ouni – slim.ouni@loria.fr
    • Denis Jouvet – denis.jouvet@loria.fr

Contexte :

MULTISPEECH étudie différents aspects de la modélisation de la parole, tant pour la reconnaissance de la parole que pour la synthèse de la parole. Les approches développées mettent en œuvre du traitement du signal et des modèles statistiques. Les modélisations les plus récentes reposent sur les réseaux de neurones et l’apprentissage profond qui ont apporté des gains substantiels de performance dans de nombreux domaines.

Les technologies vocales peuvent également servir pour l’apprentissage de langues. L’objectif consiste alors à détecter les défauts de prononciation des apprenants (prononciation des sons et intonation), à poser des diagnostics et à aider l’apprenant à améliorer sa prononciation en lui fournissant des informations multimodales (textuelles, sonores et visuelles). Plusieurs projets collaboratifs récents ont porté sur ce thème et ont permis de constituer des corpus de parole d’apprenants (e.g. [Trouvain et al., 2016]), d’analyser la parole non-native d’apprenants (e.g. [Jouvet et al., 2015 ; Zimmerer et al., 2015 ; Zimmerer et al., 2016 ; Gosh et al., 2016]) et d’approfondir la fiabilité de retours automatiques vers l’apprenant (eg., [Bonneau et al., 2013]).

Dans le cadre du projet collaboratif e-FRAN METAL qui porte sur l’utilisation du numérique dans l’éducation, ces techniques seront adaptées, enrichies, et mises en œuvre pour aider à l’apprentissage d’une langue étrangère à l’école. Des expérimentations sont prévues dans des classes de collège et de lycée.

Missions :

Les travaux menés porteront sur l’amélioration et le développement d’outils vocaux pour l’évaluation des prononciations, tant au niveau des sons qu’au niveau de l’intonation. Un point important à étudier et à approfondir concerne la fiabilité des traitements et des mesures effectués (e.g., durée des sons issues de la segmentation phonétique, et valeurs de la fréquence fondamentale), et la prise en considération de ces informations de fiabilité des mesures dans l’établissement des diagnostics sur les défauts de prononciation, et les retours vers les apprenants.

Après une adaptation des outils et modèles au contexte non-natif des apprenants d’une langue étrangère, la plus grande partie du projet sera consacrée à des aspects plus innovants, et concernera l’étude d’approches à base d’apprentissage profond pour la détection de défauts de prononciation, et l’estimation des incertitudes sur les mesures faites (durées des sons et valeurs de la fréquence fondamentale) afin d’assurer la fiabilité des diagnostics effectués.

Profil et compétences recherchées :

  • Connaissances en traitement de la parole, reconnaissance de la parole, ou synthèse de la parole
  • Connaissance, voire maitrise d’un toolkit de reconnaissance de la parole
  • Expérience des réseaux de neurones, et si possible maitrise d’un toolkit de réseaux de neurones
  • Bonnes compétences en informatique, et en programmation

Références bibliographiques :

[Bonneau et al., 2013] A. Bonneau, D. Fohr, I. Illina, D. Jouvet, O. Mella, L. Mesbahi, L. Orosanu. “Gestion d’erreurs pour la fiabilisation des retours automatiques en apprentissage de la prosodie d’une langue seconde’. Traitement Automatique des Langues, ATALA, 2013, 53 (3),  <hal-00834278>

[Ghosh et al., 2016] S. Ghosh, C. Fauth, A. Sini, Y. Laprie. “L1-L2 Interference: The case of final devoicing of French voiced fricatives in final position by German learners”. Interspeech 2016, Sep 2016, San Francisco, United States. 2016, pp.3156 – 3160, 2016, <hal-01397176>

[Jouvet et al., 2015] D Jouvet, A. Bonneau, J. Trouvain, F. Zimmerer, Y. Laprie, B. Moebius. “Analysis of phone confusion matrices in a manually annotated French-German learner corpus”. Workshop on Speech and Language Technology in Education, Sep 2015, Leipzig, Germany. Proceedings SLaTE 2015, Workshop on Speech and Language Technology in Education. <hal-01184186>

[Trouvain et al., 2016] J. Trouvain, A. Bonneau, V. Colotte, C. Fauth, D. Fohr, D. Jouvet, J. Jügler, Y. Laprie, O. Mella, B. Moebius, F. Zimmerer. “The IFCASL corpus of French and German non-native and native read speech”. LREC’2016, 10th edition of the Language Resources and Evaluation Conference, May 2016, Portorož, Slovenia. Proceedings LREC’2016. <hal-01293935>

[Zimmerer et al., 2015] F. Zimmerer, J. Trouvain, A. Bonneau. “One corpus, one research question, three methods “German vowels produced by French speakers”. Worshop on Phonetic learner corpora. Satellite meeting of ICPhS 2015., Aug 2015, Glasgow, United Kingdom.  <hal-01186078>

[Zimmerer et al., 2016] F. Zimmerer, A. Bonneau, B. Andreeva. “Influence of L1 prominence on L2 production: French and German speakers”. Speech Prosody 2016, May 2016, Boston, United States. Speech Prosody 2016, 2016, pp.370 – 374, 2016, <hal-01399974>

En ce moment

Logo du CNRS
Logo Inria
Logo Université de Lorraine