[Ingénieur 12 mois] Reconnaissance automatique de la parole de locuteurs non natifs dans un environnement bruyant

Contexte

Lorsqu’une personne a les mains occupées à effectuer une tâche comme conduire une voiture ou piloter un avion, la voix est un moyen rapide et efficace d’établir une interaction. Dans les communications aéronautiques, la langue anglaise est le plus souvent obligatoire. Malheureusement, une grande partie des pilotes ne sont pas anglophones et parlent avec un accent dépendant de leur langue maternelle et sont donc influencés par les mécanismes de prononciation de cette langue. Dans un cockpit d’avion, les prononciations non natives et les bruits environnants sont des défis difficiles à surmonter afin d’avoir une reconnaissance automatique de la parole (RAP) efficace. Les problèmes de la parole non native sont nombreux : prononciations incorrectes ou approximatives, erreurs d’accord en genre et en nombre, utilisation de mots inexistants, articles manquants, phrases grammaticalement incorrectes, etc. L’environnement acoustique ajoute une composante perturbatrice au signal de parole. Une grande partie du succès de la reconnaissance vocale repose sur la capacité à prendre en compte différents accents et bruits ambiants dans les modèles utilisés par la RAP.
La reconnaissance automatique de la parole a fait de grands progrès grâce au développement spectaculaire du deep learning. Ces dernières années, la reconnaissance vocale automatique de bout en bout, qui optimise directement la probabilité de la séquence de caractères de sortie en fonction des caractéristiques acoustiques d’entrée, a fait de grands progrès [Chan et al., 2016 ; Baevski et al., 2020 ; Gulati, et al., 2020].

Objectifs

La personne recrutée devra développer des méthodologies et des outils afin d’obtenir une reconnaissance automatique de la parole non native performante dans le contexte aéronautique et plus spécifiquement dans un cockpit d’avion (bruyant).
Ce projet sera fondé sur un système de reconnaissance vocale automatique de bout en bout [Shi et al., 2021] utilisant wav2vec 2.0 [Baevski et al., 2020]. Ce modèle est l’un des plus performants de l’état de l’art actuel. Ce modèle wav2vec 2.0 permet un apprentissage auto-supervisé des représentations à partir de données audio brutes (sans transcription).

Comment postuler

Les candidats intéressés sont encouragés à contacter Irina Illina (illina@loria.fr) avec les documents requis (CV, relevés de notes, lettre de motivation et lettres de recommandation).

Compétences
– master ou diplôme d’ingénieur en traitement de la parole / audio, vision par ordinateur, apprentissage automatique ou dans un domaine connexe,
– capacité à travailler aussi bien en autonomie qu’en équipe,
– solides compétences en programmation (Python, PyTorch) et connaissances approfondies en apprentissage,
– anglais écrit et parlé.

Cadre

Equipe multispeech du Loria à Nancy

Références

[Baevski et al., 2020] A. Baevski, H. Zhou, A. Mohamed, and M. Auli. Wav2vec 2.0: A framework for self-supervised learning of speech representations, 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020.
[Chan et al., 2016] W. Chan, N. Jaitly, Q. Le and O. Vinyals. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 4960-4964, 2016.
[Chorowski et al., 2017] J. Chorowski, N. Jaitly. Towards better decoding and language model integration in sequence to sequence models. Interspeech, 2017.
[Houlsby et al., 2019] N. Houlsby, A. Giurgiu, S. Jastrzebski, B. Morrone, Q. De Laroussilhe, A. Gesmundo, M. Attariyan, S. Gelly. Parameter-efficient transfer learning for NLP. International Conference on Machine Learning, PMLR, pp. 2790–2799, 2019.
[Gulati et al., 2020] A. Gulati, J. Qin, C.-C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, and R. Pang. Conformer: Convolution-augmented transformer for speech recognition. Interspeech, 2020.
[Shi et al., 2021] X. Shi, F. Yu, Y. Lu, Y. Liang, Q. Feng, D. Wang, Y. Qian, and L. Xie. The accented english speech recognition challenge 2020: open datasets, tracks, baselines, results and methods. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6918–6922, 2021.