[Ingénieur 12 mois] Reconnaissance automatique de la parole de locuteurs non natifs dans un environnement bruyant
Contexte
Lorsqu’une personne a les mains occupées à effectuer une tâche comme conduire une voiture ou piloter un avion, la voix est un moyen rapide et efficace d’établir une interaction. Dans les communications aéronautiques, la langue anglaise est le plus souvent obligatoire. Malheureusement, une grande partie des pilotes ne sont pas anglophones et parlent avec un accent dépendant de leur langue maternelle et sont donc influencés par les mécanismes de prononciation de cette langue. Dans un cockpit d’avion, les prononciations non natives et les bruits environnants sont des défis difficiles à surmonter afin d’avoir une reconnaissance automatique de la parole (RAP) efficace. Les problèmes de la parole non native sont nombreux : prononciations incorrectes ou approximatives, erreurs d’accord en genre et en nombre, utilisation de mots inexistants, articles manquants, phrases grammaticalement incorrectes, etc. L’environnement acoustique ajoute une composante perturbatrice au signal de parole. Une grande partie du succès de la reconnaissance vocale repose sur la capacité à prendre en compte différents accents et bruits ambiants dans les modèles utilisés par la RAP.
La reconnaissance automatique de la parole a fait de grands progrès grâce au développement spectaculaire du deep learning. Ces dernières années, la reconnaissance vocale automatique de bout en bout, qui optimise directement la probabilité de la séquence de caractères de sortie en fonction des caractéristiques acoustiques d’entrée, a fait de grands progrès [Chan et al., 2016 ; Baevski et al., 2020 ; Gulati, et al., 2020].
Objectifs
La personne recrutée devra développer des méthodologies et des outils afin d’obtenir une reconnaissance automatique de la parole non native performante dans le contexte aéronautique et plus spécifiquement dans un cockpit d’avion (bruyant).
Ce projet sera fondé sur un système de reconnaissance vocale automatique de bout en bout [Shi et al., 2021] utilisant wav2vec 2.0 [Baevski et al., 2020]. Ce modèle est l’un des plus performants de l’état de l’art actuel. Ce modèle wav2vec 2.0 permet un apprentissage auto-supervisé des représentations à partir de données audio brutes (sans transcription).
Comment postuler
Les candidats intéressés sont encouragés à contacter Irina Illina (illina@loria.fr) avec les documents requis (CV, relevés de notes, lettre de motivation et lettres de recommandation).
Compétences
– master ou diplôme d’ingénieur en traitement de la parole / audio, vision par ordinateur, apprentissage automatique ou dans un domaine connexe,
– capacité à travailler aussi bien en autonomie qu’en équipe,
– solides compétences en programmation (Python, PyTorch) et connaissances approfondies en apprentissage,
– anglais écrit et parlé.
Cadre
Equipe multispeech du Loria à Nancy
Références