Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Soutenance de thèse : Adrien Dufraux

14 avril 2022 @ 13:30 - 15:30

La soutenance de thèse d’Adrien Dufraux, intitulée : “Exploitation de transcriptions bruitées pour la reconnaissance automatique de la parole”,  aura lieu en salle C005 du Loria le 14 avril à 13h30. Elle se déroulera en français, et sera également diffusée en direct sur la plateforme Webex.

 

Membres du Jury:

Rapporteurs :

  • Yannick Estève, Professeur, Avignon Université – LIA
  • Anthony Larcher, Professeur, Le Mans Université – LIUM

Examinateurs :

  • Lori Lamel, Directrice de Recherche, CNRS – LISN
  • Matthijs Douze, Chercheur, Meta AI

Directeurs de thèse :

  • Emmanuel Vincent, Directeur de Recherche, Inria Nancy – Grand Est
  • Armelle Brun, Maître de Conférences, Université de Lorraine – LORIA

Résumé :

Les méthodes usuelles pour la conception d’un système de reconnaissance automatique de la parole nécessitent des jeux de données de parole transcrite de bonne qualité. Ceux-ci sont composés du signal acoustique produit par un locuteur ainsi que de la transcription mot à mot de ce qui a été dit. Pour construire un bon modèle de reconnaissance automatique il faut plusieurs milliers d’heures de parole transcrite. Le jeu de données doit être créé à partir d’un panel de locuteurs et de situations différentes pour couvrir la variabilité de la parole et de la langue. Pour créer un tel jeu de données, on demande généralement à des annotateurs humains d’écouter les signaux acoustiques et d’écrire le texte correspondant. Ce procédé coûte cher et est source d’erreurs car ce qui est dit lors d’un enregistrement en conditions réelles n’est pas toujours facilement intelligible. Des signaux mal transcrits impliquent une baisse de performance du modèle acoustique. Pour améliorer la qualité des transcriptions, plusieurs personnes peuvent annoter le même signal acoustique, mais alors le procédé coûte encore plus cher.

Cette thèse prend le contre-pied de cette démarche et propose de concevoir des algorithmes permettant d’utiliser des jeux de données dont les transcriptions sont « bruitées », c’est-à-dire qu’elles contiennent des erreurs. Le but principal est donc de réduire les coûts pour construire un système de reconnaissance automatique de la parole en limitant la perte de qualité du système induite par ces erreurs.

Dans un premier temps, nous présentons l’algorithme Lead2Gold. Lead2Gold est basé sur une fonction de coût qui permet d’utiliser des jeux de données dont les transcriptions contiennent des erreurs. Nous modélisons ces erreurs par un modèle de bruit simple basé au niveau des lettres. Pour une transcription présente dans le jeu de données, l’algorithme cherche un ensemble de transcriptions probablement meilleures. Nous utilisons pour cela une recherche en faisceau dans le graphe. Une telle technique de recherche n’est habituellement pas utilisée pour la formulation d’une fonction de coût. Nous montrons qu’il est possible d’ajouter explicitement de nouveaux éléments, ici un modèle de bruit, pour créer des fonctions de coût complexes.

Ensuite nous améliorons la formulation de Lead2Gold pour que la fonction de coût soit modulable. Pour cela, nous utilisons des wFST. Les wFST sont des graphes dont les arcs sont pondérés et représentent des symboles. Nous pouvons composer différents graphes pour construire des fonctions de coût de façon flexible. Avec notre proposition, il devient plus facile d’ajouter de nouveaux éléments, comme un lexique, pour mieux caractériser les bonnes transcriptions. Nous montrons que l’utilisation des wFST est une bonne alternative à l’utilisation explicite de la recherche en faisceau de Lead2Gold. La formulation modulaire nous permet de proposer une nouvelle gamme de fonctions de coût modélisant les erreurs de transcription.

Enfin nous procédons à une expérience de collecte de données en conditions réelles. Nous observons les différents profils d’annotateurs. Les annotateurs n’ont pas la même perception des signaux acoustiques et les erreurs qu’ils commettent peuvent être de natures différentes. Le but explicite de cette expérience est d’obtenir des transcriptions erronées et de prouver l’utilité de modéliser ces erreurs.

Détails

Date :
14 avril 2022
Heure :
13:30 - 15:30
Catégorie d’évènement:

Lieu

C005