Sewade Ogun (Multispeech) soutiendra sa thèse intitulée “Synthèse de la parole diversifiée pour l’augmentation des données d’apprentissage de la RAP” le 10 octobre à 13h30, en salle A008.
Au cours des deux dernières décennies, le taux d’erreur des systèmes de reconnaissance automatique de la parole (RAP) a chuté drastiquement, les rendant ainsi plus utiles dans les applications réelles. Cette amélioration peut être attribuée à plusieurs facteurs, dont les nouvelles architectures utilisant des techniques d’apprentissage profond, les nouveaux algorithmes d’entraînement, les ensembles de données d’entraînement grands et diversifiés, et l’augmentation des données. En particulier, les jeux de données d’entraînement de grande taille ont été essentiels pour apprendre des représentations robustes de la parole pour les systèmes de RAP. Leur taille permet de couvrir efficacement la diversité inhérente à la parole, en terme de voix des locuteurs, de vitesse de parole, de hauteur, de réverbération et de bruit.
Cependant, la taille et la diversité des jeux de données disponibles dans les langues bien dotées ne sont pas accessibles pour les langues moyennement ou peu dotées, ainsi que pour des domaines à vocabulaire spécialisé comme le domaine médical. Par conséquent, la méthode populaire pour augmenter la diversité des ensembles de données est l’augmentation des données. Avec l’augmentation récente de la naturalité et de la qualité des données synthétiques pouvant être générées par des systèmes de synthèse de la parole (TTS) et de conversion de voix (VC), ces derniers sont également devenus des options viables pour l’augmentation des données de RAP. Cependant, plusieurs problèmes limitent leur application.
Premièrement, les systèmes de TTS/VC nécessitent des données de parole de haute qualité pour l’entraînement. Par conséquent, nous développons une méthode de curation d’un jeux de données à partir d’un corpus conçu pour la RAP pour l’entraînement d’un système de TTS. Cette méthode exploite la précision croissante des estimateurs de qualité non intrusifs basés sur l’apprentissage profond pour filtrer les échantillons de haute qualité. Nous explorons le filtrage du jeux de données de RAP à différents seuils pour équilibrer sa taille, le nombre de locuteurs et la qualité. Avec cette méthode, nous créons un ensemble de données interlocuteurs de haute qualité, comparable en qualité à LibriTTS.
Deuxièmement, le processus de génération de données doit être contrôlable pour générer des données TTS/VC diversifiées avec des attributs spécifiques. Les systèmes TTS/VC précédents conditionnent soit le système sur l’empreinte du locuteur seule, soit utilisent des modèles discriminatifs pour apprendre les variabilités de la parole. Dans notre approche, nous concevons une architecture améliorée basée sur le flux qui apprend la distribution de différentes variables de la parole. Nous constatons que nos modifications augmentent significativement la diversité et la naturalité des énoncés générés par rapport à une référence GlowTTS, tout en étant contrôlables.
Enfin, nous avons évalué l’importance de générer des données des TTS et VC diversifiées pour augmenter les données d’entraînement de RAP. Contrairement à la génération naïve des données TTS/VC, nous avons examiné indépendamment différentes approches telles que les méthodes de sélection des phrases et l’augmentation de la diversité des locuteurs, la durée des phonèmes et les contours de hauteur, en plus d’augmenter systématiquement les conditions environnementales des données générées. Nos résultats montrent que l’augmentation TTS/VC est prometteuse pour augmenter les performances de RAP dans les régimes de données faibles et moyen. En conclusion, nos expériences fournissent un aperçu des variabilités particulièrement importantes pour la RAP et révèlent une approche systématique de l’augmentation des données de RAP utilisant des données synthétiques.
Encadrants