Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Soutenance de thèse de Guillaume Le Berre (Synalp)

2 juin 2023 @ 15:00 - 17:00

Guillaume Le Berre (Synalp) soutiendra sa thèse intitulée “Vers la mitigation des biais en traitement neuronal des langues”, le 2 juin à 15h.

Résumé :

Il est de notoriété que les modèles d’apprentissage profond sont sensibles aux biais qui peuvent être présents dans les données utilisées pour l’apprentissage. Ces biais qui peuvent être définis comme de l’information inutile ou préjudiciable pour la tâche considérée, peuvent être de différentes natures : on peut par exemple trouver des biais dans les styles d’écriture utilisés, mais aussi des biais bien plus problématiques portant sur le sexe ou l’origine ethnique des individus. Ces biais peuvent provenir de différentes sources, comme des annotateurs ayant créé les bases de données, ou bien du processus d’annotation lui-même. Ma thèse a pour sujet l’étude de ces biais et, en particulier, s’organise autour de la mitigation des effets des biais sur l’apprentissage des modèles de Traitement Automatique des Langues (TAL). J’ai notamment beaucoup travaillé avec les modèles pré-entraînés comme BERT, RoBERTa ou UnifiedQA qui sont devenus incontournables ces dernières années dans tous les domaines du TAL et qui, malgré leur large pré-entraînement, sont très sensibles à ces problèmes de biais.

Ma thèse s’organise en trois volets, chacun présentant une façon différente de gérer les biais présents dans les données. Le premier volet présente une méthode permettant d’utiliser les biais présents dans une base de données de résumé automatique afin d’augmenter la variabilité et la contrôlabilité des résumés générés. Puis, dans le deuxième volet, je m’intéresse à la génération automatique d’une base de données d’entraînement pour la tâche de question-réponse à choix multiples. L’intérêt d’une telle méthode de génération est qu’elle permet de ne pas faire appel à des annotateurs et donc d’éliminer les biais venant de ceux-ci dans les données. Finalement, je m’intéresse à l’entraînement d’un modèle multitâche pour la reconnaissance optique de texte. Je montre dans ce dernier volet qu’il est possible d’augmenter les performances de nos modèles en utilisant différents types de données (manuscrites et tapuscrites) lors de leur entraînement.

Détails

Date :
2 juin 2023
Heure :
15:00 - 17:00
Catégorie d’évènement:
Étiquettes évènement :
, , , , ,

Lieu

Loria