Cet évènement est passé.

Soutenance de thèse de Guillaume Le Berre (Synalp)

Name: Soutenance de thèse de Guillaume Le Berre (Synalp)
Start: 2023-06-02T15:00:00+02:00
End: 2023-06-02T17:00:00+02:00
Location: Loria

2 juin 2023 @ 15:00 pm - 17:00 pm

Guillaume Le Berre (Synalp) soutiendra sa thèse intitulée « Vers la mitigation des biais en traitement neuronal des langues », le 2 juin à 15h.

Résumé :

Il est de notoriété que les modèles d’apprentissage profond sont sensibles aux biais qui peuvent être présents dans les données utilisées pour l’apprentissage. Ces biais qui peuvent être définis comme de l’information inutile ou préjudiciable pour la tâche considérée, peuvent être de différentes natures : on peut par exemple trouver des biais dans les styles d’écriture utilisés, mais aussi des biais bien plus problématiques portant sur le sexe ou l’origine ethnique des individus. Ces biais peuvent provenir de différentes sources, comme des annotateurs ayant créé les bases de données, ou bien du processus d’annotation lui-même. Ma thèse a pour sujet l’étude de ces biais et, en particulier, s’organise autour de la mitigation des effets des biais sur l’apprentissage des modèles de Traitement Automatique des Langues (TAL). J’ai notamment beaucoup travaillé avec les modèles pré-entraînés comme BERT, RoBERTa ou UnifiedQA qui sont devenus incontournables ces dernières années dans tous les domaines du TAL et qui, malgré leur large pré-entraînement, sont très sensibles à ces problèmes de biais.

Ma thèse s’organise en trois volets, chacun présentant une façon différente de gérer les biais présents dans les données. Le premier volet présente une méthode permettant d’utiliser les biais présents dans une base de données de résumé automatique afin d’augmenter la variabilité et la contrôlabilité des résumés générés. Puis, dans le deuxième volet, je m’intéresse à la génération automatique d’une base de données d’entraînement pour la tâche de question-réponse à choix multiples. L’intérêt d’une telle méthode de génération est qu’elle permet de ne pas faire appel à des annotateurs et donc d’éliminer les biais venant de ceux-ci dans les données. Finalement, je m’intéresse à l’entraînement d’un modèle multitâche pour la reconnaissance optique de texte. Je montre dans ce dernier volet qu’il est possible d’augmenter les performances de nos modèles en utilisant différents types de données (manuscrites et tapuscrites) lors de leur entraînement.

Détails

Date : 2 juin 2023
Heure :
15:00 pm - 17:00 pm
Catégorie d’Évènement: Soutenance
Évènement Tags:apprentissage profond, Biais, Deep-learning, Machine learning, TAL, traitement neuronal des langues

Lieu

Loria

Soutenance de thèse de Guillaume Le Berre (Synalp)

Résumé :

Détails

Lieu

À propos

Contact

L’actualité du Loria

Accès privé