Soutenance de thèse de Tulika Bose (Multispeech)

Name: Soutenance de thèse de Tulika Bose (Multispeech)
Start: 2023-01-30T14:00:00+01:00
End: 2023-01-30T16:00:00+01:00
Location: Loria

30 janvier 2023 @ 14:00 pm - 16:00 pm

Tulika Bose (Multispeech) soutiendra sa thèse intitulée “Apprentissage par Transfert pour la Détection de Langage Abusif” le lundi 30 janvier à 14h00 à la salle A008 du Loria.

Résumé :

La prolifération des médias sociaux, en dépit de ses multiples avantages, a conduit à une augmentation de la propagation de propos abusifs. Les modèles d’apprentissage profond pour la détection de propos abusifs ont montré de bonnes performances quand les corpus de train et de test sont issus d’une même collecte, mais sont nettement moins performants si la distribution des données de test diffère de celle des données d’entraînement (cross-corpus). De plus, l’entrainement de ces modèles nécessitent une quantité considérable de données étiquetées coûteuses. Cette thèse étudie le problème de l’apprentissage par transfert pour la détection de propos abusifs et explore diverses solutions pour améliorer le transfert de connaissances dans des scénarios de cross-corpus. Tout d’abord, nous cherchons à savoir si la combinaison de représentations de modèles thématiques avec des représentations contextuelles peut améliorer la généralisabilité des modèles. Ensuite, nous explorons certaines approches populaires d’adaptation de domaine non supervisée (UDA unsupervised domain adaptation) issues de la classification des sentiments pour la détection de propos abusifs. Notre analyse révèle leurs limites et souligne le besoin de méthodes d’adaptation efficaces adaptées à notre tâche. Comme troisième contribution, nous proposons deux approches d’adaptation de domaine avec un mécanisme de raffinement dynamique utilisant des attributions de caractéristiques, qui sont des explications post-hoc du modèle. En particulier, nous étudions le problème des corrélations fallacieuses spécifiques au corpus qui limitent la généralisation des classificateurs pour la détection des discours de haine, une sous-catégorie des propos abusifs. Enfin, nous proposons une nouvelle méthode d’apprentissage pour transférer les connaissances d’un grand corpus source vers un petit corpus cible dans le cas des discours de haine. Nous incorporons des informations de voisinage avec une méthode de transport optimal (optimal transport) qui permet d’exploiter la géométrie de l’espace d’apprentissage. En alignant les distributions conjointes des plongements lexicaux (embeddings) et des étiquettes des voisins, nous obtenons des améliorations substantielles pour des corpus de discours haineux de petite taille.

Jury

Directeurs de thèse:

Irina ILLINA, Maître de conférence, Université de Lorraine
Dominique FOHR, Chargé de Recherche, CNRS, LORIA-INRIA

Rapporteurs:

Björn GAMBÄCK, Professeur, Université Norvégienne des Sciences et Technologies
Veronique HOSTE, Professeur, Université de Ghent

Examinateurs :

Benjamin LECOUTEUX, Professeur, Université Grenoble Alpes
Benoit FAVRE, Professeur, Aix Marseille Université, France
Claire GARDENT, Directrice de Recherche, CNRS, LORIA-INRIA
Angeliki MONNIER, Professeur, Université de Lorraine, CREM

+ Google Agenda + Ajouter à iCalendar

Détails

Date :: 30 janvier 2023
Heure :: 14:00 pm - 16:00 pm
Catégorie d’évènement:: Soutenance
Étiquettes évènement :: discours de haine, Langage Abusif, modèles d'apprentissage profond, Multispeech, Talika Bose, Thèse doctorale

Lieu

Loria

Soutenance de thèse de Tulika Bose (Multispeech)

30 janvier 2023 @ 14:00 pm - 16:00 pm

Résumé :

Jury

Détails

Lieu

Colloquium 2024

Suivez-nous sur Twitter

Follow us on Twitter

À propos

Contact

L’actualité du Loria

Accès privé