Loading Events

« All Events

  • This event has passed.

Soutenance de thèse de Tulika Bose (Multispeech)

30 January 2023 @ 14:00 pm - 16:00 pm

Tulika Bose (Multispeech) soutiendra sa thèse intitulée “Apprentissage par Transfert pour la Détection de Langage Abusif” le lundi 30 janvier à 14h00 à la salle A008 du Loria.

Résumé :

La prolifération des médias sociaux, en dépit de ses multiples avantages, a conduit à une augmentation de la propagation de propos  abusifs. Les modèles d’apprentissage profond pour la détection de propos abusifs ont montré de bonnes performances quand les corpus de train et de test sont issus d’une même collecte, mais sont nettement moins performants si la distribution des données de test diffère de celle des données d’entraînement (cross-corpus). De plus, l’entrainement de ces modèles nécessitent une quantité considérable de données étiquetées coûteuses. Cette thèse étudie le problème de l’apprentissage par transfert pour la détection de propos abusifs et explore diverses solutions pour améliorer le transfert de connaissances dans des scénarios de cross-corpus. Tout d’abord, nous cherchons à savoir si la combinaison de représentations de modèles thématiques avec des représentations contextuelles peut améliorer la généralisabilité des modèles. Ensuite, nous explorons certaines approches populaires d’adaptation de domaine non supervisée (UDA unsupervised domain adaptation) issues de la classification des sentiments pour la détection de propos abusifs. Notre analyse révèle leurs limites et souligne le besoin de méthodes d’adaptation efficaces adaptées à notre tâche. Comme troisième contribution, nous proposons deux approches d’adaptation de domaine avec un mécanisme de raffinement dynamique utilisant des attributions de caractéristiques, qui sont des explications post-hoc du modèle. En particulier, nous étudions le problème des corrélations fallacieuses spécifiques au corpus qui limitent la généralisation des classificateurs pour la détection des discours de haine, une sous-catégorie des propos abusifs. Enfin, nous proposons une nouvelle méthode d’apprentissage pour transférer les connaissances d’un grand corpus source vers un petit corpus cible dans le cas des discours de haine. Nous incorporons des informations de voisinage avec une méthode de transport optimal (optimal transport) qui permet d’exploiter la géométrie de l’espace d’apprentissage. En alignant les distributions conjointes des plongements lexicaux (embeddings) et des étiquettes des voisins, nous obtenons des améliorations substantielles pour des corpus de discours haineux de petite taille.

Jury

Directeurs de thèse:
  • Irina ILLINA, Maître de conférence, Université de Lorraine
  • Dominique FOHR, Chargé de Recherche, CNRS, LORIA-INRIA
Rapporteurs:
  • Björn GAMBÄCK, Professeur, Université Norvégienne des Sciences et Technologies
  • Veronique HOSTE, Professeur, Université de Ghent
Examinateurs :
  • Benjamin LECOUTEUX, Professeur,  Université Grenoble Alpes
  • Benoit FAVRE, Professeur, Aix Marseille Université, France
  • Claire GARDENT, Directrice de Recherche, CNRS, LORIA-INRIA
  • Angeliki MONNIER, Professeur, Université de Lorraine, CREM

 

Details

Date:
30 January 2023
Time:
14:00 pm - 16:00 pm
Event Category:
Event Tags:
, , , , ,

Venue

Loria
campus scientifique
vandoeuvre les nancy, 5406 France
+ Google Map

 

 

Logo d'Inria