Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Soutenance de thèse de Felix Gaschi (Orpailleur)

14 décembre 2023 @ 15:00 - 17:00

Felix Gaschi (Orpailleur) soutiendra sa thèse* intitulée “Comprendre et évaluer les embeddings multilingues non supervisés dans les domaines général et clinique”, le 14 décembre à 15h en salle C005.

Résumé :

Les données labellisées et non labellisées sont plus souvent disponibles en anglais que dans d’autres langues. Dans le domaine clinique, les données non anglaises peuvent être encore plus rares. Les représentations, ou plongements lexicaux, multilingues peuvent avoir deux propriétés utiles dans cette situation. La première est l’alignement multilingue, où les représentations de différentes langues partagent le même espace latent. Plus concrètement, les mots qui sont la traduction l’un de l’autre doivent avoir des représentations similaires. La deuxième propriété est l’apprentissage par transfert cross-lingue : il permet à un modèle d’être entraîné sur une tâche supervisée dans une langue et de fournir de bons résultats pour la même tâche dans une autre langue, sans avoir besoin de données annotées dans cette langue. Cette thèse aborde certaines lacunes dans la littérature concernant la compréhension des représentations multilingues. Elle étudie notamment le lien entre l’alignement multilingue et le transfert cross-lingue, en montrant que les modèles, comme mBERT et XLM-R, qui peuvent effectuer ce transfert cross-lingue produisent des représentations qui ont une forme plus forte d’alignement multilingue que d’autres représentations qui ont été explicitement entraînés pour un tel alignement. Est également révélée la forte corrélation entre les capacités de transfert cross-lingue et l’alignement multilingue, ce qui suggère que ces deux propriétés multilingues sont liées. Ce lien permet d’améliorer le transfert cross-lingue pour les petits modèles en améliorant simplement l’alignement, ce qui peut leur permettre d’égaler les performances de grands modèles, mais seulement pour une tâche de bas niveau comme l’étiquetage POS, en raison de l’impact du fine-tuning lui-même sur l’alignement multilingue. Tout en se concentrant principalement sur le domaine général, cette thèse évalue finalement le transfert multilingue dans le domaine clinique. Elle montre que les méthodes basées sur la traduction peuvent atteindre des performances similaires à celles du transfert multilingue, mais qu’elles nécessitent plus de soin dans leur conception. Et bien qu’elles puissent tirer parti de modèles linguistiques cliniques monolingues, ceux-ci ne garantissent pas de meilleurs résultats que les larges modèles multilingues à usage général, que ce soit avec le transfert cross-lingue ou par traduction.

Jury

Rapporteurs :
  • François Yvon, Professeur, Université Paris Saclay
  • Anders Søgaard, Professeur, Université de Copenhague
Examinateurs : 
  • Asma Ben Abacha, Docteur, Microsoft Research
  • Annie Eun-Shiun Lee, Associate Professor, Ontario Tech University
Encadrants de thèse :
  • Yannick Toussaint, Professeur, Université de Lorraine
  • Parisa Rastin, Maître de conférence, Université de Lorraine
  • François Plesse, Docteur, Posos

* Thèse CIFRE réalisée avec l’entreprise Posos.

Détails

Date :
14 décembre 2023
Heure :
15:00 - 17:00
Catégorie d’évènement:
Étiquettes évènement :
, ,

Lieu

A008