Chuyuan Li (Sémagramme) soutiendra sa thèse intitulée “Facing data scarcity in dialogue for discourse structure prediction and discovery”, le 24 août à 15h en salle C005.
La structure du discours reflète l’organisation cohérente des phrases dans un document. L’analyse du discours joue un rôle crucial dans le Traitement Automatique des Langages (TAL) et a démontré son utilité dans diverses applications telles que le résumé et les systèmes de question-réponses. Dans cette thèse, nous étudions l’analyse du discours dans les dialogues : un cadre sous-exploré en raison de la rareté des données annotées.
Nous abordons l’analyse du discours selon deux axes de recherche : la << découverte des traits du discours >> et la << prédiction de la structure du discours >>. Dans le premier axe de recherche, nous menons des expériences pour étudier les marqueurs linguistiques, à la fois lexicaux et non lexicaux, dans les tâches de classification de texte. Nous proposons des techniques d’apprentissage automatique pour améliorer la représentation des données et l’ingénierie des traits afin de résoudre le problème de la rareté des données. Dans un second axe, notre objectif est de prédire directement la structure du discours — une structure fondée sur les graphes enrichie de relations – d’un document donné. En nous inspirant des études récentes portant sur la BERTology, nous extrayons les informations discursives encodées dans des modèles de langage pré-entraînés tels que BERT et BART. Nous démontrons des résultats prometteurs dans les différents domaines en utilisant une supervision minimale.
Président :
Rapporteurs :
Examinateurs :
Directeurs :