Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Soutenance de thèse de Paul Caillon (Synalp)

31 mai 2023 @ 14:00 - 16:00

Paul Caillon (Synalp) soutiendra sa thèse intitulée “Apprentissage profond sans supervision directe pour le traitement automatique des langues”, le 31 mai à 14h en salle C005.

Résumé :

La profondeur des réseaux de neurones n’est plus l’aspect le plus important des systèmes d’apprentissage en profondeur de nos jours. Il s’agit plutôt de la possibilité de construire des fonctions de plus en plus abstraites et complexes implémentées sous forme de programmes informatiques paramétriques différentiables. La principale question concerne l’accès à des données annotées suffisantes pour entraîner cette fonction, ce qui devient critique. Par conséquent, de nos jours, la distinction standard entre l’apprentissage supervisé et non supervisé devient de plus en plus floue, car tout corpus annoté existant est inévitablement trop petit et statique pour représenter avec précision les informations les plus récentes. Un autre problème émergent est l’échelle des tailles de modèle utilisées pour atteindre des performances de pointe. Par exemple, en traitement du langage naturel, des super-modèles sont pré-entraînés, puis affinés pour des tâches spécifiques (Bert, XLM-R ou plus récemment PaLM et GPT-4). Les représentations génériques apprises par ces modèles sont ensuite adaptées aux tâches spécifiques à l’aide de méthodes d’apprentissage à quelques exemples adéquates lors d’une phase de “fine-tuning”.
Certaines méthodes récentes réduisent les tailles des modèles entraînés après la phase d’entraînement tout en obtenant les mêmes performances, afin d’obtenir des modèles d’apprentissage automatique plus petits et utilisables sur des dispositifs à performances de calcul limitées (voir les méthodes d’élagage de réseau, de quantisation ou de distillation). D’autre part, faire croître un petit réseau à la fois en largeur et en profondeur permet également d’apprendre des réseaux précis et relativement petits, atteignant des performances de pointe sans avoir à passer par l’entraînement d’un super-modèle.
Dans cette thèse, nous nous concentrons plus particulièrement sur le deuxième type d’approches. Nous travaillons sur des modèles capables d’augmenter progressivement la taille de la mémoire du réseau neuronal pour traiter une quantité croissante de données observées et observer la différence avec des modèles complets entraînés à partir de zéro, en mettant l’accent sur la compréhension des raisons pour lesquelles la croissance progressive conduit à des performances comparables avec moins de paramètres. Nous travaillons également sur de nouvelles fonctions de perte non supervisées ou faiblement supervisées qui permettent de former des modèles génératifs qui résolvent le manque de généralité de la plupart des méthodes d’incorporation actuelles. Nous proposons ainsi un modèle simple de grossissement permettant d’ajouter progressivement des nouveaux paramètres au cours de l’apprentissage afin d’étudier les comportements propres à ces réseaux dynamiques.
Plus précisément, nous comparons les aspects des surfaces des fonctions de coût des réseaux standards et expansifs afin d’expliquer les performances de ces derniers. Pour les étudier plus en détails, nous développons également une approximation du risque théorique pour la classification binaire qui peut être utilisée à la fois comme une mesure de généralisation et comme une fonction de coût non supervisée.

Jury

Rapporteurs :

  • Alexandre Allauzen PR, Université Paris-Dauphine et EPSCI, PSL
  • Francois Portet PR, Université Grenoble Alpes

Examinatrices :

  • Madalina Olteanu PR, Université Paris Dauphine PSL
  • Marianne Clausel PR, Université de Lorraine

Directeur de thèse :

  • Christophe Cerisara CR, Université de Lorraine

Détails

Date :
31 mai 2023
Heure :
14:00 - 16:00
Catégorie d’évènement:
Étiquettes évènement :
, , , , ,

Lieu

Loria