Timothée Anne (Larsen) soutiendra sa thèse intitulée “L’optimisation multi-tâche et ses applications à la robotique : d’abord résoudre, ensuite généraliser”, le 6 juin à 9h en salle B013.
Doter des agents artificiels, tels que des robots, d’une capacité à apprendre à réaliser des tâches complexes et à s’adapter est une quête centrale de la recherche en intelligence artificielle. L’apprentissage par renforcement profond en est aujourd’hui une des méthodes privilégiées, mais n’est ni toujours simple à mettre en œuvre, ni toujours la plus performante.
Dans cette thèse, nous étudions un autre concept d’apprentissage de politique qui se divise en deux étapes : une étape de résolution d’un ensemble de sous-problèmes puis une étape de généralisation. Plus formellement, la première étape reformule le problème général comme un problème multi-tâche permettant d’obtenir un jeu de données de solutions. La seconde étape utilise de l’apprentissage supervisé sur ce jeu de données pour entraîner une politique générale.Nous évaluons d’abord la viabilité de ce concept à un problème d’apprentissage de réflexes d’évitement de chute avec un robot humanoïde réel. Non seulement il permet d’apprendre des comportements en simulation qui permettent d’éviter la chute dans plus de 75\% des cas, mais ces comportements sont assez robustes pour fonctionner sur le robot réel.
Nous développons ensuite un algorithme de qualité-diversité multi-tâche, Multi-Task Multi-Behavior MAP-Elites, pour améliorer l’efficacité d’échantillonnage de la première étape de résolution. Nous illustrons cet algorithme sur le même problème d’apprentissage de réflexes d’évitement de chute d’un robot humanoïde et pour généraliser à des environnements plus réalistes.
Nous proposons enfin de passer d’une étape de résolution discrète à une résolution continue. Pour ce faire, nous reformulons le problème d’optimisation multi-tâche boîte noire comme un problème d’optimisation paramétrique et proposons une méthode pour le résoudre : Parametric-Task MAP-Elites. \Parametric-Task MAP-Elites résout une nouvelle tâche à chaque itération, recouvrant asymptotiquement l’espace des tâches. Après avoir consommé son budget d’évaluations, \eng{Parametric-Task MAP-Elites} distille les solutions trouvées dans une politique pour généraliser à l’ensemble de l’espace continu.
L’optimisation multi-tâche est une méthode sous-exploitée qui montre, dans cette thèse, son aptitude à permettre de résoudre certains problèmes de robotique de façon plus simple à mettre en œuvre et plus performante que l’apprentissage par renforcement profond.
Rapporteurs :
Examinatrices :
Encadrant : Jean-Baptiste Mouret, Centre Inria de l’Université de Lorraine