[proposition de thèse 2022] Explicabilité et interprétabilité en planification probabiliste

  • Thématique : Intelligence artificielle et planification probabiliste.
  • Laboratoire : LORIA (CNRS / Inria / Université de Lorraine)
  • Localisation : Nancy (France)
  • Équipe : LARSEN
  • Supervision : Olivier Buffet & Vincent Thomas
    prenom.nom@loria.fr
    https://members.loria.fr/prenom.nom/
  • Mots-clefs : Intelligence artificielle, processus de décision markoviens partiellement observables (POMDP), contrôle orienté information, explicabilité.
  • Date limite de candidature : 2 mai 2022 (2022-05-02)
  • Pour candidater : https://recrutement.inria.fr/public/classic/fr/offres/2022-04720

Contexte

En intelligence artificielle, la planification d’actions consiste à trouver quelles actions un agent doit effectuer pour atteindre un objectif donné. Ce sujet de thèse se concentre plus spécifiquement sur la planification probabiliste, pour laquelle les résultats des actions peuvent être incertains, et l’état courant du système n’est que partiellement connu, avec des observations éventuellement bruitées [6]. Lorsqu’un humain interagit avec un système de planification, il peut avoir différentes attentes concernant la stratégie construite par planification ou avoir des demandes particulières. Par exemple,

  1. si ce système fournit un plan que l’humain doit mettre en œuvre, l’humain peut souhaiter comprendre les choix faits par le système de planification ou vouloir préciser ses préférences, ou
  2. si l’humain et le système de planification agissent au sein du même environnement, par exemple dans le cadre d’une collaboration homme-robot, l’humain peut souhaiter anticiper les actions du robot et comprendre leur objectif.

Dans les deux cas, le système de planification doit pouvoir être le plus transparent possible pour l’humain, soit en lui fournissant des éléments rendant compte de la stratégie proposée (cas 1), soit en proposant au robot une stratégie qui laissera le moins d’incertitudes à l’interprétation possible (cas 2). Dans tous les cas, pour pouvoir construire la meilleure réponse possible, il peut être important de tenir compte du point de vue de l’humain : ce qu’il sait ou pourrait savoir de la dynamique, de la situation actuelle, des objectifs.

De manière plus générale, diverses questions peuvent se poser concernant l’information dont dispose soit l’humain, soit même l’agent. Ces questions abordent différentes thématiques, que ce soit l’explicabilité (donner des éléments de réponses pour expliquer la stratégie construite), l’interprétabilité (construire une stratégie la plus lisible pour l’humain lors de son exécution) ou la confidentialité et le respect de la vie privée (construire une stratégie qui masque les intentions du robot pour un observateur extérieur ou qui dévoile le moins possible des données personnelles que l’humain souhaiterait garder confidentielles).

Sujet

La littérature a typiquement abordé de telles questions indépendamment les unes des autres. Récemment, Chakkraborti et al. [2, 3] ont proposé une étude et des définitions formelles de ces différentes problématiques dans le cadre de la planification automatique en générale et la théorie de l’information. De manière similaire, nous souhaitons, dans cette thèse, adopter un point de vue unifié, en faisant le choix de quantifier les incertitudes mises en jeu de manière bayésienne, et voir quels outils proposer pour répondre à ces questions dans le cadre de modèles de décision markoviens [6]. Des modèles particuliers permettent déjà de raisonner par exemple sur l’information dont dispose l’agent lui-même (comme les ρ-POMDP [1, 5] que nous avons proposé par le passé) ou encore sur l’interaction collaborative ou compétitive avec d’autres agents (POSG [8, 4] et I-POMDP [7]).

L’objectif de cette thèse est de proposer une méthode systématique pour décrire, formaliser et résoudre tout problème combinant une tâche de planification et une volonté de contrôler ou d’optimiser certaines informations détenues par l’un ou l’autre acteur, humain ou agent.

Compétences souhaitées

Nous sommes à la recherche de candidats avec un intérêt marqué pour l’intelligence artificielle et la planification. Le candidat devra être à l’aise avec le cadre des probabilités ainsi qu’avoir de très bonnes compétences en programmation.

Références

[1] M. Araya-López, O. Buffet, V. Thomas et F. Charpillet. “A POMDP Extension with Belief-dependent Rewards”. In : NIPS-10. 2010.
[2] T. Chakraborti, A. Kulkarni, S. Sreedharan, D. E. Smith et S. Kambhampati. “Explicability ? Legibility ? Predictability ? Transparency ? Privacy ? Security ? The Emerging Landscape of Interpretable Agent Behavior”. In : ICAPS-19. 2021. URL : https://ojs.aaai.org/index.php/ICAPS/article/view/3463.
[3] T. Chakraborti, S. Sreedharan et S. Kambhampati. “The Emerging Landscape of Explainable Automated Planning & Decision Making”. In : IJCAI-20. 2020. DOI : 10.24963/ijcai.2020/669.
[4] A. Delage, O. Buffet et J. Dibangoye. “HSVI fo zs-POSGs using Concavity, Convexity and Lipschitz Properties”. In : CoRR/arXiv (2021). URL : https://arxiv.org/abs/2110.14529.
[5] M. Fehr, O. Buffet, V. Thomas et J. Dibangoye. “rho-POMDPs have Lipschitz-Continuous epsilon-Optimal Value Functions”. In : NIPS-18. 2018.
[6] F. Garcia et al. Markov Decision Processes and Artificial Intelligence. Sous la dir. d’O. Sigaud et O. Buffet. ISBN : 978-1-84821-167-4. ISTE – Wiley, 2010, p. 480.
[7] P. Gmytrasiewicz et P. Doshi. “Interactive POMDPs : Properties and Preliminary Results”. In : AAMAS-04. 2004.
[8] E. A. Hansen, D. Bernstein et S. Zilberstein. “Dynamic Programming for Partially Observable Stochastic Games”. In : AAAI-04. San Jose, CA, 2004.