[Offre de thèse 2021] explicabilité en apprentissage profond : application à l’identification de dialectes arabes dans des vidéos

Encadrant : Kamel Smaïli (kamel.smaili@loria.fr), David Langlois (david.langlois@loria.fr)

Équipe : SMarT

Financement : concours pour un contrat doctoral

Contexte scientifique

Les algorithmes d’apprentissage profond ont montré leur efficacité et leur pertinence dans différents domaines tels que la vision par ordinateur, la reconnaissance automatique de la parole, la traduction automatique, le génie biomédical [3], etc. Cependant, ces modèles sont monstrueusement complexes ; ils peuvent utiliser des dizaines ou des centaines de millions de paramètres [6,2] qui rendent difficile l’identification du sous-ensemble de paramètres responsables de l’efficacité ou du manque de performance du modèle. La complexité de l’architecture des modèles d’apprentissage profond empêche d’obtenir une explication claire sur la partie de l’architecture qui conduit à la meilleure performance ou celle qui rend les résultats sous-optimaux. Dans cette recherche, entre autres questions, nous aimerions savoir quel sous-ensemble de poids est susceptible de jouer le rôle le plus important dans la prédiction finale.

Il existe de nombreuses méthodes concernant l’explicabilité ou l’interprétabilité, comme la méthode LIME (Local Interpretable Model-agnostic Explanations) [7]. Dans cet article, les auteurs ont proposé un algorithme qui peut expliquer les prédictions de n’importe quel classificateur ou méthode de régression de manière fiable, en l’approximant localement avec un modèle interprétable. Un autre algorithme, SHAP (Shapely Additive Explanations) [4], lie l’allocation optimale de crédits à des explications locales en utilisant les valeurs de Shapley classiques de la théorie des jeux et leurs extensions connexes. Le but de SHAP est d’expliquer la décision de prédiction en calculant l’apport de chaque caractéristique à la prédiction.

Objectif de la thèse

L’étudiant en doctorat abordera ce problème d’explicabilité et proposera un nouveau cadre pour interpréter le modèle d’apprentissage profond utilisé.

L’application de cette proposition sera l’identification des dialectes arabes dans les vidéos. En fait, suite à l’expérience l’équipe SMarT dans le projet AMIS de Chist-Era [8] sur le résumé d’une vidéo originale dans une langue cible, dans ce travail de recherche, nous proposons d’identifier un dialecte arabe spécifique parmi plusieurs autres dans une base de données de vidéos. Dans le monde arabe, il existe une langue officielle, l’arabe standard moderne, qui coexiste avec plusieurs dialectes arabes selon les régions. Les gens utilisent leurs dialectes dans leur conversation quotidienne, tandis que l’arabe standard moderne est utilisé dans l’aspect formel de la communication. Les dialectes peuvent différer fortement les uns des autres, même au sein du même pays. Il est crucial d’identifier le dialecte afin de sélectionner les modèles correspondants pour la reconnaissance vocale. Ou encore, il est crucial de savoir quand il n’est pas possible de décider en toute confiance quel est le dialecte, et qu’alors il vaut mieux utiliser ensuite un modèle générique. Pour cela, l’explicabilité et l’interprétabilité permettent de comprendre la décision de la classification. De plus, elles permettent de mettre en évidence les parties des données sur lesquelles repose la décision, et donc de mieux comprendre les caractéristiques acoustiques et lexicales représentatives de chaque dialecte. Dans le cadre d’une décision basée sur un réseau de neurones, nous aimerions examiner les couches et les poids du modèle prédictif ; l’objectif est alors de pouvoir “lire” les paramètres du modèle prédictif à travers le filtre des caractéristiques que les êtres humains utilisent pour identifier un dialecte arabe.

Compétences attendues

Cette recherche nécessite des compétences en reconnaissance automatique de la parole, en traitement vidéo et en traitement du langage naturel.

Encadrement

La personne recrutée sera sous la direction de Kamel Smaïli, Professeur des Universités, et la co-direction de David Langlois, Maître de Conférence. Elle sera pleinement intégrée à l’équipe SMarT du Loria, qui s’intéresse à la modélisation du langage, aux aspects multilingues de la langue, et a une longue expérience avec l’approche ‘apprentissage automatique’.

Dans l’équipe, nous avons collecté 100 heures de vidéos arabes dans le projet AMIS qui pourraient être utilisées dans le travail de recherche proposé. Dans chaque vidéo, nous pouvons avoir plusieurs locuteurs de différentes régions arabes. De plus, l’équipe SMarT a construit des corpus de dialectes [5,1] qui seront utiles pour cette recherche.

Contact

  • Kamel Smaïli : kamel.smaili@loria.fr
  • David Langlois : david.langlois@loria.fr

Référence

[1] Karima Abidi, Mohamed Amine Menacer, and Kamel Smaïli. Calyou: A comparable spoken algerian corpus harvested from youtube. In 18th Annual Conference of the International Communication Association (Interspeech), 2017.
[2] Anurag Arnab, Ondrej Miksik, and Philip H S Torr. On the robustness of semantic segmentation models to adversarial attacks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 888–897, 2018.
[3] Andreas Holzinger, Georg Langs, Helmut Denk, Kurt Zatloukal, and Heimo Müller. Causability and explainability of artificial intelligence in medicine. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 9(4):e1312, 2019.
[4] Scott Lundberg and Su-In Lee. A unified approach to interpreting model predictions. arXiv preprint arXiv:1705.07874, 2017.
[5] Karima Meftouh, Salima Harrat, Salma Jamoussi, Mourad Abbas, and Kamel Smaïli. Machine translation experiments on PADIC: A parallel arabic dialect corpus. In the 29th Pacific Asia conference on language, information and computation, 2015.
[6] Mohamed Menacer, Odile Mella, Dominique Fohr, Denis Jouvet, David Langlois, and Kamel Smaïli. An enhanced automatic speech recognition system for arabic. In the third Arabic Natural Language Processing Workshop-EACL 2017, 2017.
[7] Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. ”why should I trust you?” explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, pages 1135–1144, 2016.
[8] Kamel Smaïli, Dominique Fohr, Carlos-Emiliano Gonzalez-Gallardo, Michal Grega, Lucjan Janowski, Denis Jouvet, Arian Kozbial, David Langlois, Mikolaj Leszczuk, Odile Mella, et al. Summarizing videos into a target language: Methodology, architectures and evaluation. Journal of Intelligent & Fuzzy Systems, 37(6):7415–7426, 2019.

Logo d'Inria