[Proposition de thèse] Caractériser et explorer l’espace des modèles de réseaux de neurones

Sujet de thèse. Encadrants : Mathieu d’Aquin and Emmanuel Nauer

Ceci est un appel à candidature pour une thèse, sous réserve d’obtention de financement, au sein de l’équipe K du LORIA. Veuillez contacter Mathieu d’Aquin (mathieu point daquin a loria point fr) et Emmanuel Nauer (emmanuel point nauer a loria point fr) si vous souhaitez postuler (avant le 15 mai 2022).

Contexte

Ces dernières années ont vues une forte augmentation de l’utilisation des techniques d’apprentissage automatique dans toutes sortes d’applications. En conséquence, des bibliothèques telles que Keras [4] ont été créées et sont rapidement devenues, de fait, des standards dans la création de modèles de réseaux de neurones pour l’apprentissage automatique. De plus, outre le partage de code sur des plates-formes telles que github, de nouveaux outils en ligne pour partager et évaluer ce type de code sont devenus de plus en plus populaires. En effet, les plates-formes telles que Kaggle hébergent non seulement les données utilisés pour l’apprentissage, mais aussi les scripts permettant de créer les modèles d’apprentissage et leur résultats pour des milliers d’applications.

Avec cette augmentation de l’utilisation de modèles d’apprentissage est aussi apparu un besoin croissant d’aide à la gestion de ces modèles [6]. En effet, chaque projet de d’apprentissage automatique s’accompagne de nombreuses versions des modèles créés, basé sur les tests de différentes configurations, sur l’application de différentes méthodes d’ingénierie des données et sur l’utilisation de méthodes d’optimisation d’hyperparamètres [2]. Sur un exemple tel que celui décrit dans [1], des centaines de modèles sont entraînés, combinant plusieurs modèles, utilisant différentes données en entrée, etc.
Certains de ces modèles (ou du moins le code pour les produire) peuvent apparaître en ligne, et certains des résultats seront publiés, mais une grande partie des connaissances contenues dans ceux-ci seront perdues.

Certains outils existent déjà pour aider à gérer la prolifération des modèles dans un projet donné (voir par exemple neptune.ai) ou pour aider à trouver des modèles qui ont été partagés (voir par exemple [7]). Cependant, ces outils restent limités dans leur portée et ne permettent pas aux utilisateurs d’explorer l’espace des modèles existants avec des questions précises telles que : “Quelle est la structure la plus courante d’un réseau de neurones pour ce type de tâches ?”, “Quel type de modèle a été utilisé sur ce type de données ?” ou ”D’autres modèles ont-ils trouvé des résultats similaires ?” Cela ne peut être réalisé qu’en décrivant sémantiquement les modèles d’une manière qui peut être interprété et exploré.

Objectif de la thèse

L’objectif général de cette thèse est donc d’étudier et de résoudre les différents problèmes et questions que pose la construction d’un graphe de connaissances des modèles de réseaux de neurones. Un graphe de connaissances est une description sémantique d’entités selon une ontologie [3] de telle manière à ce que les données sur ces entités puissent être parcourues et explorées de façon significative. Certaines des contributions attendues de cette thèse incluent donc :

  • Établir un processus pour identifier et extraire des modèles à partir de référentiels en ligne tels que Kaggle.
  • Identifier les caractéristiques utiles pour décrire ces modèles (et leurs résultats, données, etc.) et les définir dans une ontologie.
  • Concevoir des méthodes pour extraire automatiquement de telles caractéristiques, par exemple à partir de code disponible en ligne.
  • Étudier les applications de ces méthodes, par exemple pour l’interprétation de modèles [5] et la réutilisation de modèles, dans des domaines spécifiques, notamment la santé et les humanités numériques.

References

[1] Lucas Azevedo, Mathieu d’Aquin, Brian Davis, and Manel Zarrouk. Lux (linguistic aspects under examination): Discourse analysis for automatic fake news classification. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, pages 41–56, 2021.
[2] Matthias Feurer and Frank Hutter. Hyperparameter optimization. In Automated machine learning, pages 3–33. Springer, Cham, 2019.
[3] Aidan Hogan, Eva Blomqvist, Michael Cochez, Claudia d’Amato, Gerard de Melo, Claudio Gutierrez, Sabrina Kirrane, Jos ́e Emilio Labra Gayo, Roberto Navigli, Sebastian Neumaier, et al. Knowledge graphs. Synthesis Lectures on Data, Semantics, and Knowledge, 12(2):1–257, 2021.
[4] Nikhil Ketkar. Introduction to keras. In Deep learning with Python, pages 97–111. Springer, 2017.
[5] Andriy Nikolov and Mathieu d’Aquin. Uncovering semantic bias in neural network models using a knowledge graph. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management, pages 1175–1184, 2020.
[6] Sebastian Schelter, Felix Biessmann, Tim Januschowski, David Salinas, Stephan Seufert, and Gyuri Szarvas. On challenges in machine learning model management. IEEE Data Eng. Bull., 2018.
[7] Manasi Vartak, Harihar Subramanyam, Wei-En Lee, Srinidhi Viswanathan, Saadiyah Husnoo, Samuel Madden, and Matei Zaharia. Modeldb: a system for machine learning model management. In Proceedings of the Workshop on Human-In-the-Loop Data Analytics, pages 1–3, 2016.

Logo d'Inria