Mohammed Fellaji soutiendra sa thèse intitulée Calibration épistémique pour l’apprentissage profond bayésien : principes, enjeux et solutions, dirigée par Miguel Couceiro et Frédéric Pennerath, le lundi 7 juillet à 10 heures dans l’amphithéâtre de CentraleSupélec, Campus de Metz.
Composition du jury :
M. Miguel COUCEIRO | Université de Lisbonne | Directeur de thèse |
M. Frédéric PENNERATH | CentraleSupélec | Co-directeur de thèse |
M. Sébastien DESTERCKE | CNRS, UMR 7253 Heudiasyc | Rapporteur |
M. Willem WAEGEMAN | Ghent University | Rapporteur |
Mme Marianne CLAUSEL | Université de Lorraine | Examinatrice |
Mme Ines LYNCE | Instituto Superior Técnico INESC-ID Lisboa | Examinatrice |
M. Brieuc CONAN-GUEZ | Université de Lorraine | Invité |
Mme Sandrine VATON | IMT Atlantique | Invitée |
Mots-clés : | modèles bayésiens ; incertitudes ; incertitude épistémique ; calibration du modèle ; calibration épistémique |
Résumé : |
La plupart des modèles d’apprentissage profond produisent des distributions probabilistes pour leurs prédictions, mais leur évaluation se base souvent sur des métriques de performance brute (commme la précision de la classification), ignorant l’incertitude des prédictions. L’importance de mesurer la confiance des modèles est soulignée en raison de leurs limites de généralisation et de la nécessité de prévoir des performances fiables sur de nouvelles données. Le domaine de la calibration des modèles en apprentissage profond a ainsi émergé pour promouvoir des prédictions plus fiables. Entre-temps, le développement de modèles tels que les réseaux neuronaux bayésiens, les ensembles profonds ou les modèles profonds “evidentiels” a permis d’estimer le niveau d’incertitude épistémique, inhérent au processus d’apprentissage, en complément de l’incertitude aléatoire déjà estimée par les modèles standard. Si la qualité de l’incertitude prédictive/aléatoire peut être mesurée par des méthodes de calibration bien établies, il n’en va pas de même pour l’incertitude épistémique. Cette dernière étant considérée comme la mesure idéale dans une série d’applications, il est donc important d’explorer ses propriétés de calibration, ce qui a rarement été abordé dans la littérature. Définir la calibration épistémique pose des défis quant à sa formalisation, sa comparaison avec la calibration de modèle, et son étude sur la base de principes fondamentaux. Cette thèse aborde ces questions par des approches théoriques et expérimentales appliquées aux classificateurs profonds dans le but d’explorer l’incertitude épistémique et ses implications dans diverses applications. Après avoir étudié l’état de l’art sur la quantification de l’incertitude probabiliste, notamment dans les modèles profonds, et face à la difficulté de calibrer quantitativement l’incertitude épistémique, nous définissons formellement deux principes élémentaires que cette incertitude devrait idéalement respecter : les principes liés aux données et au modèle. En effet, l’incertitude épistémique étant liée au modèle, elle devrait diminuer avec la quantité de données disponibles et augmenter avec la complexité ou l’expressivité du modèle. Empiriquement, et sur divers jeux de données, nous montrons que les modèles bayésiens courants ou leurs alternatives ne respectent pas pleinement ces principes fondamentaux. Nous en concluons que ces modèles manquent de calibration épistémique, un phénomène que nous appelons le trou d’incertitude épistémique. Étant donné l’importance du prior dans l’incertitude épistémique, nous analysons si l’échec des modèles provient d’un choix inadéquat du prior. Pour cela, nous introduisons la Conflictual loss, une fonction de loss qui favorise la diversité des sorties grâce à l’utilisation d’un prior non informatif. Nous montrons expérimentalement que cette loss améliore la calibration de l’incertitude épistémique et ne présente pas le trou d’incertitude épistémique. De plus, des entrées particulières ont été étudiées, comme des échantillons bruités ou issus du jeu de test, afin d’analyser l’évolution des différentes sources d’incertitudes. Nous analysons aussi les spécificités de la diversité conflictuelle dans l’espace des paramètres, en soulignant les différences avec les ensembles profonds. À partir de cette analyse, une version compacte du modèle est formalisée, mettant en valeur les apports du prior non informatif. Enfin, les modèles sont évalués sur des applications populaires telles que la détection hors distribution (OOD) et l’apprentissage actif bayésien. |
Abstract :
Although most deep learning models provide probabilistic distributions as a predictive output, their evaluation often relies mainly on raw performance metrics (e.g. accuracy for classification) insensitive to the uncertainty expressed by these distributions. Yet, the inherent restrictions on the generalization ability of these models make them extremely unlikely to reach flawless performance on new data, hence advocating for the importance of examining the confidence of the predictions. In this regard, the field of model calibration has recently gained considerable attention in the deep learning community, with the aim of encouraging reliable predictions. Meanwhile, the development of models like Bayesian neural networks, deep ensemble or evidential deep models has made it possible to estimate the level of epistemic uncertainty, inherent to the learning process, in complement to the aleatoric uncertainty already estimated by standard models. While the quality of predictive/aleatoric uncertainty can be measured by well-established calibration methods, the same cannot be said about epistemic uncertainty. Since the latter is considered the ideal score in a range of applications, it is therefore of utmost importance to explore its calibration properties, which has rarely been addressed in the literature. When attempting to define epistemic calibration, more challenges arise on how to formalize this calibration, assuming its existence. For instance, it may be worth considering whether it is feasible to study it similarly to model calibration, or at the very least, based on fundamental principles. Throughout this thesis, we have attempted to overcome these challenges by conducting work of both a theoretical and experimental nature in the specific context of deep classifiers. After reviewing the state of the art to quantifying probabilistic uncertainty, especially in the field of deep models, and given the difficulty of quantitatively calibrating epistemic uncertainty, we first define formally two elementary principles that epistemic uncertainty should ideally satisfy to our view: data-related and model-related principles. Indeed, as epistemic uncertainty is associated with knowledge in the model, it should decrease with the amount of available data and increase with the expressivity/complexity of the model. Empirically, and on a variety of datasets, we show that commonly used Bayesian models or alternatives do not fully verify these fundamental principles. Therefore, we argue that these models lack epistemic calibration, and we refer to this phenomenon as the epistemic uncertainty hole. Considering the critical role that the prior plays in shaping epistemic uncertainty, we investigate how much this failure of the tested models is due to an inadequate choice of prior. To this end, we introduce Conflictual loss, a loss function that favors diversity of the outputs thanks to the use of an uninformative prior. We then experimentally show that Conflictual loss leads to a better calibrated epistemic uncertainty and does not suffer from the epistemic uncertainty hole. Additionally, special inputs were investigated, which were either noisy samples or drawn from the test set, to understand the evolution of different sources of uncertainties. Furthermore, we analyze the specificities of the conflictual diversity in the parameters space and highlight the differences with deep ensembles. Building on the findings of this analysis, a compact version of the model was formalized, further emphasizing the benefits of the uninformative prior. Finally, the models were evaluated on popular applications such as out-of-distribution (OOD) detection and Bayesian active learning. |