Offre de thèse. Data Analytics : des modèles descriptifs aux modèles prescriptifs sur des traces massives d’objets hétérogènes pour la e-éducation

Encadrant : Armelle Brun – armelle.brun@loria.fr

Lieu : Equipe KIWI, laboratoire LORIA (UMR 7503)

Mots clés : Intelligence Artificielle, Data Analytics, Fouille de Données, E-éducation, Big Data

Cadre de la thèse

Les données de réalisation, également appelées données d’observation ou traces, constituent une source d’information importante et précieuse sur de nombreux phénomènes, processus, systèmes ou objets : commerce en ligne, tourisme, santé, éducation, etc. Ce sont ces traces que nous proposons de fouiller dans cette thèse pour former un modèle empirique de ces phénomènes.

Les Data Analytics visent à identifier des éléments, ou connaissances, dans les données, utiles dans un but de prise de décision. Ils sont exploités pour améliorer les résultats (accroissement des ventes, amélioration de la satisfaction client, guérison plus rapide des patients, amélioration de la qualité d’apprentissage des apprenants, etc.). Ils sont souvent présentés sous la forme de quatre types d’Analytics : Les descriptive analytics qui ont pour but d’identifier et de quantifier les relations au sein données, passées en l’occurrence, dans le but de mieux les comprendre, les synthétiser et les résumer. Ils répondent à la question quoi / que s’est-il passé ?; Les diagnostic analytics qui vont un pas plus loin dans la compréhension des données. Ils cherchent à les expliquer, ils répondent à la question pourquoi cela s’est-il passé ? ; Les predictive analytics qui visent à prédire des données futures en analysant les données disponibles (les données passées). Ils répondent à la question que va-t-il se passer ? ; Les prescriptive analytics qui ont pour but d’agir sur ces dernières, en identifiant les éléments permettant de modifier les données futures. Ils répondent à la question comment agir pour que cela arrive ?

De nombreux travaux destinés à analyser, comprendre ou synthétiser des données de traces (descriptive analytics) ont été menés, de même que des travaux destinés à inférer ou prédire (predictive analytics). Les approches statistiques [Maciejewski et al., 2011], le data mining par le biais de la fouille de règles [Finlay, 2014], ou encore les séries temporelles [Sorjamaa et al., 2007] constituent les approches principales. Cependant, rares sont les travaux qui se sont penchés sur les diagnostic analytics et les prescriptive analytics. La majorité de ceux-ci a été menée dans le domaine de la santé [Raghupathi et al., 2013] et du Business [Sharda et al., 2013].

Objectif scientifique

Cette thèse s’intéressera à chacun des 4 types d’analytics présentés ci-dessous. C’est la chaine complète des Data Analytics qui est visée, allant des descriptive analytics aux prescriptive analytics. S’intéressant à cette chaîne entière, un premier défi résidera dans les besoins de compatibilité et d’interopérabilité des modèles conçus, de façon à ce qu’ils puissent tirer profit les uns des autres. Le défi consistera à soit identifier (et concevoir) une approche (ou ensemble de méthodes) permettant d’être la/les plus adéquate(s) pour la chaîne. Par ailleurs, une boucle de rétro-action devra pouvoir être envisagée, de façon à pouvoir adapter les modèles ou les approches. De cette manière, le résultat de chacun des modèles pourra être exploité par un des autres modèles.

Il pourra également être exploité par un utilisateur humain (qu’il soit expert ou simple utilisateur). C’est de ce dernier cas que provient le second défi. Il est en effet impératif que non seulement la sortie de ces modèles soit compréhensible par un humain, mais également que ces modèles puissent expliquer les résultats qu’ils fournissent. L’explosion de l’Intelligence Artificielle a mené à la proposition de nombreux modèles performants, notamment grâce au Deep Learning. Cependant, l’approche Deep Learning a un inconvénient majeur qui est son incapacité à expliquer les sorties de ses algorithmes. Hors, pour qu’un utilisateur ait confiance en un système, et notamment en un système de décision, qu’il puisse et souhaite l’utiliser, il doit pouvoir comprendre les raisons de ces décisions. L’explicabilité et la transparence des algorithmes d’intelligence artificielle est un point qui préoccupe une part croissante de la société[1], mais qui intéresse également les chercheurs [Nunes et al., 2017]. Le second défi de cette thèse est donc la proposition de modèles explicables et transparents dans le cas de plusieurs sources sources de données (de nature différente, portant sur des objets différents).

Les prescriptive analytics ont jusqu’à présent reçu un intérêt faible de la part de la communauté scientifique, avec un nombre réduit de champs d’application, comme le Business. Par ailleurs, ces travaux ont, dans la très grande majorité, été menés sur des données quantitatives, ce qui a permis de concevoir des modèles dédiés [Appelbaum et al., 2017]. Le troisième défi visé par cette thèse est la conception de modèles de prescription, reposant sur des données quantitatives, notamment sur des traces d’observation.

Dans le cas d’une forte variabilité entre les objets (les utilisateurs par exemple) modélisés, les modèles classiques ne savent pas la prendre en compte. C’est le focus de cette thèse. Le quatrième défi est donc relatif à la conception de modèles de traces relatives à des objets hétérogènes. Une première difficulté proviendra du fait d’identifier la typologie de cette hétérogénéité (descriptive analytics), d’en comprendre les raisons (diagnostic analytics). Une seconde difficulté proviendra de la conception des modèles de prédiction et de prescription de grande qualité sur ces données hétérogènes.

Enfin, les données de traces sur lesquelles les quatre défis mentionnés ci-dessus seront exploités auront la caractéristique d’être particulièrement volumineuses, des approches type Big Data devront ainsi être adoptées.

Les approches qui seront étudiées dans un premier temps sont le data mining, sur laquelle l’équipe KIWI travaille depuis de nombreuses années [Bonnin et al., 2009, Fahed et al., 2018], mais également des approches bio-inspirées [Wang et al., 2008, Ariyasingha et al., 2015].

La e-éducation : une thématique en pleine émergence

L’e-éducation, cadre applicatif de cette thèse, est désormais au cœur de nombreuses recherches en sciences de l’éducation, psychologie, informatique et Intelligence Artificielle.

Les traces d’utilisation de services numériques laissées par les apprenants et celles laissées par les enseignants constituent la source de données principale sur laquelle reposera la thèse. Elle est complétée par des informations issues des systèmes d’information des établissements, ainsi que par des descriptifs de ressources.

Dans ce contexte, il est donc impératif que la chaine entière soit traitée, de façon à comprendre le profil des apprenants et à leur proposer des recommandations adéquates. Par ailleurs, le défi relatif à l’explicabilité devient ici crucial pour que les apprenants comprennent non seulement leurs difficultés, les raisons d’un éventuel échec futur, mais également les prescriptions qui leur seront faites, et par conséquent les adoptent.

Les données sur lesquelles se fera le projet doctoral proviendront du CNED (Centre national d’enseignement à distance). Le CNED met à disposition les données qu’ils ont collectés sur leur plateforme, relative au comportement de leurs élèves sur plusieurs années. Cela représente des millions de données.

Parmi les élèves ayant recours aux enseignements du CNED, plusieurs dizaines de milliers d’entre eux (de la maternelle à la Treminale) sont des élèves dits empêchés : artistes, sportifs, expatriés, gens du voyage, handicapé, malades, hospitalisés. Le tout de façon temporaire ou permanente. L’hétérogénéité du public est dans ce cas criante, non seulement de par leurs connaissances, leurs habitudes de travail, mais aussi leurs contraintes, etc.

Les Data Analytics proposés dans ce projet sont vus comme un moyen de faire un suivi et un retour (descriptif,explicatif ou prescription) personnalisé à chacun de ces élèves et/ou à destination des nombreux enseignants qui les suivent (points dur d’une classe, notions complexe pour un niveau entier, élève en grande difficulté, élève démotivé, etc.).

 

Références

[Aleksandrova et al., 2017] Aleksandrova, M., Brun, A., Boyer, A., and Chertov, O. (2017). Identifying Representative Users in Matrix Factorization-based Recommender Systems : Application to Solving the Content-less New Item Cold-start Problem. Journal of Intelligent Information Systems, 48(2) :365–397.

[Appelbaum et al., 2017] Appelbaum, D., Kogan, A., Vasarhelyi, M. and Yan, Z., 2017. International Journal of Accounting Information Systems. International Journal of Accounting Information Systems, 25, pp.29-44.

[Ariyasingha et al., 2015] Ariyasingha, I. D. I. D., & Fernando, T. G. I. (2015). Performance analysis of the multi-objective ant colony optimization algorithms for the traveling salesman problem. Swarm and Evolutionary Computation, 23, 11-26

[Bonnin et al., 2009] Bonnin, G., Brun, A., and Boyer, A. (2009a). A Low-Order Markov Model Integrating Long-Distance Histories for Collaborative Recommender Systems. In International Conference on Intelligent User Interfaces (IUI) , pages 57–66, Sanibel Island, United States.

[Brun et al., 2011] Brun, A., Castagnos, S., and Boyer, A. (2011). From Community Detection to Mentor Selection in Rating-Free Collaborative Filtering. Advances in Multimedia Journal, 2011 :1–19.

[Buffet and Sigaud, 2008] Buffet, O. and Sigaud, O. (2008). Processus décisionnels de Markov en intelligence artificielle . IC2 – informatique et systèmes d’information. Lavoisier – Hermes Science Publications.

[Fahed et al., 2018] Fahed, L., Brun, A., and Boyer, A. (2018). Deer : Distant and essential épisode rules for early prediction. Expert Systems with Applications , 93 :283–298.

[Finlay, 2014] Finlay, S., 2014. Predictive analytics, data mining and big data: Myths, misconceptions and methods. Springer.

[Han and Kamber, 2006] Han, J. and Kamber, M. (2006). Data Mining : Concepts and Techniques . Morgan Kaufmann.

[Maciejewski et al., 2011] Maciejewski, R., Hafen, R., Rudolph, S., Larew, S.G., Mitchell, M.A., Cleveland, W.S. and Ebert, D.S., 2011. Forecasting hotspots—A predictive analytics approach. IEEE Transactions on Visualization and Computer Graphics, 17(4), pp.440-453.

[Nunes et al., 2017] Nunes, I. and Jannach, D., 2017. A systematic review and taxonomy of explanations in decision support and recommender systems. User Modeling and User-Adapted Interaction, 27(3-5), pp.393-444.

[Sharda et al., 2013] Sharda, R., Delen, D. and Turban, E., 2013. Business Intelligence: A Managerial Perspective on Analytics. Prentice Hall Press.

[Wang et al., 2008] Wang, T. I., Wang, K. T., & Huang, Y. M. (2008). Using a style-based ant colony system for adaptive learning. Expert Systems with Applications, 34(4), 2449-2464.

Profil et compétences recherchées :

Master recherche en informatique, apprentissage, sciences cognitives, ou fouille de données.

Expérience de programmation et bonne capacité d’analyser et d’interaction

Documents nécessaires pour postuler :

  • CV;
  • Lettre de motivation;
  • Relevés de notes de Licence et Master (ou les 5 dernières années);
  • Mémoire de Master (ou équivalent) si déjà complété, ou une description des travaux en cours;
  • Toutes vos publications, si vous en avez (il n’est pas attendu que vous en ayez);
  • Au moins une lettre de recommandation de la personne qui vous encadre (a encadré) durant votre stage de master ; vous pouvez envoyer au plus deux autres lettres de recommandation.
    Les lettres de recommandation doivent être envoyées directement à l’encadrant de thèse.

[1] https://www.nytimes.com/2017/11/21/magazine/can-ai-be-taught-to-explain-itself.html?action=click&contentCollection=magazine&region=rank&module=package&version=highlights&contentPlacement=3&pgtype=sectionfront

En ce moment

Colloquium Loria 2018

Exposés précédents

Logo du CNRS
Logo Inria
Logo Université de Lorraine