Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Soutenance de thèse : Nyoman Juniarta

18 décembre 2019 @ 14:00 - 16:00

Titre : “Fouille de données complexes et biclustering avec l’analyse formelle de concepts”

 

Composition du jury :
Rapporteurs :
Marc Plantevit, Maître de conférence HDR, Université Claude Bernard Lyon 1
Henry Soldano, Maître de conférence HDR, Université Paris 13
Examinateurs :
Peggy Cellier, Maître de conférence, INSA Rennes
Florence Le Ber, Directrice de recherche, Université de Strasbourg
Sara C. Madeira, Professeure associée, Université de Lisbonne
Mohamed Nadif, Professeur, Université Paris 5
Directeurs de thèse :
Amedeo Napoli, Directeur de recherche, CNRS, LORIA
Miguel Couceiro, Professeur, Université de Lorraine

 

Résumé :

 

L’extraction de connaissances dans les bases de données (ECBD) est un processus qui s’applique à de (potentiellement larges) volumes de données pour découvrir des motifs qui peuvent être signifiants et utiles. Dans cette thèse, on s’intéresse à deux étapes du processus d’ECBD, la transformation et la fouille, que nous appliquons à des données complexes. Nous présentons de nombreuses expérimentations s’appuyant sur des approches et des types de données variés.
La première partie de cette thèse s’intéresse à la tâche de biclustering en s’appuyant sur l’analyse de concepts formels (Formal Concept Analysis, FCA) et aux pattern structures. Dans une matrice binaire, la FCA permet de découvrir tous les rectangles maximaux composés de 1s. Cette tâche est naturellement liées au biclustering, dont l’objectif consiste à grouper simultanément un ensemble de lignes et de colonnes qui vérifient certaines régularités. Les pattern structures sont une généralisation de la FCA qui permet de travailler avec des données plus complexes. Par conséquent, au lieu de considérer des données binaires, les pattern structures sont utilisées avec des données numériques, des arbres, ou des graphes. Les “partition pattern structures” ont été proposées pour du biclustering à colonnes constantes tandis que les “interval pattern structures” ont été étudiées pour du biclustering à colonnes similaires. Nous proposons ici d’étendre ces approches afin d’énumérer d’autres types de biclusters : additif, multiplicatif, préservant l’ordre, et changement de signes cohérents.

 

Dans la seconde partie, nous nous intéressons à deux expériences de fouille de données complexes. Premièrement, nous présentons une contribution dans la quelle nous analysons les trajectoires des visiteurs d’un musée dans le cadre du projet CrossCult. Nous utilisons du clustering de séquences et de la fouille de motifs séquentiels basée sur l’analyse formelle de concepts pour découvrir des motifs dans les données et classifier les trajectoires. Cette analyse peut ensuite être exploitée par un système de recommandation pour les futurs visiteurs. Deuxièmement, nous présentons un travail sur la découverte de médicaments antibactériens. Les jeux de données pour cette tâche, généralement des matrices numériques, décrivent des molécules par un certain nombre de variables/attributs. Le grand nombre de variables complexifie la classification des molécules par les classifieurs. Ici, nous étudions une approche de sélection de variables basée sur l’analyse log-linéaire qui découvre des associations entre variables.
En somme, cette thèse présente différentes expériences de fouille de données réelles et complexes.

 

Détails

Date :
18 décembre 2019
Heure :
14:00 - 16:00
Catégorie d’évènement:

Lieu

C005