Loading Events

« All Events

  • This event has passed.

Soutenance de thèse : Justine Reynaud

December 10, 2019 @ 14:00 pm - 16:00 pm

Titre : “Découverte de définitions dans le web des données”

Jury

Rapporteurs :

  • Catherine Faron-Zucker, Maître de conférence HDR, Université de Nice Sophia Antipolis
  • Fatiha Saïs, Maître de conférence HDR, Université Paris Sud

Examinateurs :

  • Luis Galarraga, Chargé de recherche INRIA, IRISIA, Rennes
  • Claire Gardent, Directrice de recherche CNRS, Loria, Nancy

Directeurs de thèse :

  • Amedeo Napoli, Directeur de recherche CNRS, Loria, Nancy
  • Yannick Toussaint, Professeur, Université de Lorraine, Nancy

Invitée :

  • Nathalie Pernelle, Maître de conférence HDR, Université Paris Sud

 

Résumé

Dans cette thèse, nous nous intéressons au web des données et aux “connaissances” que potentiellement il renferme. Le web des données se présente comme un très grand graphe constitué de bases de triplets RDF connectées entre elles. Un triplet RDF, dénoté (sujet, prédicat, objet), représente une relation (le prédicat) qui existe entre deux ressources (le sujet et l’objet). Les ressources peuvent appartenir à une ou plusieurs classes, où une classe regroupe des ressources partageant des caractéristiques communes. Ainsi, ces bases de triplets RDF peuvent être vues comme des bases de connaissances interconnectées.

La plupart du temps ces bases de connaissances sont construites de manière collaborative par des utilisateurs. C’est notamment le cas de DBpedia, une base de connaissances centrale dans le web des données, qui encode le contenu de Wikipédia au format RDF. DBpedia est construite à partir de deux types de données de Wikipédia : d’une part, des données (semstructurées telles que les infoboxes et d’autre part les catégories, qui sont des regroupements thématiques de pages générés manuellement. Cependant, la sémantique des catégories dans DBpedia, c’est-à-dire la raison pour laquelle un agent humain a regroupé des ressources, n’est pas explicite. De fait, en considérant une classe, un agent logiciel a accès aux ressources qui y sont regroupées — il dispose de la définition dite en extension — mais il n’a généralement pas accès aux “motifs” de ce regroupement — il ne dispose pas de la définition dite en intension.

Dans cette thèse, nous cherchons à associer une définition à une catégorie en l’assimilant à une classe de ressources. Plus précisément, nous cherchons à associer une intension à une classe donnée en extension.
La paire (extension, intension) produite va fournir la définition recherchée et va autoriser la mise en œuvre d’un raisonnement par classification pour un agent logiciel. Cela peut s’exprimer en termes de conditions nécessaires et suffisantes : si x appartient à la classe C, alors x a la propriété P (condition nécessaire), et si x a la propriété P, alors il appartient à la classe C (condition suffisante). Deux méthodes de fouille de données complémentaires nous permettent de matérialiser la découverte de définitions, la fouille de règles d’association et la fouille de redescriptions.

Dans le mémoire, nous présentons d’abord un état de l’art sur les règles d’association et les redescriptions. Ensuite, nous proposons une adaptation de chacune des méthodes pour finaliser la tâche de découverte de définitions. Puis nous détaillons un ensemble d’expérimentations menées sur DBpedia, où nous comparons qualitativement et quantitativement les deux approches. Enfin les définitions découvertes peuvent potentiellement être ajoutées à DBpedia pour améliorer sa qualité en termes de cohérence et de complétude.

 

Details

Date:
December 10, 2019
Time:
14:00 pm - 16:00 pm
Event Category:

Venue

A008

Logo du CNRS

Logo d'Inria

Logo Université de Lorraine