Offre de thèse : Extraction d’entités nommées dans les documents administratifs

Proposé par : Abdel Belaïd

Adresse LORIA, Campus Scientifique – BP 239, 54506 Vandoeuvre-lès-Nancy

Téléphone : 06 01 23 50 45

Email : abdel.belaid@loria.fr

Le contexte

La société FAIR&Smart et le LORIA cherchent à mettre en place une plateforme de gestion de données personnelles respectant les recommandations européennes en termes de sécurisation des données. Cette plateforme doit offrir à chacun la possibilité de gérer ses données, les sécuriser, les distribuer et les alimenter en continu, pour les mettre à jour, les consolider et les faire évoluer.

Si l’alimentation des données récentes ne pose pas trop de problèmes, celle des données anciennes nécessite le passage par la numérisation et la rétro-conversion des images. Les données visées sont essentiellement de type administratif et concernent les contrats, les factures, les fiches de paie, etc. La numérisation est faite par le client et envoyée à la plateforme qui extrait des entités nommées et propose des services aux clients.

L’objectif est d’extraire les informations utiles (Par exemple, pour un objet : N° de facture, N° client, vendeur, date d’achat, marque, modèle, caractéristiques, n° de série, prix, durée de garantie, etc.) pour pouvoir ensuite effectuer des traitements (additions, statistiques, gestion d’échéance de garantie…).

Le sujet

Il s’agit de proposer un système ouvert permettant de traiter des documents arrivant en continu, dans des formats différents et changeants. Il ne s’agit pas de faire un codage « en dur », mais de proposer une méthode adaptative qui saura extraire les informations par comparaison à des cas déjà traités. Aussi, on étudiera les méthodes de raisonnement à partir de cas, en utilisant si nécessaire l’apprentissage incrémental.

Le système doit débuter par une étape d’océrisation dans laquelle il faudra prendre en compte le changement de résolution des documents, la qualité, la déformation des images, le bruit, etc. une mesure de la performance de l’OCR utilisée doit être une prérogative pour assurer la faisabilité de l’étape suivante de recherche d’information. Cette recherche débute par une labélisation (tokénisation) pour identifier les mots clés et les éléments de contenu propices à l’extraction des entités telles que les dates, les quantités numériques, les informations relatives aux entités nommées comme les adresses, les noms propres, etc. Ensuite, des règles contextuelles doivent être établies pour faire les associations entre mots clés et éléments de contenu pour extraire les entités. Pour les associations complexes, ces règles seront bien sûr insuffisantes. Aussi, il faudra faire appel à la mémoire du système pour rechercher des cas similaires et s’en inspirer pour traiter les nouveaux cas. En cas de succès, le nouveau cas viendra alimenter le réservoir de modèles par incrémentalité. Systématiquement, le client valide ou corrige les informations extraites du nouveau document traité.

Références

H.Daher, M. R.  Bouguelia, A.Belaid  and V. Poulain D’Andecy, Multipage Administrative Document Stream Segmentation, International Conference on Pattern Recognition, Stockholm, Sweden, 2014, pp. 966-971.

Kumar, P. Ye and D. Doermann, Learning Document Structure for Retrieval and Classication. International Conference on Pattern Recognition, pp.1558-1561, 2012.

N. Kooli and A. Belaid, Inexact Graph Matching for Entity Recognition in OCRed Documents , International Conference on Pattern Recognition (ICPR) Cancún Center, Cancún, México, December 4-8, 2016, pp. 4060-4065.

Aucune offre n'est disponible pour l'instant.

En ce moment

Logo du CNRS
Logo Inria
Logo Université de Lorraine