Offre de thèse : Extraction de mots dans les registres de transactions de vente des instruments de musique

Proposé par : Abdel Belaïd

Adresse LORIA, Campus Scientifique – BP 239, 54506 Vandoeuvre-lès-Nancy

Téléphone : 06 01 23 50 45

Email : abdel.belaid@loria.fr

Le contexte

Ce travail concerne le traitement des fonds d’archives de l’atelier de lutherie parisien Gand, Bernardel, Caressa et Français. Ce fonds couvre un siècle et demi d’histoire, de 1816 à 1944.  Cet atelier est probablement le plus important atelier de lutherie français, voire mondial, du XIXe siècle par sa longévité, par son prestige, par sa clientèle internationale.  Les documents qui composent ce fonds, sont principalement des registres de réparations et de ventes d’instruments. Le registre (E.981.8.38) sélectionné pour ce travail, concerne la vente d’instruments neufs et anciens entre 1840 et 1902 parce qu’il présente la meilleure (la moins pire) des structures de données de l’ensemble des registres.

Objectif de la recherche de texte

Le document, et tout le fonds en général, est une source importante pour l’histoire des violons prestigieux comme les « stradivarius », « guarnerius », « amati », etc. et pour la mention de grands musiciens ou collectionneurs. On y trouve la trace des ventes, donc de la valeur attribuée aux instruments, ainsi que les mentions de restaurations et transformations apportées à ces instruments. En revanche, la recherche n’est pas facile dans ces archives car : le fonds représente 11.000 vues avec des documents qui n’ont pas tous la même structure, le texte est manuscrit et de différentes mains, les instruments ne sont pas répertoriés dans des index.  La recherche par reconnaissance de texte permettrait donc de faire une recherche « transversale ».

Du point de vue de l’historien, les priorités seraient de retrouver les noms des luthiers prestigieux et ceux de quelques propriétaires importants, et connaître la valeur financière des instruments lors des transactions.

Le sujet

Il s’agit de proposer un système de segmentation de documents en lignes de texte et de « word spotting » permettant l’extraction de mots clés ou de noms de personnes dans les lignes. Pour la segmentation en lignes, il faudra sûrement la faire précéder d’étapes de prétraitement pour la suppression du bruit, la binarisation, etc.  Pour la segmentation elle-même, la littérature propose plusieurs techniques. Ces techniques nécessitent une adaptation particulière car il s’agit de documents anciens où l’écriture est très cursive, avec des espaces inter-mots non réguliers et des chevauchements fréquents entre les lignes dues à des corrections, ratures, etc. Le point de départ pour la recherche sur cette partie sera l’étude des systèmes utilisés lors de la compétition d’ICFHR 2016. Pour le spotting, la particularité du système est que les mots clés (qui constituent une liste restreinte de mots relatifs aux noms de violons…) sont très rares dans les images et ne peuvent pas donner lieu à plusieurs échantillons. Les méthodes de spotting doivent donc s’appuyer essentiellement sur leur forme lexicale. On avantagera les méthodes permettant de faire des requêtes de type « Query By String ». On pourra utiliser des réseaux de neurones de type PHOCNet qui intègrent une représentation lexicale du mot. Pour les noms propres, il faudra privilégier les méthodes contextuelles.  Comme les réseaux convolutifs n’intègrent pas le contexte, sont plutôt consommateurs de GPU, et travaillent de manière très locale au niveau d’un mot, il faudra étudier les réseaux de type récurrents : RNN, capables de travailler sur une ligne de texte complète. A cause du problème d’affaiblissement du gradient dans ces réseaux (vanishing gradient dû à une multiplication répétée des valeurs trop petites du gradient lors de la récurrence), on utilisera plutôt les réseaux de type LSTM ou BLSTM ayant des possibilités de mémorisation plus importantes. Mais pour la vérification lexicale du mot, il faudra coupler ces modèles avec des modèles de langage, en utilisant par exemple un HMM.

Références

Pratikakis, K. Zagoris1, G. Barlas and B. Gatos, ICFHR 2016 Handwritten Document Image Binarization Contest (H-DIBCO 2016), International Conference on Frontiers in Handwriting Recognition, 2016, Shenzen, China, pp. 619-623.

Sudholt, G.A. Fink, PHOCNet: A Deep Convolutional Neural Network for Word Spotting in Handwritten Documents, International Conference on Frontiers in Handwriting Recognition, 2016, Shenzen, China, pp. 277-282.

Stuner, C. Chatelain, T. Paquet, A Lexicon Verification Strategy in a BLSTM Cascade Framework, International Conference on Frontiers in Handwriting Recognition, 2016, Shenzen, China, pp. 234-239.

Sun, L. Jin, Z. Xie, Z. Feng, S. Zhang, Convolutional Multi-directional Recurrent Network for Offline Handwritten Text Recognition, International Conference on Frontiers in Handwriting Recognition, 2016, Shenzen, China, pp. 241-245.

A. Sanchez, V. Romero, A. H. Toselli, E. Vidal, ICFHR2016 Competition on Handwritten Text Recognition on the READ Dataset, International Conference on Frontiers in Handwriting Recognition, 2016, Shenzen, China, pp. 631-635.

En ce moment

Logo du CNRS
Logo Inria
Logo Université de Lorraine