Offre de thèse : Outils et ressources pour l’analyse sémantique robuste de la langue naturelle.

Contacts

Maxime Amblard (Maxime.Amblard@loria.fr) et Bruno Guillaume (Bruno.Guillaume@loria.fr)

Équipe Sémagramme

Résumé

L’objectif de la thèse est de définir des outils et des ressources permettant le passage à l’échelle pour l’analyse de la sémantique de la langue. À partir des annotations existantes de la ressource Sequoia, il s’agira dans un premier temps de produire des représentations AMR (Abstract Meaning Representation). Ces dernières seront ensuite étendues pour rendre compte des aspects temporels et de la quantification, on s’inspirera du travail développé dans les ACG. Dans le même temps, il s’agira de construire une nouvelle ressource permettant d’étendre le travail aux connecteurs de discours.

Présentation détaillée du projet doctoral

Cette proposition de thèse se situent dans le champ de l’informatique linguistique. Elle s’inscrit dans une problématique de recherche ancrée dans les aspects formels et issus de la logique, tout en ouvrant à celles des sciences humaines et sociales. Il s’agit de proposer des outils et méthodes informatiques pour le traitement de la langue naturelle.

Actuellement de nombreuses ressources sont développées à partir de données textuelles ou orales. Pour chacune d’entre elles, la communauté scientifique produit des annotations à différents niveaux linguistiques. Ces annotations permettent le développement de nouveaux outils et théories. Les différentes langues ne sont pas également développées, le français reste en particulier moins doté que l’anglais.

La définition d’une représentation formelle du sens d’un énoncé en langue naturelle reste encore un défi aujourd’hui. De nombreuses études théoriques ont permis de décrire les principaux problèmes, ainsi que des propositions de solution pour la représentation formelle du sens. Cependant, on ne dispose pas encore d’outils robustes capables de mettre en œuvre ces représentations sur des textes réels à large échelle. Une étape incoutournable pour construire ces applications est de disposer des ressources linguistiques que sont les corpus annotés. En effet, les corpus permettent de mettre en évidence des cas réels et donc de valider ou invalider les approches théoriques existantes. Par ailleurs, de nombreux outils effectifs aujoud’hui en traitement de langues utilisent l’apprentissage et nécessitent donc le développement de ces corpus. Enfin, ces données annotées sont également essentielles pour évaluer la pertinence des outils proposés ou pour élaborer de nouvelles théories.

Une première étape est souvent d’identifier précisément les sens des mots pleins (verbes, noms, …) et leurs liens avec les autres éléments de la phrase (les rélations prédicats-arguments). Dans cette thèse, nous nous intéressons à cette étape mais nous souhaitons également intégrer des annotations sur les aspects temporels et la notion de quantification généralisée ainsi que sur les relations de discours.

Nous proposons de travailler au développement de ressources francophones pour la sémantique. Il s’agit d’utiliser le corpus Sequoia (3100 phrases contenant 8200 verbes) pour lequel nous disposons des annotations en syntaxe de surface et en syntaxe profonde. Le projet ASFALDA [14] a également produit des données sur le Corpus Sequoia concernant la sémantique lexicale pour une partie des classes sémantiques des verbes.
Dans un premier temps, à partir des données existantes, nous produirons une représentation AMR [2] de Sequoia (en utilisant la réécriture de graphes mise en œuvre dans Grew) [2]. Cette étape nécessite de mobiliser des ressources lexicales du français qui sont nombreuses mais peu unifiées : VerbNet [4], classe de verbe à la Levin [5], Dicovalence [6], verbes du français Dubois et Dubois-Charlier [7], RLF [8], WordNet du français [9]. Une étape du travail sera d’identifier les propriétés pertinentes de ces ressources pour en faire une synthèse dans la continuité de [10].

Par ailleurs, plusieurs théorie sémantique sont proposées sur des fragments de la langue très restreinte. Le passage à l’échelle par leur application sur des données non contrôlées n’est pas possible, faute de ressource adaptée. Si les représentations AMR évoquées précédemment sont intéressantes, elles ne permettent pas de donner une description fine de relations sémantiques. Il s’agira alors de reprendre ces représentations et d’étudier plus en détail plusieurs phénomènes sémantique comme par exemple les aspects temporels et la notion de quantification généralisée, largement absente du formalisme AMR originel. Pour cela nous reprendrons notamment les travaux développés dans le cadre des ACG [11].

Enfin, afin d’éprouver la chaîne de traitement décrite, nous proposons de constituer une nouvelle ressource à partir de texte libre de droit et diffusable pour proposer une annotation en élément du discours. Pour cela, nous avons identifier deux possibilités, soit à partie de résumé d’articles scientifiques, soit à partir d’article de la revue en ligne interstices (les articles présentent des travaux scientifiques au grand public). Ces articles permettent de travailler sur un domaine ciblé (l’informatique) avec un vocabulaire non contraint en français en ouvrant la question de la modélisation à celle du discours [12], par exemple en utilisant [13].

Références

[1] Richard Montague (1973). The proper treatment of quantification in ordinary English. In J. Hintikka, J. Moravcsik, and P. Suppes (eds.), Approaches to natural language: proceedings of the 1970 Stanford workshop on Grammar and Semantics. Reidel, Dordrecht.
[2] Guillaume Bonfante, Bruno Guillaume, Guy Perrier. Application of Graph Rewriting to Natural Language Processing, Wiley, 2018
[3] L. Banarescu, C. Bonial, S. Cai, M. Georgescu, K. Griffitt, U. Hermjakob, K. Knight, P. Koehn, M. Palmer, and N. Schneider, Abstract Meaning Representation for Sembanking, Proc. Linguistic Annotation Workshop, 2013
[4] Karin Kipper, Martha Palmer, Owen Rambow. Extending PropBank with VerbNet Semantic Predicates. Workshop on Applied Interlinguas, held in conjunction with AMTA-2002. Tiburon, CA, October, 2002.
[5] Claire Gardent, Bruno Guillaume, Guy Perrier, Ingrid Falk. Extraction d’information de sous-catégorisation à partir des tables du LADL. Traitement Automatique de la Langue Naturelle – TALN 2006, Apr 2006, Leuven/Belgique, 2006, Actes de la 13ème conférence sur le Traitement Automatique de la Langue Naturelle
[6] Eynde, Karel van den & Mertens, Piet (2003) La valence: l’approche pronominale et son application au lexique verbal. Journal of French Language Studies 13, 63-104.
[7] Dubois, J. ; Dubois-Charlier, F. (2004), Locutions en français, Aix en Provence, Soibud, 414 p.
[8] Lux-Pogodalla V., Polguère A. (2011) Construction of a French Lexical Network : Methodological Issues. Proceedings of the First International Workshop on Lexical Resources, WoLeR 2011. An ESSLLI 2011 Workshop, Ljubljana, pp. 54–61.
[9] George A. Miller (1995). WordNet: A Lexical Database for English. Communications of the ACM Vol. 38, No. 11: 39-41.
[10] Marianne Djemaa, Stratégie domaine par domaine pour la création d’une FrameNet du français : annotation en corpus de cadres et rôles sémantiques, thèse de doctorat, Université Paris Diderot, 2017.
[11] Philippe de Groote (2006). Towards a Montagovian account of dynamics. In M. Gibson and J. Howell, editors, Proceedings of Semantics and Linguistic Theory XVI. Cornel Univesity, Ithaca, NY.
[12] Kamp, H. and U. Reyle (1993). From Discourse to Logic. Kluwer Academic Publishers, Dordrecht.
[13] Charlotte Roze, Laurence Danlos & Philippe Muller (2012) LEXCONN: a French Lexicon of Discourse Connectives, Revue Discours.
[14] Djemaa M., Candito M., Muller P., and Vieu L.. 2016. Corpus annotation within the French Framenet: methodology and results. LREC’16, Portoroz, Slovenia.

En ce moment

Colloquium Loria 2018

Exposés précédents

Logo du CNRS
Logo Inria
Logo Université de Lorraine