Thèse au sein de l’équipe Sémagramme
Encadrement
La thèse se déroulera au sein de l’équipe Sémagramme, une équipe du laboratoire LORIA (UMR 7503) commun entre l’INRIA, l’Université de Lorraine et le CNRS. Elle sera dirigée par Philippe de Groote (philippe.degroote@inria.fr) et Sylvain Pogodalla (sylvain.pogodalla@inria.fr).
Contexte
L’équipe Sémagramme développe des outils théoriques et pratiques pour la modélisation et le traitement des langues naturelles. Elle porte une grande attention à la description et aux modèles des structures linguistiques comme les arbres (ou graphes) d’analyse ou les représentations sémantiques. À cette fin, Sémagramme propose le formalisme des grammaires catégorielles abstraites (ACG, de Groote 2001). Il s’agit d’un cadre formel dans lequel l’encodage de différents formalismes grammaticaux, par exemple les grammaires non contextuelles, les grammaires d’arbres adjoints (TAG, Joshi et Schabes 1997), peut être réalisé. Il s’appuie sur le langage des λ-termes qui généralise les langages de chaı̂nes et d’arbres.
Ses caractéristiques principales sont :
— un accès direct aux structures de dérivation,
— l’utilisation de lexiques afin de spécifier les interprétations des structures de dérivations (également appelées langage abstrait) dans des structures de surface (également appelée langage objet).
Typiquement, les langages objets sont des ensembles de λ-termes qui encodent des chaı̂nes de caractères, notamment lorsqu’un souhaite analyser des expressions de la langue naturelle. Cependant, ils peuvent aussi être des ensembles de λ-termes qui encodent des expressions plus conceptuelles et sémantiques, comme des formules logiques, notamment lorsqu’on souhaite engendrer des expressions en langue naturelle : les ACG sont un formalisme réversible de manière inhérente (Dymetman 1994 ; Kanazawa 2007).
L’objectif global de ce projet de thèse est de tirer parti de cette propriété pour étudier la génération de texte et ses spécificités dans le formalisme des ACG.
Sujet
Le processus de génération de textes s’étend habituellement de la détermination du contenu, c’est-à-dire des informations qui doivent être exprimées (par exemple en analysant des données numériques), à la réalisation effective du texte généré. Notre projet s’intéresse aux parties de ce processus s’inscrivant dans la partie de réalisation linguistique, notamment aux modèles et à l’utilisation des constructions linguistiques que l’on trouve dans les langues. Cela conduit en particulier à considérer les défis suivants, qui peuvent relever de la modélisation des paraphrases :
— la similarité des textes générés avec des textes écrits par des humains,
— la variabilité des textes générés, reflétant la variabilité de la langue à exprimer une même idée.
Du point de vue des ACG, la réalisation de surface résulte d’une transformation de représentations conceptuelles telles que des formules logiques où, de manière générale, des structures relationnelles. À l’aide d’une ou plusieurs ACG, composées par exemple d’une manière à obtenir une transduction, de telles structures conceptuelles peuvent être transformées en une ou plusieurs structures syntaxiques ou d’analyse.
Cela soulève deux problèmes principaux. Tout d’abord, les grammaires doivent prendre en compte des connaissances linguistiques, ou d’usage. Un exemple typique est donné dans l’exemple (1) avec la possibilité d’utiliser soit une nominalisation, soit une construction verbale pour exprimer la même idée.
(1)
a. Il préfère se doucher le soir plutôt que le matin.
b. Il préfère prendre une douche le soir plutôt que le matin.
Nous souhaitons nous appuyer sur la théorie sens-texte (TST ou meaning text theory, MTT, Mel’čuk
2012) pour aborder ce problème. TST est une théorie linguistique qui met en avant la faculté de
production dans la transformation du sens au texte, et dont la paraphrase est un concept clef. Cette théorie propose notamment une description spécifique des préférences ou restrictions lexicales à l’aide des fonctions lexicales. Ces dernières sont par exemple utilisées pour représenter des variations comme dans l’exemple (1).
Le second problème concerne plus spécifiquement la nature conceptuelle des représentations utilisées. De telles structures sont représentées par des λ-termes. Cependant, dans la définition des ACG, les seules identifications entre termes sont les égalités β, η et α habituelles. En général, aucune autre relation d’équivalence logique n’est considérée, pas même les très habituelles relations (A∧B) ≡ (B∧A) ou (A∧(B∧C)) ≡ ((A∧B)∧C). Nous souhaitons pouvoir ajouter la possibilité de raisonner avec de telles équivalences (probablement pas toutes), en particulier en tirant parti de la réduction des ACG vers Datalog (Kanazawa 2017), sous-jacente au processus d’analyse à l’aide des ACG.
Références
de Groote, Philippe (2001). “Towards Abstract Categorial Grammars”. In : Proceedings of 39th Annual Meeting of the Association for Computational Linguistics, p. 148-155. Anthologie ACL : P01-1033.
Dymetman, Marc (1994). “Inherently Reversible Grammars”. In : Reversible Grammars in Natural Language Processing. Sous la dir. de Tomek Strzalkowski. Kluwer Academic Publishers. Chap. 2, p. 33-57.
Joshi, Aravind K. et Yves Schabes (1997). “Tree-adjoining grammars”. In : Handbook of formal languages. Sous la dir. de Grzegorz Rozenberg et Arto K. Salomaa. T. 3. Springer. Chap. 2. doi : 10.1007/978-3-642-59126-6_2.
Kanazawa, Makoto (juin 2007). “Parsing and Generation as Datalog Queries”. In : Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (ACL 2007). Prague, Czech Republic : Association for Computational Linguistics, p. 176-183. Anthologie ACL : P07-1023.
Kanazawa, Makoto (2017). “Parsing and Generation as Datalog Query Evaluation”. In : IfCoLog Journal of Logics and their Applications 4.4. Special Issue Dedicated to the Memory of Grigori Mints, p. 1103-1211. url : http : / / www . collegepublications . co . uk / downloads / ifcolog00013.pdf#page=305.
Mel’čuk, Igor (2012). Semantics : From Meaning to Text. T. 1. Studies in Language Companion Series 129. Amsterdam/Philadelphia : John Benjamins Publishing Company.