Seminaire TAL 2006-1
Aller à l'une de ces dates:
- 9 février 2006, Kamel Smaili (LORIA/Université de Nancy2)
- 16 février 2006, Lionel Clement (Universite de Bordeaux)
- 9 mars 2006, Michael Strube (EML, Heidelberg)
- 23 mars 2006, John Carroll (University of Sussex)
- 30 mars 2006, Maarten de Rijke (University of Amsterdam) CANCELLED
- 6 avril 2006, Benoit Sagot (INRIA, Rocquencourt)
- 20 avril 2006, Gérard Huet (INRIA, Futur)
- 27 avril 2006, David Langlois (IUFM de Lorraine)
- 11 mai 2006, Ruth Kempson (King's College, London)
- 1 juin 2006, Fiammetta Namer (ATILF/Université de Nancy2)
- 15 juin 2006, Jean-Marie Pierrel (ATILF/Université Henri Poincaré)
- 29 juin 2006, Jean-Charles Lamirel (Université Robert Schuman de Strasbourg 3)
Sauf indication contraire, les présentations ont lieu le jeudi à 14h au LORIA en salle A006.
- 9 février 2006; 14:00-15:00, Salle A006
Kamel Smaili LORIA/Université de Nancy 2 parlera de
La prise en compte des événements linguistiques impossibles dans les modèles de langage statistiquesRésumé: Dans cette présentation nous décrivons dans un premier temps les modèles de langages statistiques et nous montrons certaines de leurs limites. Pour pallier ces limites nous proposons une nouvelle modélisation qui permet de redistribuer la masse de probabilité attribuée à des événements impossibles à des événements vraisemblables. Nous montrons comment on peut intégrer cette approche dans les techniques de "smoothing" indispensables aux modèles de langage statistiques.
- 16 février 2006; 14:00-15:00, Salle A006
Lionel Clement (Universite de Bordeaux) parlera de
La prise en compte des phénomènes lexicaux grâce à l'analyseur syntaxique XLFGRésumé: LFG (Lexical Functional Grammar) est un modèle syntaxique basé sur les règles de réécritures enrichies de descriptions fonctionnelles. Il donne une place essentielle au lexique et distingue deux niveaux d'analyse trop souvent confuses dans les autres formalismes linguistiques : un niveau de description des constituances et un niveau de description des dépendances fonctionnelles. Nous proposons de traiter plusieurs phénomènes de la syntaxe du français grâce à ce modèle en exploitant au mieux cette distinction par des descriptions lexicales. Nous verrons comment analyser des phrases contenant des verbes support ("Luc prend la décision de ne pas le rencontrer"), des expressions figées ("Luc se prend la tête avec cette affaire"), des effacements dans les coordonnées et les comparatives ("Luc est plombier et fier de l'être") et éventuellement quelques autres constructions complexes comme les zeugmes ("Le général accuse une défaite et sa femme de le ridiculiser"). Pour illustrer ces analyses, nous ferons la démonstration de notre analyseur XLFG en vrai grandeur sur des exemples de construction complexe.
- 9 mars 2006; 14:00-15:00, Salle A006
Michael Strube (EML, Heidelberg) will talk about
"Meeting minutes at the push of a button": Automatically summarizing spoken multi-party dialogueRésumé:
A great many meetings and discussions take place every day. In each of those one participant is assigned the unpopular task of writing the minutes. The DFG-funded project DIANA-Summ at EML Research aims to explore ways to perform this task automatically. In our research we focus mainly on two aspects. (1) Preprocessing to make multi-party spoken dialogue accessible to standard summarization techniques. (2) Pronoun resolution in spoken multi-party dialogue.
In the presentation I will describe the difficulties of processing spoken multi-party dialogue with a focus on summarization. A brief description of the preprocessing steps is followed by a detailed review of our work on pronoun resolution. Along the way I will provide insights into the emprical basis of our work, the ICSI-Meeting Corpus and its multi-level annotation using our annotation tool MMAX2.
- 23 mars 2006; 14:00-15:00, Salle
A 006
John Carroll (University of Sussex) parlera de
High Efficiency Realization for a Wide-Coverage Unification GrammarRésumé: I will describe a chart-based algorithm for efficient tactical generation from underspecified logical-form semantics. The algorithm incorporates a number of refinements to existing chart-based approaches, plus two novel techniques: the integration of subsumption- based local ambiguity factoring, and a procedure to selectively and efficiently unpack the generation forest according to a probability distribution given by a conditional, discriminative model. I will report a series of practical experiments applying the algorithm to a wide-coverage HPSG grammar of English and a corpus of real-world logical-form representations, and use the results to critically review and correct some previous claims about chart-based generation.
- 30 mars 2006; 14:00-15:00, Salle
A 006
Maarten de Rijke (University of Amsterdam)
TALK CANCELLED - 6 avril 2006; 14:00-15:00, Salle A006
Benoit Sagot (INRIA, Rocquencourt) parlera de
Modélisation et analyse automatique des languesRésumé:
Il existe aujourd'hui un grand nombre de formalismes grammaticaux utilisés pour la modélisation des langues. Si certains sont largement répandus, ont donné lieu au développement d'analyseurs automatiques efficaces ou de ressources linguistiques (lexiques, grammaires) à large couverture, aucun ne s'est pourtant réellement imposé face aux autres. Au cours de ce séminaire, nous nous interrogerons tout d'abord sur les raisons de cet état de fait: nous soulèverons les problèmes théoriques, algorithmiques et linguistiques de certaines familles de formalismes, et nous mettrons l'accent sur les problématiques de la robustesse et de l'efficacité des analyseurs associés.
À partir de ces remarques, nous proposerons une architecture générale pour la modélisation des langues. Nous illustrerons les avantages de cette architecture par deux formalismes (pour lesquels nous disposons d'analyseurs et de grammaires du français) qui en sont des approximations différentes et complémentaires:
- le formalisme grammatical LFG, assez bien répandu, et notre nouvel analyseur SxLFG, qui allie robustesse et efficacité ;
- le formalisme grammatical Méta-RCG, qui repose sur les RCG (formalisme clos par intersection et analysable en temps polynomial) et qui permet à la fois une modélisation pertinente de la syntaxe, la prise en compte au même niveau de contraintes de différentes natures, et la construction en un temps polynomial d'une analyse complète.
- 20 avril 2006; 14:00-15:00, Salle A006
Gérard Huet (INRIA, Futur) parlera de
Analyse syntaxique superficielle guidée par des contraintes d'accord et de gouvernement. Application au sanskrit.Résumé:
Nous présentons l'état de notre analyseur de la langue sanskrite. La composante générative comporte un lexique morphologique, un algorithme de liaison phonétique profonde (sandhi interne) et un module de paradigmes de flexion nominale et de conjugaison verbales, se combinant pour engendrer une base de données lexicale de formes fléchies.
Un premier niveau d'analyse permet d'inverser une relation rationnelle modulaire, engendrée par la combinaison d'une grammaire morphologique (définissant la géométrie des noms composés, des combinaisons de préverbes associées aux formes des racines verbales, et des formes périphrastiques) et d'une définition d'état fini de liaison phonétique superficielle (sandhi externe). L'ensemble de ces outils est fourni comme application de la boîte à outils générique Zen dans sa 2ème version, comportant une notion de transducteur modulaire inversible. Cet étage permet l'analyse d'une phrase de sanskrit classique élémentaire sous forme de flux de vedettes lexicales étiquetées par des traits morphologiques.
Un deuxième étage d'analyse combat la sur-génération par le filtrage de tels flux par un algorithme de satisfaction de contraintes d'accord et de gouvernement, qui construit des structures fonctionnelles explicitant des graphes de dépendance par identification de rôles sémantiques polarisés. Un critère d'optimalité rejette les solutions potentielles excédant un seuil de pénalité. Entre ces deux étages, les flux d'étiquettes sont transformés par des combinateurs associés aux mots-outils. On montre par exemple comment traiter correctement la coordination par fusion des syntagmes coordonnés utilisant une combinaison d'interprétations abstraites opérant sur les structures de traits. L'ensemble de ces traitements est disponible comme service Web, fournissant un étiqueteur de corpus distribué interactif.
- 27 avril 2006; 14:00-15:00, Salle A006
David Langlois (IUFM de Lorraine) parlera de
Les séquences en modélisation statistique du langageRésumé: Dans les travaux en modélisation statistique du langage, les séquences sont des suites de mots considérées comme formant à part entière une unité du vocabulaire. On les rencontre aussi sous le nom de Multi Word Units (MWU). Cette notion de séquences a son utilité dans plusieurs applications : reconnaissance automatique de la parole, traduction automatique, recherche d'informations. La présentation aura pour objet de décrire le rôle potentiel de ces séquences dans les applications citées, de présenter certains algorithmes permettant de détecter ces séquences dans de grands corpus textuels, de montrer leur efficacité dans un système de reconnaissance automatique de la parole. Un rappel sera d'abord fait sur l'approche de la modélisation statistique du langage, notamment sur la notion de "mot". Je propose ensuite d'ouvrir une discussion sur les séquences obtenues et leur(s) statut(s) en tant qu'unité lexicale ou autre dans le Traitement Automatique des Langues en général.
- 11 mai 2006; 14:00-15:00, Salle A006
Ruth Kempson (King's College London, UK) parlera de
Interactions of Structural and Anaphoric ProcessingRésumé: In this talk, I show how using concepts of structural underspecification and growth of semantic representation as the sole basis for syntactic generalisations for natural language, we can express both interactions of structural and anaphoric processes and asymmetries between left and right periphery effects, to yield a typology of periphery effects. The framework used is Dynamic Syntax (Kempson et al 2001, Cann et al 2005). I will go on to show how this typology can be naturally extended to address word order effects displayed in short- and long- distance scrambling incorporating verb-final languages into the overall typology. Finally I shall suggest that Dynamic Syntax tools provide a natural basis for formulating the rigid but individually idiosyncratic clitic clustering of the Romance languages as a calcification in the pronominal system of earlier scrambling patterns displayed in Latin, as the only reflex of the rich Latin case system.
- 1 juin 2006; 14:00-15:00, Salle
Fiammetta Namer (ATILF/Université de Nancy 2) parlera de
Morphologie constructionnelle, TAL et lexique médical : ou comment définir automatiquement le sens des néologismes construitsRésumé:
Cet exposé présente DériF (Dérivation en Français), un système d'analyse automatique du vocabulaire morphologiquement construit du français. La présentation se focalisera sur l'usage de cet analyseur dans la prédiction (1) de la définition de noms et adjectifs inconnus du vocabulaire biomédical, calculées en fonction du sens de leurs composants, ainsi que (2) des relations interlexicales que ces noms et adjectifs sont susceptibles de tisser entre eux (synonymie, hyponymie).
La première partie de l'exposé décrit les aspects fondamentaux de DériF : son analyse d'un lexème catégorisé se fonde sur un ensemble d'hypothèses linguistiques théoriques. Basé sur l'application d'un système ordonné de règles, le mécanisme est récursif et permet la gestion des ambiguïtés, se réappliquant sur chaque (liste de) résultat obtenu précédemment. L'analyse morphologique d'un lexème construit sur une base elle-même construite est donc hiérarchisée. Le résultat est un triplet, comprenant entre autres une formulation en langue naturelle de la relation morphologique liant le lexème analysé à son (ses) constituant(s) immédiat(s).
La seconde partie de l'exposé est consacrée à l'utilisation de DériF pour l'acquisition du sens lexical des lexèmes inconnus dans le vocabulaire médical. Le lexique médical sur lequel a été entraîné DériF est constitué d'environ 29000 termes. Les noms et adjectifs y présentent plusieurs particularités :
- ils sont souvent morphologiquement très complexes, résultant de la combinaison de plusieurs procédés de construction de lexèmes, dont le type et l'ordre d'application se reflète dans les variétés sémantiques de ces termes.
- leur formation fait massivement appel à l'emploi de bases d'origine latino-grecques ;
- leurs structures, leurs définitions et leurs constructions morphologiques sont sensiblement identiques dans la plupart des langues d'Europe de l'Ouest.
DériF exploite ces particularités pour calculer la définition littérale des termes, et pour établir des relations de synonymie, d'hyponymie et de voisinage dans le lexique médical.
- 15 juin 2006; 14:00-15:00, Salle A006
Jean-Marie Pierrel (ATILF * UMR 7118 Nancy Universites CNR) parlera de
Un ensemble de ressources informatisées de référence pour l'étude du français : les ressources linguistiques informatisées de l'ATILF : TLFi, Frantext, Morphalou et consortsRésumé:
Les recherches en linguistique et en en traitement automatique des langues nécessitent de vastes ressources de référence : corpus textuels, dictionnaires informatiques et outils de traitement. Apres avoir situé l'importance des corpus et ressources de référence dans ce champ scientifique, nous presenterons les ressources linguistiques informatisées du laboratoire ATILF accessibles sur la toile ainsi que leur diversité d'exploitations potentielles.
Nous présenterons en particulier le TLFi (Trésor de la Langue Française informatisée : TLFi (Trésor de la Langue Française informatisée), Frantext (bases de données textuelles de près de 4000 textes de langue française et les divers usages de ces ressources.
Nous terminerons en présentant les objectifs du CNRTL (Centre National de Ressources Textuelles et Lexicales), récemment créé par le CNRS au sein de l'ATILF et dont la mission est d'assurer le codage, la structuration, la gestion, l'exploitation et la valorisation de ressources informatiques (corpus, dictionnaires et lexiques) et permettre ainsi une véritable mutualisation de moyens.
- 29 juin 2006; 14:00-15:00, Salle A006
Jean-Charles Lamirel (Université Robert Schuman de Strasbourg 3) parlera de
TitreRésumé: