GUIRLANDE-fr

Gestion et Usages Informatiques des Ressources Langagières
pour la Diffusion et l’Étude du Français

Cadre Action Concertée Incitative 2001
Globalisation des Ressources Informatiques et des Données
Catégorie Projet pluridisciplinaire
Référence et titre PPL11-Guirlande-fr
Durée 24 mois
Coordinateur Laurent Romary (LORIA-CNRS)

Les objectifs

Le développement actuel de l'ingénierie des langues et de la linguistique de corpus nécessite l'usage de corpus textuels de plus en plus étendus et d'outils de traitement de plus en plus performants. Le but de GUIRLANDE-fr est la mise en place d'une grille de serveurs distribués permettant de fédérer des ressources (textes codés et annotés) sur la langue française mais aussi un ensemble d'outils de traitement de ces ressources qui soient accessibles pour tout chercheur ou enseignant travaillant sur notre langue. Ces ressources et outils distribués sur divers serveurs seront accessibles de façon transparente à leur localisation physique.

Le projet que nous proposons s'inscrit complètement dans la logique d'un environnement client-serveur puisqu'il offrira un accès aux données, mais également aux applications par le biais d'un véritable réseau informatique de serveurs. Le réseau GUIRLANDE-fr peut être défini comme étant la mise en relation d'un certain nombre de serveurs GUIRLANDE-fr spécifiques. Il est en effet important pour assurer la pérennité des ressources et des outils de les laisser aussi proches que possible des équipes les ayant développés, c'est en effet elles et elles seules qui sauront effectivement les faire évoluer. Mais ce réseau doit être entièrement transparent pour l'utilisateur qui ne doit pas avoir à se soucier de l'implantation géographique de ces divers serveurs.

Description
La période est aujourd'hui idéale pour mener à bien des expérimentations à vraie grandeur pour diverses raisons :

Dans ce cadre, il a été décidé de faire parler les laboratoires européens d'une seule voix pour faire des propositions concrètes de sorte que l'initiative OLAC soit un peu plus ambitieuse et surtout ne réinvente pas ce qui existe déjà. L'ATILF (ex INALF) a été chargé de travailler à la mise en oeuvre d'un point d'entrée compatible avec les spécifications d'OLAC pour l'ensemble des ressources sur le français.

Réutilisation et exploitation de la coquille actuelle du serveur SILFIDE
Dans le cadre de SILFIDE, l'équipe LED du LORIA a proposé un service pouvant se greffer sur la plupart des serveurs HTTP standards permettant d'effectuer des opérations de base telles que :

Cette coquille servira de moule pour l'élaboration et la distribution des futurs serveurs GUIRLANDE-fr qui seront la charpente du réseau GUIRLANDE-fr. Pour une véritable réussite et pérennité du réseau, l'accent sera mis, sur l'intégration d'outils linguistiques au niveau du client, mais également sur le partage des outils et des données entre les différents serveurs du réseau et sur une normalisation minimale tant des données que des outils proposés.

Intégration d'applications
Transporter purement et simplement une application d'un serveur vers un autre n'est pas faire de l'intégration. En effet, la complexité des applications client serveur, le nombre de produits utilisés directement ou indirectement, le cumul des couches réseaux et les différents systèmes font qu'un téléchargement pur et simple ne répond plus aux besoins des utilisateurs de l'Internet. Les procédures d'installation, de configuration et de compilation ne sont pas toujours évidentes à mettre en œuvre (surtout pour des non-informaticiens, or ici nous visons essentiellement des linguistes) et l'utilisation de ce type de programmes peut être à l'origine de dysfonctionnement, voir d'un blocage total de la machine cliente. De plus, il est absolument indispensable de tenir compte de la spécificité des diverses plates-formes et architectures présentes dans le milieu informatique. Par ailleurs, il faut uniformiser l'environnement utilisateur, les procédures d'accès et d'exploitation du côté du client et de diffusion du côté du serveur.

Partage et mise en réseau
Le partage de l'information est au cœur même de la mise en place du projet GUIRLANDE-fr. Une telle architecture permet aux utilisateurs d'effectuer des requêtes sur le réseau sans savoir, à priori, de quel serveur proviennent les réponses. Ce partage des informations, qui s'applique principalement sur les ressources, peut s'étendre également aux applications. Ainsi il est tout à fait envisageable pour un utilisateur d'effectuer un traitement linguistique X, sur des données provenant d'un serveur Y avec un programme fourni par un serveur Z. Le principal intérêt de cette architecture est de facilité la gestion des ressources linguistiques et de leurs différentes versions (dans le cadre d'une mise à jour par exemple) en évitant leur duplication. Cette approche s'appuie sur l'exploitation de nouvelles technologies :

L'utilisation des composantes techniques Java, CORBA et XML permet de définir un environnement complètement ouvert, indépendant de toute architecture matérielle et de tout système d'exploitation. Cette homogénéité logicielle offre l'assurance d'une pérennité au niveau de ses fonctionnalités, de ses outils et de ses données pour les années à venir.

Rôle des divers partenaires

Principes généraux
Les objectifs ambitieux du projet GUIRLANDE-fr rejoignent l'architecture proposée dans GRID-ASP et concernent les applications de type client-serveurs. Il s'agit de déployer un ensemble de serveurs de calcul/traitement sur des grappes et des machines parallèles et d'en offrir l'accès à des clients répartis sur le réseau. La localisation de ressources et l'équilibrage de charge entre les serveurs se fait grâce à un ensemble d'agents eux-mêmes disposés à des emplacements stratégiques sur la grille.

Cette architecture est proche du concept d'ASP (Application Service Provider) dans lequel des clients accèdent à des ressources logicielles à distance. Nous pensons que, dans plusieurs applications du métacomputing, la location de services de calculs à distance permettra de faire sauter plusieurs verrous limitant l'accès du plus grand nombre à la puissance de calcul :

Le projet GRID-ASP s'appuie sur le projet RNRT VTHD (et VTHD++) et le Centre Charles-Hermite pour l'architecture matérielle et sur la proposition GASP pour le RNTL pour l'architecture logicielle.
Une idée forte de GASP est de porter des applications réelles de grande envergure sur les logiciels développés dans le cadre de nos projets de recherche et surtout de réutiliser des logiciels existants, portables et " standards ".
La technologie GASP est composée d'un ensemble de trois modules :

Le concept GASP doit permettre aux utilisateurs d'exploiter, via Internet, toute la puissance technologique de GASP. Où qu'ils soient dans le monde et quelles que soient les ressources (high-end ou low-end) dont ils disposent, ils pourront effectuer des requêtes, tester de nouveaux outils, modifier de façon interactive leur modèle même si toutes ces opérations s'effectuent sur des données de très grande taille. Les opérations ainsi déportées peuvent être de toute sorte et nous désirons montrer que cela ne se restreint pas uniquement au domaine numérique/algébrique puisque GUIRLANDE-fr se propose de traiter l'ingénierie des langues et de la linguistique de corpus.

Une vision unifiée des ressources linguistiques
La notion de ressource linguistique couvre un large spectre de données mono- ou multilingues qui peuvent couvrir tout aussi bien des versions électroniques de textes écrits (prose, pièces de théâtre, poésie, journaux), des dictionnaires ou terminologies informatisés ou encore la transcription de données orales (recueil de données en ethnolinguistique, radiodiffusions etc.). On peut qualifier ces ressources de " primaires " dans le sens où elles correspondent à un matériau de base pour d'éventuelles consultations ou traitements.
A partir de ces ressources, il est possible de dériver des ressources secondaires suite à des traitements spécifiques manuels (annotation par des experts), semi-automatiques (passage d'un outil et correction manuelle), ou automatique. On peut ainsi distinguer différents types de traitements :

Ces traitements peuvent être représentés soit par modification de la ressource primaire (quand cela est possible), soit par un fichier d'annotation externe ("stand-off mark-up", cf. Ide etc.), qui peut être produit à la demande par un module de traitement.

Guirlande-fr : un réseau de serveurs
La mise en œuvre d'un réseau décentralisé de serveurs de ressources linguistiques correspond à deux impératifs technique et éditorial :

Rem. : les traitements envisagés, sauf peut-être pour certains calculs en statistique lexicale, sont de fait extrêmement localisés. Il est donc particulièrement intéressant de les distribuer.

Dans un tel contexte, chaque " serveur " correspond en fait à la réalisation de trois fonctions différentes :

La seule fonction centralisée est ici assurée, pour reprendre la terminologie employée dans le cadre du projet ELAN, par le NMU (Network Management Unit) qui prend en charge la connaissance des serveurs affiliés au réseau et leur disponibilité à un moment donné pour fournir des ressources ou un service particulier. D'un point de vue technique, le rôle du NMU va être pris en charge par la notion de GASP/Agent qui existe dans la plate-forme de métacomputing. Il est l'élément qui fait le lien entre un client ayant un problème à résoudre et un serveur de ressource et/ou d'outils sachant résoudre ce problème. Cet agent doit permettre de localiser à la fois les serveurs par rapport aux problèmes à résoudre mais aussi les données déjà présentes sur les serveurs. Il permet, de plus, de connaître quel est le serveur le plus performant face à un problème particulier à résoudre. Un agent est découpé en deux sous-tâches :

Lors de l'enregistrement d'un nouveau serveur, il récupère les performances statiques de ce serveur (performances en communication et en calcul) ; Il installe des processus d'évaluation de performance sur divers points de la plate-forme pour être capable dynamiquement de récupérer les performances en communication et la charge des diverses machines. Il range ces informations dans une base de données accessible par l'Agent.

Le réseau GUIRLANDRE-fr du point de vue de l'utilisateur
La mise en place du réseau GUIRLANDE-fr vise à répondre types d'utilisation très divers :

A cette fin, il est important de préserver un haut niveau de généricité qui permettent de s'adapter à l'ensemble des besoins. On peut malgré tout concevoir un scénario de travail de base qui peut être décomposé en différentes étapes :