Gestion et Usages Informatiques
des Ressources Langagières
pour la Diffusion et lÉtude du Français
| Cadre | Action
Concertée Incitative 2001 Globalisation des Ressources Informatiques et des Données |
| Catégorie | Projet pluridisciplinaire |
| Référence et titre | PPL11-Guirlande-fr |
| Durée | 24 mois |
| Coordinateur | Laurent Romary (LORIA-CNRS) |
Les objectifs
Le développement actuel de l'ingénierie des langues et de la linguistique de corpus nécessite l'usage de corpus textuels de plus en plus étendus et d'outils de traitement de plus en plus performants. Le but de GUIRLANDE-fr est la mise en place d'une grille de serveurs distribués permettant de fédérer des ressources (textes codés et annotés) sur la langue française mais aussi un ensemble d'outils de traitement de ces ressources qui soient accessibles pour tout chercheur ou enseignant travaillant sur notre langue. Ces ressources et outils distribués sur divers serveurs seront accessibles de façon transparente à leur localisation physique.
Le projet que nous proposons s'inscrit complètement dans la logique d'un environnement client-serveur puisqu'il offrira un accès aux données, mais également aux applications par le biais d'un véritable réseau informatique de serveurs. Le réseau GUIRLANDE-fr peut être défini comme étant la mise en relation d'un certain nombre de serveurs GUIRLANDE-fr spécifiques. Il est en effet important pour assurer la pérennité des ressources et des outils de les laisser aussi proches que possible des équipes les ayant développés, c'est en effet elles et elles seules qui sauront effectivement les faire évoluer. Mais ce réseau doit être entièrement transparent pour l'utilisateur qui ne doit pas avoir à se soucier de l'implantation géographique de ces divers serveurs.
Description
La période est aujourd'hui idéale pour mener à bien des
expérimentations à vraie grandeur pour diverses raisons :
Dans ce cadre, il a été décidé de faire parler les laboratoires européens d'une seule voix pour faire des propositions concrètes de sorte que l'initiative OLAC soit un peu plus ambitieuse et surtout ne réinvente pas ce qui existe déjà. L'ATILF (ex INALF) a été chargé de travailler à la mise en oeuvre d'un point d'entrée compatible avec les spécifications d'OLAC pour l'ensemble des ressources sur le français.
Réutilisation et exploitation de la coquille
actuelle du serveur SILFIDE
Dans le cadre de SILFIDE, l'équipe LED du LORIA a proposé un
service pouvant se greffer sur la plupart des serveurs HTTP standards permettant
d'effectuer des opérations de base telles que :
Cette coquille servira de moule pour l'élaboration et la distribution des futurs serveurs GUIRLANDE-fr qui seront la charpente du réseau GUIRLANDE-fr. Pour une véritable réussite et pérennité du réseau, l'accent sera mis, sur l'intégration d'outils linguistiques au niveau du client, mais également sur le partage des outils et des données entre les différents serveurs du réseau et sur une normalisation minimale tant des données que des outils proposés.
Intégration d'applications
Transporter purement et simplement une application d'un serveur vers un autre
n'est pas faire de l'intégration. En effet, la complexité des
applications client serveur, le nombre de produits utilisés directement
ou indirectement, le cumul des couches réseaux et les différents
systèmes font qu'un téléchargement pur et simple ne répond
plus aux besoins des utilisateurs de l'Internet. Les procédures d'installation,
de configuration et de compilation ne sont pas toujours évidentes à
mettre en uvre (surtout pour des non-informaticiens, or ici nous visons
essentiellement des linguistes) et l'utilisation de ce type de programmes
peut être à l'origine de dysfonctionnement, voir d'un blocage
total de la machine cliente. De plus, il est absolument indispensable de tenir
compte de la spécificité des diverses plates-formes et architectures
présentes dans le milieu informatique. Par ailleurs, il faut uniformiser
l'environnement utilisateur, les procédures d'accès et d'exploitation
du côté du client et de diffusion du côté du serveur.
Partage et mise en réseau
Le partage de l'information est au cur même de la mise en place
du projet GUIRLANDE-fr. Une telle architecture permet aux utilisateurs d'effectuer
des requêtes sur le réseau sans savoir, à priori, de quel
serveur proviennent les réponses. Ce partage des informations, qui
s'applique principalement sur les ressources, peut s'étendre également
aux applications. Ainsi il est tout à fait envisageable pour un utilisateur
d'effectuer un traitement linguistique X, sur des données provenant
d'un serveur Y avec un programme fourni par un serveur Z. Le principal intérêt
de cette architecture est de facilité la gestion des ressources linguistiques
et de leurs différentes versions (dans le cadre d'une mise à
jour par exemple) en évitant leur duplication. Cette approche s'appuie
sur l'exploitation de nouvelles technologies :
L'utilisation des composantes techniques Java, CORBA et XML permet de définir un environnement complètement ouvert, indépendant de toute architecture matérielle et de tout système d'exploitation. Cette homogénéité logicielle offre l'assurance d'une pérennité au niveau de ses fonctionnalités, de ses outils et de ses données pour les années à venir.
Rôle des divers partenaires
Principes généraux
Les objectifs ambitieux du projet GUIRLANDE-fr rejoignent l'architecture proposée
dans GRID-ASP et concernent les applications de type client-serveurs. Il s'agit
de déployer un ensemble de serveurs de calcul/traitement sur
des grappes et des machines parallèles et d'en offrir l'accès
à des clients répartis sur le réseau. La localisation
de ressources et l'équilibrage de charge entre les serveurs se fait
grâce à un ensemble d'agents eux-mêmes disposés
à des emplacements stratégiques sur la grille.
Cette architecture est proche du concept d'ASP (Application Service Provider) dans lequel des clients accèdent à des ressources logicielles à distance. Nous pensons que, dans plusieurs applications du métacomputing, la location de services de calculs à distance permettra de faire sauter plusieurs verrous limitant l'accès du plus grand nombre à la puissance de calcul :
Le projet GRID-ASP s'appuie sur le projet RNRT VTHD (et VTHD++) et le Centre
Charles-Hermite pour l'architecture matérielle et sur la proposition
GASP pour le RNTL pour l'architecture logicielle.
Une idée forte de GASP est de porter des applications réelles
de grande envergure sur les logiciels développés dans le cadre
de nos projets de recherche et surtout de réutiliser des logiciels
existants, portables et " standards ".
La technologie GASP est composée d'un ensemble de trois modules :
Le concept GASP doit permettre aux utilisateurs d'exploiter, via Internet, toute la puissance technologique de GASP. Où qu'ils soient dans le monde et quelles que soient les ressources (high-end ou low-end) dont ils disposent, ils pourront effectuer des requêtes, tester de nouveaux outils, modifier de façon interactive leur modèle même si toutes ces opérations s'effectuent sur des données de très grande taille. Les opérations ainsi déportées peuvent être de toute sorte et nous désirons montrer que cela ne se restreint pas uniquement au domaine numérique/algébrique puisque GUIRLANDE-fr se propose de traiter l'ingénierie des langues et de la linguistique de corpus.
Une vision unifiée des ressources linguistiques
La notion de ressource linguistique couvre un large spectre de données
mono- ou multilingues qui peuvent couvrir tout aussi bien des versions électroniques
de textes écrits (prose, pièces de théâtre, poésie,
journaux), des dictionnaires ou terminologies informatisés ou encore
la transcription de données orales (recueil de données en ethnolinguistique,
radiodiffusions etc.). On peut qualifier ces ressources de " primaires
" dans le sens où elles correspondent à un matériau
de base pour d'éventuelles consultations ou traitements.
A partir de ces ressources, il est possible de dériver des ressources
secondaires suite à des traitements spécifiques manuels (annotation
par des experts), semi-automatiques (passage d'un outil et correction manuelle),
ou automatique. On peut ainsi distinguer différents types de traitements
:
Ces traitements peuvent être représentés soit par modification de la ressource primaire (quand cela est possible), soit par un fichier d'annotation externe ("stand-off mark-up", cf. Ide etc.), qui peut être produit à la demande par un module de traitement.
Guirlande-fr : un réseau de serveurs
La mise en uvre d'un réseau décentralisé de serveurs
de ressources linguistiques correspond à deux impératifs technique
et éditorial :
Rem. : les traitements envisagés, sauf peut-être pour certains calculs en statistique lexicale, sont de fait extrêmement localisés. Il est donc particulièrement intéressant de les distribuer.
Dans un tel contexte, chaque " serveur " correspond en fait à la réalisation de trois fonctions différentes :
La seule fonction centralisée est ici assurée, pour reprendre la terminologie employée dans le cadre du projet ELAN, par le NMU (Network Management Unit) qui prend en charge la connaissance des serveurs affiliés au réseau et leur disponibilité à un moment donné pour fournir des ressources ou un service particulier. D'un point de vue technique, le rôle du NMU va être pris en charge par la notion de GASP/Agent qui existe dans la plate-forme de métacomputing. Il est l'élément qui fait le lien entre un client ayant un problème à résoudre et un serveur de ressource et/ou d'outils sachant résoudre ce problème. Cet agent doit permettre de localiser à la fois les serveurs par rapport aux problèmes à résoudre mais aussi les données déjà présentes sur les serveurs. Il permet, de plus, de connaître quel est le serveur le plus performant face à un problème particulier à résoudre. Un agent est découpé en deux sous-tâches :
Lors de l'enregistrement d'un nouveau serveur, il récupère les performances statiques de ce serveur (performances en communication et en calcul) ; Il installe des processus d'évaluation de performance sur divers points de la plate-forme pour être capable dynamiquement de récupérer les performances en communication et la charge des diverses machines. Il range ces informations dans une base de données accessible par l'Agent.
Le réseau GUIRLANDRE-fr du point de vue de l'utilisateur
La mise en place du réseau GUIRLANDE-fr vise à répondre
types d'utilisation très divers :
A cette fin, il est important de préserver un haut niveau de généricité qui permettent de s'adapter à l'ensemble des besoins. On peut malgré tout concevoir un scénario de travail de base qui peut être décomposé en différentes étapes :
