retour à l'accueil

Présentation
Equipes
Agenda
Documents
Bibliographie
Corpus
Outils
Liste de discussion
A propos de ce site

Télécharger les corpus disponibles


Liste des corpus disponibles

Air France
CIO
GOCAD
Microfusées
OZKAN
Renault
SNCF
PIC
Café

Descriptif de chaque corpus

Nom du corpus AIR FRANCE
Date version 07.07.2003
Projet/ Equipe dépositaire Sorbonne Nouvelle - Paris III - Centre de Linguistique Française
Auteurs ou fournisseurs  
Composition du corpus 73 dialogues organisés en quatre parties
Codage TEI P4
Auteurs du codage Laurent Romary, Nadia Viscogliosi (Langue et Dialogue)
Sources disponibles XML (1 fichier) texte (source) HTML
Commentaires  

Nom du corpus CIO
Date version  
Projet/ Equipe dépositaire  
Auteurs ou fournisseurs  
Composition du corpus 34 dialogues téléphoniques répartis en 3 phases
Codage  
Auteurs du codage  
Sources disponibles XML texte (source) HTML
Commentaires  

Nom du corpus GOCAD
Date version 03.07.2003
Projet/ Equipe dépositaire  
Auteurs ou fournisseurs  
Composition du corpus 32 dialogues (8 sujets effectuant chacun 4 tâches)
Codage TEI P4
Auteurs du codage ???, Nadia Viscogliosi (Langue et Dialogue)
Sources disponibles XML (1 fichier) texte (source) HTML
Commentaires  

Nom du corpus Microfusées
Date version 20.01.2004
Projet/ Equipe dépositaire équipe Dialogue CRIN
Auteurs ou fournisseurs UMR GRIC (CNRS Lyon 2) équipe COAST
Composition du corpus 3 trilogues et un quadrilogue
Codage  
Auteurs du codage Nadia Viscogiosi (Langue et Dialogue)
Sources disponibles XML SGML(source) HTML
Commentaires  

Nom du corpus OZKAN
Date version  
Projet/ Equipe dépositaire CLIPS-IMAG
Auteurs ou fournisseurs Nadine Ozkan et Jean Caelen
Composition du corpus 33 dialogues
Codage TEI et référence
Auteur du codage Susanne Alt (Langue et Dialogue)
Sources disponibles XML (33 fichiers) texte HTML
Commentaires oral, dialogue orienté tâche; format XML annoté avec
  • des informations concernant le dialogue (locuteur, acte de language, segments,...)
  • toutes les expressions nominales (indéfinis, définis, pronoms, démonstratifs).
  • Nom du corpus Renault
    Date version 09.01.2004
    Projet/ Equipe dépositaire LIMSI
    Auteurs ou fournisseurs Dominique Martini, Agnès Gryl et Xavier Briffault
    Composition du corpus 27 dialogues
    Codage TEI P4
    Auteurs du codage Laurence Kbida (Langue et Dialogue)
    Sources disponibles XML (1 fichier) texte (source) HTML
    Commentaires  

    Nom du corpus SNCF
    Date version  
    Projet/ Equipe dépositaire  
    Auteurs ou fournisseurs  
    Composition du corpus 61 communications téléphoniques réparties en 3 phases
    Codage  
    Auteurs du codage  
    Sources disponibles XML texte (source) HTML
    Commentaires  

    Nom du corpus PIC
    Date version 02.09.2003
    Projet/ Equipe dépositaire Laboratoire GREYC (université de Caen)
    LPI-GRC (université Nancy 2)
    LPCP (université de Caen)
    Auteurs ou fournisseurs Anne Nicole
    Composition du corpus un dialogue
    Codage TEI P4
    Auteurs du codage Nadia Viscogliosi, Laurence Kbida (Langue et Dialogue)
    Sources disponibles XML word (source) HTML
    Commentaires  

    Nom du corpus café
    Date version  
    Projet/ Equipe dépositaire  
    Auteurs ou fournisseurs Daniel Luzzati (LIUM)
    Composition du corpus 10 monologues
    Codage  
    Auteurs du codage  
    Sources disponibles XML word, pdf (source) HTML
    Commentaires  


    Liens vers d'autres corpus

    - Corpus Elicop (Etude LInguistique de la COmmunication Parlée)

    Retour à la page des corpus