[Ingénieur -2023 – 48 mois] Ingénieur chef de projet ressources et technologies linguistiques (H/F)

Informations générales

  • Equipe : Multispeech – LORIA
  • Ville : Villers lès Nancy
  • Date de prise de fonction souhaitée : 2023-04-03
  • Durée de contrat : 4 ans
  • Contact : Ouni Slim / slim.ouni@loria.fr

Pour plus d’informations et pour postuler, cliquez ici

Contexte et atouts du poste

Ce poste se place dans le cadre du Défi Inria COLaF (Corpus et Outils pour les Langues de France), qui est une collaboration entre les équipes ALMAnaCH et MULTISPEECH. L’objectif du Défi est de développer et mettre à disposition des technologies numériques linguistiques pour la francophonie et les langues de France, en contribuant à la création de corpus de données inclusifs, de modèles, et de briques logicielles. L’équipe ALMAnaCH focalise sur le texte et l’équipe MULTISPEECH sur la parole multimodale. Les deux principaux objectifs de ce projet sont :

  • La collecte de corpus de données francophones, massifs et inclusifs : Il s’agit de constituer de très grands corpus textuels et de parole, avec des métadonnées riches pour améliorer la robustesse des modèles face à la variation linguistique, avec une place particulière pour la variation géographico-dialectale dans le contexte de la francophonie, dont une partie pourra être multimodale (audio, image, vidéo), voire spécifique à la langue des signes française (LSF). Les données liées à la parole multimodale concerneront entre autres les dialectes, les accents, la parole des personnes âgées, des enfants et des adolescents, la LSF et les autres langues largement parlées en France.

La collecte de corpus sera basée prioritairement sur les données existantes. Ces données (parole multimodale) peuvent provenir des archives de l’INA et des radio-télévisions régionales ou étrangères, mais rarement sous une forme directement exploitable, ou bien auprès des spécialistes, mais sous forme de petits corpus dispersés. La difficulté consiste d’une part à identifier et pré-traiter les données pertinentes afin d’obtenir des corpus homogènes, et d’autre part à clarifier (et si possible assouplir) les contraintes légales et les contreparties financières régissant leur usage afin d’assurer l’impact le plus large possible. Lorsque les contraintes légales ne permettent pas d’utiliser les données existantes, un effort supplémentaire de collecte de données sera nécessaire. Ce sera probablement le cas des enfants (applications à l’éducation) et les personnes âgées (applications à la santé). Selon la situation, cet effort sera sous-traité à des linguistes de terrain ou mènera à une campagne à grande échelle. Cela sera conduit en collaboration avec Le VoiceLab et la DGLFLF.

 

  • Le développement et la mise à disposition de technologies linguistiques inclusives: Les technologies linguistiques considérées dans ce projet par l’équipe MULTISPEECH sont la reconnaissance et la synthèse de la parole, et la génération de la langue des signes. De nombreuses technologies sont déjà commercialisées. Il s’agit donc de ne pas réinventer ces outils, mais leur apporter les modifications nécessaires, afin qu’ils puissent exploiter les corpus inclusifs créés. Les technologies qui seront utilisées dans le cadre de ce projet portent sur, y compris, mais sans s’y limiter, les tâches suivantes :
  • Identification et prétraitement (semi-)automatique des données pertinentes au sein de masses de données existantes. Cela inclut la détection et le remplacement d’entités nommées à des fins d’anonymisation.
  • Architectures neuronales et approches adaptées aux scénarios à faibles ressources (augmentation de données, apprentissage par transfert, apprentissage faiblement/non supervisé, apprentissage actif, et combinaison entre ces diverses formes d’apprentissage)

Mission confiée

L’ingénieur chef de projet aura deux missions principales :

  • La gestion du projet et la coordination pratique de la contribution de l’équipe MULTISPEECH au Défi Inria. L’ingénieur chef de projet travaillera en étroite collaboration avec un ingénieur « junior », un chercheur et deux doctorants, tous travaillant dans le cadre de ce projet. Il assurera un encadrement rapproché de l’ingénieur « junior » et une interaction très fréquente avec le chercheur et les doctorants. Il sera en contact également avec les membres de l’équipe MULTISPEECH. Il y aura certainement une concertation et une collaboration solide avec son homologue au sein de l’équipe ALMAnaCH.

 

  • La collecte de données et création de corpus de parole multimodale (cela comprend : certains dialectes, les accents, les personnes âgées, les enfants et adolescents, la LSF et certaines langues largement parlées en France autre que le français). Une grande partie de la collecte des données se fera auprès d’associations de locuteurs, des producteurs de contenus et tout partenaire pertinent pour la récupération de données. L’ingénieur chef de projet sera amené à discuter, notamment les aspects juridiques, avec nos interlocuteurs.

Principales activités

  • Définition des différents types de corpus à collecter (identifier les corpus potentiellement exploitables, établir une priorité et un planning de collecte)
  • Collecte de corpus de parole auprès de producteurs de contenus ou de tout autre partenaire. (s’assurer que les données respectent les normes et les standards de qualité)
  • Négociation des contrats d’utilisation des données, en veillant à respecter les aspects juridiques (négocier les conditions d’utilisation des données avec les producteurs de contenus ou les partenaires, en veillant à ce que les droits de propriété intellectuelle soient respectés et que les aspects juridiques soient pris en compte).
  • Création et mise à disposition des technologies linguistiques pour le traitement de ces corpus : une fois collectées, les données doivent être analysées et traitées de manière à en extraire des informations utiles. L’ingénieur chef de projet doit proposer des technologies et des outils parmi l’existant, nécessaires à cette analyse, et s’assurer qu’ils sont accessibles aux utilisateurs.
  • Encadrement rapproché de l’ingénieur junior : accompagnement et conseil au niveau des choix techniques et stratégiques de développement.
  • Concertation et animation des échanges entre les membres du projet : (1) avec le chercheur et les deux doctorants (réflexions et échanges sur les données, et leurs adéquations au Défi.) ; (2) coordination avec les membres du projet au sein de l’équipe ALMAnaCH.
  • Veille technologique, en particulier dans le domaine du ce défi.
  • Rédaction et présentation de documentation technique

Compétences

PROFIL RECHERCHE :

  • Diplômé en informatique, linguistique ou toute autre formation relevant du domaine du traitement automatique de la parole ou des langues
  • Expérience confirmée en gestion de projet et en communication
  • Connaissance approfondie des technologies linguistiques
  • Capacité à travailler en équipe et à respecter les délais
  • Bonne connaissance de l’anglais

SAVOIRS

  • Capacité à rédiger, à publier et à présenter en français et en anglais
  • Maitrise des techniques de conduite des projets et de négociation
  • Bases juridiques (données personnelles, propriété intellectuelle, droit des affaires)

SAVOIR-FAIRE

  • Capacités d’analyse, rédactionnelles et de synthèse
  • Savoir accompagner et conseiller
  • Savoir développer un réseau relationnel
  • Savoir mener de front différents projets en même temps
  • Capacités de négociation

SAVOIR-ÊTRE

  • Sens des responsabilités et autonomie
  • Sens du contact et goût pour le travail en équipe
  • Rigueur, sens des priorités et du reporting
  • Qualités relationnelles (écoute- diplomatie- pouvoir de conviction)
  • Appétence pour la négociation (Le VoiceLab, DGLFLF, etc.)
  • Capacité d’anticipation
  • Esprit d’initiative et curiosité d’esprit