L’interdisciplinarité au cœur du traitement de la langue
20 novembre 2022
Le projet Impact LUE OLKi allie les expertises de cinq laboratoires de l’Université de Lorraine pour stimuler les travaux de recherche entre les diverses disciplines concernées par le traitement de la langue. Interviews croisées de binômes qui font de l’interdisciplinarité une force.
Des projets pour étudier les discours de haine en ligne.
Les phénomènes de haine inondent les réseaux sociaux et les médias en ligne. À titre d’exemple, entre janvier et mars 2021, YouTube a retiré 85 247 vidéos et Facebook a signalé et/ou supprimé 25,2 millions de commentaires pour ces raisons. Des déferlements de propos haineux apparaissent face à des événements comme l’épidémie de Covid19 ou les crises migratoires, amenant les instances européennes et étatiques à statuer.
Nous avons rencontré Angeliki Monnier et Irina Illina, impliquées dans des projets collaboratifs alliant sciences de l’information et de la communication et informatique pour lutter contre cette haine en ligne.
Irina Illina est maîtresse de conférences HDR à l’IUT Nancy Charlemagne et chercheuse dans l’équipe Multispeech du Loria (CNRS, Inria, Université de Lorraine). Ses recherches sont axées sur la reconnaissance de la parole et, plus récemment, sur les aspects textuels du traitement automatique des langues.
Directrice du CREM, Angeliki Monnier est professeure en sciences de l’information et de la communication à l’Université de Lorraine. Elle travaille sur les appropriations et usages collectifs des médias et sur les environnements informationnels en ligne.
Les deux chercheuses ont associé leurs compétences au sein de deux projets : l’ANR M-PHASIS et le projet LUE OLKi.
Des approches complémentaires pour l’analyse des discours.
« En discutant de nos sujets respectifs, nous avons vite pensé qu’il serait intéressant de travailler ensemble sur la thématique des contenus en ligne, car nous avons des approches différentes et complémentaires », soulignent d’emblée les deux chercheuses. C’est ainsi que le projet d’ANR franco-allemand M-PHASIS (Migration et discours haineux dans les réseaux sociaux) est né, rassemblant des collègues du CREM, du Loria, de l’Université de Sarrebourg et de Mayence. Son objectif ? Étudier les discours de haine contre les migrants, dans des médias en ligne français et allemands.
Dans un premier temps, l’équipe a réfléchi à la manière de collecter les données. Un travail épistémologique a également été nécessaire pour définir le discours de haine. 10 000 commentaires ont ainsi été recensés dans des médias français et allemands, dans le but de développer un protocole d’annotation et améliorer les méthodes automatiques de détection des discours haineux.
« Si de nombreux progrès ont été faits sur l’automatisation de la détection de la haine en ligne, il reste encore un long chemin à parcourir. Nous utilisons des modèles basés sur BERT, s’appuyant sur des réseaux de neurones très sophistiqués, explique Irina Illina. Nous avons enrichi ces modèles avec nos corpus et pu développer un modèle plus performant pour la classification des discours de haine. »
L’originalité des travaux de l’équipe réside dans le développement d’un protocole d’annotation des discours très fin et détaillé, permettant d’étudier les schémas de pensée qui sous-tendent les propos haineux. Cet outil, nommé HUMAN (Hierarchical Universal Modular Annotator), ainsi que les corpus utilisés, sont disponibles en ligne et en open access.
Vers de nouveaux projets pluridisciplinaires
Si les deux disciplines ont des approches différentes, ces travaux ont offert un réel enrichissement mutuel aux partenaires : « Nous nous nourrissons du regard de l’autre discipline, précise Angeliki Monnier. Il y a eu une grande implication de chacun tout au long du projet, notamment des doctorants et post-doctorants, qui ont eu à cœur de rendre accessibles leurs travaux aux collègues de l’autre discipline. »
Le succès de ce projet, terminé en août 2022, a permis aux chercheuses de poursuivre leur collaboration dans le cadre du projet LUE OLKi, notamment par l’encadrement de la thèse de Tulika Bose, sur le sujet de l’utilisation des modèles thématiques pour améliorer la détection des discours de haine. La doctorante a publié des articles dans des conférences du plus haut rang international. « Nous aimerions à présent élargir nos sujets, par exemple en travaillant sur les supports vidéo avec une approche multimodale alliant texte et signal audio », souligne Irina Illina.