Le projet OLKi : vers une IA citoyenne et ouverte

Téléchargez ici le rapport d’activité d’OLKi

OLKi (Open Language and Knowledge for citizens) est un projet IMPACT Lorraine Université d’Excellence ancré dans le défi portant sur l’ingénierie des langues et des connaissances. Interdisciplinaire, le projet mêle l’informatique et les mathématiques aux sciences humaines et sociales. Il est coordonné par Christophe Cerisara, chargé de recherche CNRS au Loria, responsable de l’équipe Synalp et Aurore Coince, cheffe de projet.

La fuite des données : une problématique sociétale et scientifique

En mai 2018, la société de marketing politique et commercial Cambridge Analytica a annoncé la cessation de ses activités. La cause de cette faillite : un scandale international l’accusant d’avoir utilisé les données personnelles de quelques 87 millions d’utilisateurs de Facebook à des fins politiques. La recrudescence de ce type de scandale entraîne une méfiance et une incompréhension de la part des citoyens vis-à-vis de l’intelligence artificielle (IA).

La problématique de protection des données touche également les scientifiques : les méthodes d’apprentissage profond (deep learning), omniprésentes aujourd’hui dans les domaines applicatifs de l’IA perdent toute leur valeur si elles ne sont pas nourries en continue par de grandes quantités de données. Les données sont ainsi souvent comparées au pétrole en terme d’importance stratégique. Or, la très grande majorité de ces richesses sortent de nos frontières et sont contrôlées par des entreprises privées, ce qui limite leur utilisation par les scientifiques français et européens.

Alors, comment garder le contrôle de ces masses de données, et comment les extraire sans porter atteinte à la vie privée des citoyens qui en sont à l’origine ?

Le projet OLKi a pour mission de concilier ces deux problématiques : concevoir de nouveaux algorithmes d’apprentissage automatique dédiés à l’extraction des connaissances à partir de données langagières, et réfléchir et proposer des solutions qui garantissent un contrôle équitable, ouvert et partagé des données ainsi qu’une utilisation de ces données qui respecte le citoyen et sa vie privée.

Vers un changement de paradigme communicationnel

Les données sur les réseaux sociaux constituent un potentiel énorme pour les chercheurs en intelligence artificielle. Seulement, peut-on y accéder ? Qui en a réellement le contrôle ? Le projet OLKi propose d’adapter nos moyens de communication à nos besoins et d’oeuvrer à la réappropriation du contrôle des données par les chercheurs et les citoyens.

Une plateforme alternative issue d’un mouvement citoyen de grande ampleur

Le coeur du projet est de proposer des alternatives et de s’affranchir des réseaux habituels en développant une plateforme. Des initiatives institutionnelles et citoyennes existent déjà, comme Academic Torrents, P2P, Ortolang, Datagouv… et le Fediverse.

Ce dernier réseau, développé surtout en Europe et au Japon, déjà riche de 2,5 millions d’utilisateurs, est une fédération de serveurs interconnectés, construite autour de logiciels libres.

La plateforme développée par le projet OLKi prévoit de s’interconnecter aux noeuds du Fediverse et d’ajouter aux ressources qui y existent déjà (musique, blogs, vidéos…) une dimension recherche et connaissances scientifiques. Cette plateforme ambitionne de fluidifier la communication entre les acteurs –chercheurs, fournisseurs de services et citoyens, hébergera et diffusera des ressources scientifiques liées au langage et aux connaissances qui en sont extraites.

À terme, au-delà des progrès en termes de contrôle, d’éthique, d’ouverture, de transparence et de respect de la vie privée, la plateforme résoudra des problèmes de nombreuses plateformes scientifiques actuelles, dont la maintenance à long terme, le passage à l’échelle, la réduction des coûts, le contrôle des fournisseurs de données et l’interaction entre recherche et citoyens.

OLKi : un projet interdisciplinaire

OLKi est porté par 5 laboratoires : le Loria pour les aspects liés à l’informatique et à l’intelligence artificielle, l’IECLpour la formalisation mathématique, notamment concernant l’apprentissage automatique, l’ATILF pour les notions de linguistique, les Archives Henri Poincaré pour les questions épistémologiques et éthiques, et le CREM, pour les questions d’usage des médias et des réseaux sociaux.

En interconnectant ces différentes disciplines, OLKi va mener des travaux tels que la production de ressources sur l’apprentissage des langues, la détection de discours haineux sur les réseaux sociaux, l’étude des dynamiques de groupe à grande échelle, l’analyse des discours et des corpus…

Le Loria, acteur de LUE

Le Loria est impliqué dans quatre projets Impact LUE au total. Le projet OLKi fait partie de la dernière vague de projets aux côtés du projet DigiTrust, , sur la confiance du citoyen dans le numérique. Dans les vagues précédentes, le Loria est déjà impliqué dans le projet ULHyS autour de l’hydrogène-énergie et dans le projet GEENAGE qui vise à définir une nouvelle stratégie de diagnostic et de prise en charge du vieillissement normal et pathologique.

Le lancement du projet OLKi a eu lieu au Loria le jeudi 15 mars 2019. La journée a réuni le consortium de recherche et près de 70 participants (personnels académiques et acteurs socio-économiques).