Emmanuel Vincent : Disséquer la parole pour mieux préserver notre vie privée

23 mars 2022

Directeur de recherche Inria rattaché au Laboratoire lorrain de recherche en informatique et ses applications (Loria – CNRS/Université de Lorraine/Inria), Emmanuel Vincent a récemment été élevé au rang de Fellow de l’Institute of Electrical and Electronics Engineers (IEEE).

Cette nomination salue ses nombreuses contributions dans le domaine de la séparation de sources audio. Elle distingue également le chercheur pour son implication dans l’organisation de défis scientifiques destinés à faire progresser sa thématique de recherche. Depuis quelques années, Emmanuel Vincent met par ailleurs à profit les technologies issues de l’intelligence artificielle pour améliorer la modélisation de signaux acoustiques dans la perspective de protéger les données personnelles reliées aux caractéristiques de notre voix.

L’environnement sonore a toujours occupé une place centrale dans la vie d’Emmanuel Vincent. Après des études de mathématiques au sein de l’École normale supérieure, ce musicien accompli choisit d’intégrer le laboratoire Sciences et Technologies de la Musique et du Son (STMS – CNRS/Ircam/Ministère de la culture/Sorbonne Université) où il soutient une thèse sur la séparation de sources musicales. À la suite d’un séjour postdoctoral à l’université Queen Mary de Londres, au cours duquel il conçoit une nouvelle méthode de codage audio musical à très bas débit, il intègre le centre Inria de Rennes en 2006 en tant que chargé de recherche en informatique. Au fil du temps, Emmanuel Vincent réoriente ses travaux vers le traitement des sons provenant de la parole. Six ans après son arrivée en Bretagne, il rejoint l’équipe Multispeech commune à Inria et au Loria de Nancy où il est promu directeur de recherche en 2016.

Tout au long de son parcours, le chercheur a apporté de multiples contributions au domaine de la séparation de sources audio multicanales. Il a notamment été le premier à combiner les deux approches historiques de la séparation de sources, que sont l’analyse des composantes indépendantes pour l’audio multicanal et la factorisation matricielle pour l’audio monocanal, dans un même modèle probabiliste. Emmanuel Vincent a en outre mis au point divers outils numériques qui ont contribué à améliorer de manière significative la séparation de sources audio : « avec d’autres membres de l’équipe Multispeech, nous avons conçu le tout premier algorithme dédié à la séparation de sources audio multicanales mettant à profit l’apprentissage profond. » Plus récemment, le scientifique a développé un autre algorithme capable de réduire simultanément l’écho, la réverbération et le bruit ambiant émanant d’un enregistrement de sources audio.

Transformer la voix du locuteur dans le but de masquer son identité tout en conservant les informations susceptibles d’être exploitées par un algorithme

« Mes recherches actuelles se focalisent sur le développement de méthodes d’apprentissage destinées à protéger les caractéristiques de notre voix, qui est une donnée personnelle sensible. Cela consiste par exemple à transformer la voix du locuteur dans le but de masquer son identité tout en conservant les informations susceptibles d’être exploitées par un algorithme », détaille Emmanuel Vincent. Le projet européen COMPRISE (COst-effective, Multilingual, PRIvacy-driven voice-enabled SErvices), qu’il a coordonné entre 2018 à 2021, s’inscrit pleinement dans cette démarche. La mission du consortium : concevoir un système d’interaction vocale multilingue à la fois simple d’utilisation et sécurisé. La suite logicielle développée par cette collaboration européenne réunit un ensemble de fonctionnalités allant de la reconnaissance de la parole à la synthèse de cette dernière, en passant par la gestion du dialogue et la traduction automatique.

Au sein de sa communauté du traitement de la parole et de l’audio, Emmanuel Vincent reste l’un des plus actifs promoteurs de défis scientifiques. A partir de 2011, il a ainsi co-organisé la série de défis CHiME dont le sixième et dernier volet vient de s’achever. Centrées sur la reconnaissance de commandes vocales dans un environnement bruyant, ces expérimentations successives ont permis de réduire drastiquement le taux d’erreurs sur les mots retranscrits par les logiciels de reconnaissance de la parole. Lancée en 2020, l’initiative VoicePrivacy cherche pour sa part à élaborer de nouveaux outils d’analyse de la parole prenant en considération la préservation de la vie privée des locuteurs. « Il s’agit de faire émerger des solutions d’anonymisation capables de supprimer les informations personnelles identifiables contenues dans les enregistrements de parole afin que les données personnelles de l’utilisateur comme le timbre de sa voix ou l’émotion qu’elle traduit, ne quittent jamais son ordinateur ou son smartphone », conclut Emmanuel Vincent.

Crédit photo : Emmanuel Vincent.

Source : INS2i