Alpinac : un logiciel pour détecter les nouvelles pollutions de l’air
14 mars 2023
Aurore Guillevic, chargée de recherche au sein de l’équipe Caramba, commune à Inria et au Loria, participe à un projet de l’Empa-ETH Zurich (Laboratoire pour la Pollution de l’Air et les Technologies Environnementales). Le but ? Utiliser de nouveaux algorithmes de machine learning pour analyser plus efficacement les données sur la pollution collectées par des spectromètres. Explications.
©Myriam Guillevic
De nouvelles méthodes de recherche pour identifier des polluants
La pollution de l’air, un enjeu de santé publique, est évaluée par le biais de trois principales méthodes. La première, de loin la plus répandue, consiste à mesurer les niveaux de concentration dans l’air de molécules polluantes connues (ozone, dioxyde d’azote, particules fines…) : elle est utilisée par les associations régionales chargées de la surveillance de la qualité de l’air, comme Airparif ou Air Breizh. La deuxième méthode repose sur la recherche dans l’air de molécules répertoriées, susceptibles d’être émises par l’industrie.
Et la troisième, qui suscite beaucoup d’intérêt, utilise de nouvelles techniques de recherche “en aveugle”, visant des polluants dont on ne connaît pas encore la nature. « Cette technique est très pertinente en cas de catastrophe industrielle, comme celles qui se sont produites à l’usine Lubrizol de Rouen, en 2019, ou sur le port de Beyrouth, un an plus tard », relève Aurore Guillevic, spécialiste de la cryptographie (la science des codes secrets). « Lors de catastrophes, l’idéal serait de pouvoir déterminer très rapidement la liste des molécules toxiques qui se trouvent dans l’air, afin de pouvoir alerter au plus vite les riverains, les pompiers… ».
Une analyse numérique des données recueillies par les spectromètres de masse
« En tant que chercheuse, l’une de mes spécialités a toujours été la manipulation et la calibration des machines de mesure, tels les spectromètres de masse, qui permettent de détecter et d’identifier des structures moléculaires par mesure de leur masse », précise de son côté Myriam Guillevic (sœur d’Aurore), qui préparait en 2019 un postdoctorat dans le laboratoire de recherche sur la pollution de l’air et les Technologies Environnementales de l’Empa-ETH Zurich en Suisse. « Le projet sur lequel je travaillais en postdoc comportait une partie d’analyse de données, nécessitant des compétences en informatique que je n’avais pas, notamment sur le machine learning (apprentissage machine) et le deep learning (apprentissage profond). J’ai expliqué à Aurore le problème qui se posait à nous, en tant que chimistes, et elle a réussi à le traduire en un algorithme informatique. »
Les nouveaux spectromètres de masse, installés en altitude par l’Empa, livrent des données très précises sur les masses. Il s’agit de spectromètres de masse à temps de vol et ionisation par électrons. Le principe ? L’air injecté est séparé en paquets distincts de molécules identiques, avant d’être ionisé (bombardé d’électrons), puis de passer dans un tube de vol. « L’appareil mesure le temps passé entre le point de départ et le point d’arrivée de chaque substance, ce qui offre des indications précises sur sa masse », ajoute Myriam Guillevic, qui est aujourd’hui collaboratrice scientifique à Berne (Suisse), à l’Office fédéral de l’environnement (OFEV). « L’algorithme donne ensuite, à partir des informations sur la masse, la formule chimique de chaque morceau fragmenté. »
La combinatoire pour résoudre des problèmes chimiques
Après avoir discuté des contraintes avec sa sœur, Aurore Guillevic s’est intéressée à la possibilité d’utiliser ses connaissances dans la combinatoire pour faciliter l’analyse des données provenant de recherches en aveugle sur des pollutions inconnues. « Avec la combinatoire, on peut combiner des données sur les atomes et les masses pour reconstruire et identifier les molécules », précise la chercheuse, qui a pu bénéficier d’un soutien du Programme numérique et environnement d’Inria pour travailler sur ce projet pluridisciplinaire.
« Je connaissais les algorithmes de combinatoire, qui ont surtout été utilisés dans les années 1970 et 1980 en cryptographie, avant de rencontrer un certain nombre de limites, détaille-t-elle. Nous avons ici montré que les algorithmes de type sac-à-dos [d’optimisation combinatoire] peuvent être très pertinents pour un domaine d’application chimique bien bordé. Nous avons en effet passé beaucoup de temps entre nous à discuter des règles de chimie à appliquer, ce qui nous a permis d’écarter de nombreuses zones de recherche algorithmiques, et ainsi de réduire a minima les temps de calcul. »
Un algorithme de théorie des graphes (modèles abstraits de dessins de réseaux reliant des objets) est parallèlement utilisé pour reconstruire des molécules à partir de morceaux fragmentés.
Nous mesurons les traces de gaz dans l’atmosphère, et notamment les gaz chlorés ou fluorés, qui sont en partie responsables du trou dans la couche d’ozone et sont des gaz à effet de serre. Pour chaque composant détecté, nous commençons par chercher dans la littérature existante s’il s’agit d’un gaz affectant la santé humaine, d’un gaz à effet de serre, ou bien d’un gaz ayant d’autres types d’impacts sur l’environnement.
Lorsqu’un composant est pertinent, nous achetons la substance pure auprès d’un laboratoire de synthèse chimique, avec laquelle nous préparons un mélange de référence. Il devient ainsi possible de mesurer la présence de ce composant sur de nombreux sites internationaux.
– Stefan Reimann, chercheur au laboratoire “gaz” de l’Empa-ETH Zurich
Un logiciel d’identification des polluants non ciblés
L’algorithme créé a été implémenté, en langage Python, dans un logiciel dénommé Alpinac (pour « Algorithmic Process for Identification of Non-targeted Atmospheric Compounds », en anglais, ce qui peut être traduit en français par « Procédé algorithmique d’identification de gaz atmosphériques non ciblés »).
Le procédé a aussi été documenté fin 2021 dans un article en anglais du Journal of Cheminformatics (Springer Nature), cosigné par Aurore Guillevic, Myriam Guillevic, et cinq chercheurs de l’Empa (Martin K. Vollmer, Paul Schlauri, Matthias Hill, Lukas Emmenegger et Stefan Reimann). Cette publication précise les vérifications effectuées pour démontrer la pertinence de l’algorithme. « C’est ce qu’on appelle la validation de méthode, détaille Myriam Guillevic. Nous avons tout simplement traité un mélange connu, dont nous savions qu’il contenait 50 composants, et ainsi pu vérifier que l’algorithme avait réussi à identifier toutes les molécules préalablement connues dans le mélange. »
Le logiciel Alpinac, dont une version publique est désormais administrée par le groupe « climate gases » à l’Empa, devrait à l’avenir intéresser des laboratoires et des industriels, soucieux de tracer les nouveaux polluants, ou de les ajouter à la liste des substances toxiques interdites par les protocoles internationaux (comme le protocole de Montréal et son amendement de Kigali). La solution pourrait aussi être utilisée par des fabricants de spectromètres, qui pourraient l’intégrer aux équipements fournis à leurs clients. Les calculs pourraient dès lors être effectués par l’ordinateur embarqué dans le spectromètre, avant d’être traités et communiqués à l’utilisateur.