[Sujet de thèse] Fouille de structures moléculaires Aide à la recherche de nouveaux antibiotiques

Contexte de la thèse et motivations

Ce sujet de thèse a pour contexte la lutte contre la résistance des bactéries aux antibiotiques. Pour contrer la résistance des bactéries aux agents (molécules) antibactériens, il est nécessaire de disposer de molécules actives. Or, peu de telles molécules actives ont été mises sur le marché récemment. En réalité, la plupart des antibiotiques en cours de recherche clinique appartiennent aux familles d’antibiotiques existantes et seront donc probablement rapidement confrontés aux mêmes mécanismes de résistance. Comment faire face alors au défi qu’est l’identification de molécules chimiques originales pouvant servir d’agents antibactériens efficaces dans des échelles de temps raisonnables ? Un point commun à toutes les étapes de conception de nouveaux médicaments est la nécessité de traiter efficacement de grands volumes de données hétérogènes (molécules et génomes, mais aussi brevets, articles et documents). Une façon de prendre le problème est de mettre au point des méthodes de fouille de données hybrides, efficaces et bien adaptées.
Les classifieurs numériques sont en pleine expansion du fait de leur adaptabilité et de leur grande efficacité pour traiter les types de données numériques, dont relèvent entre autres les données hétérogènes de la recherche pharmaceutique [3, 2]. Ces classifieurs sont supervisés et s’appuient pour fonctionner sur des analyses de référence. Ils cherchent à extraire des motifs structurels représentatifs à partir de la description des molécules en termes de structures et d’activité physico-chimique. Les motifs découverts sont mis en relation avec l’activité biologique visée et vont être à la base de la conception des nouvelles molécules antibactériennes. Cependant, pour guider la recherche de nouvelles molécules, il faut injecter des connaissances du domaine pour renforcer le potentiel des classifieurs, aider l’interprétation puis la visualisation des résultats. Cela justifie le recours en parallèle à des techniques symboliques de fouille de données non nécessairement supervisées comme la fouille de graphes et l’analyse formelle de concepts, qui peuvent tenir compte du contexte et des connaissances du domaine mais aussi aider à l’interprétation des éléments fouillés.

Détails sur le sujet de thèse et programme de travail

Dans ce travail de thèse, nous comptons combiner des techniques numériques et symboliques, pour guider la fouille de graphes moléculaires en fonction de connaissances du domaine. Les classifieurs symboliques interviennent pour classer les molécules candidates en fonction de leurs potentialités, en fonction des connaissances du domaine et selon les cibles pharmaceutiques visées. Nous allons travailler sur la conception de telles stratégies hybrides de fouille de données. Des expériences ont déjà été menées sur la constitution de bases de molécules adéquates et sur la combinaison de classifieurs qui pourront servir de références [6, 5, 1, 4].
Nous allons nous intéresser à des méthodes d’apprentissage supervisé pour mener une étude expérimentale sur des données réelles. En particulier, nous disposons d’un ensemble de molécules provenant de différentes sources, dont le dépôt MDDR (http://www.akosgmbh.de/accelrys/databases/mddr.htm) et le dépôt PubChem (https://pubchem.ncbi.nlm.nih.gov/). Pour améliorer le rendement des méthodes de classification sur des bases moléculaires ayant un nombre important de descripteurs, nous allons aussi nous intéresser aux techniques de sélection d’attributs. Le but est d’avoir un bon compromis entre l’efficacité du classifieur et sa précision.

L’organisation du travail de thèse

Le travail de thèse se déroulera dans les locaux du laboratoire LORIA dans l’équipe ABC en relation avec les équipes Capsid et Orpailleur. Le programme de la thèse dans ses grandes lignes est organisé autour des tâches suivantes.
Tâche 1. Étude des méthodes de classification de structures avec application aux structures moléculaires. Sélection d’attributs et premiers éléments de comparaison de méthodes. Mise en œuvre d’une plate-forme d’expérimentation.
Tâche 2. Combinaison de méthodes de classification pour la classification de structures moléculaires. Plate-forme d’expérimentation : mise à jour et consolidation. Publications.
Tâche 3. Production d’explications et théories de l’apprentissage associées à la classification de structures. Plate-forme d’expérimentation : application à la recherche d’antibiotique, expériences sur des données réelles avec des experts du domaine. Publications.
Tâche 4. Écriture de la thèse et dissémination des résultats. Consolidation finale de la plate-forme d’expérimentation. Publications.

Équipes : ABC + Capsid + Orpailleur (LORIA/Inria Nancy Grand Est)
Supervision et contacts :
Yann Guermeur (Yann.Guermeur@loria.fr, co-directeur de thèse),
Fabien Lauer (Fabien.Lauer@loria.fr, co-directeur de thèse),
Bernard Maigret (Bernard.Maigret@loria.fr, co-encadrant),
Amedeo Napoli (Amedeo.Napoli@loria.fr, co-encadrant).

Mots-clés :
fouille de données, apprentissage, fouille de structures moléculaires, méthodes de classification, explicabilité.
Compétences : Un master en informatique ou mathématiques appliquées. Des éléments sur la découverte de connaissances, la fouille de données numériques et symboliques, et l’apprentissage symbolique et statistique seront appréciés.
Links :

ABC

CAPSID

ORPAILLEUR

Références :

[1] Guillaume Bosc, Jean-François Boulicaut, Chedy Raïssi, and Mehdi Kaytoue. Anytime discovery of a diverse set of patterns with Monte Carlo tree search. Data Mining and Knowledge Discovery, 32(3) :604–650, 2018.
[2] Antoine Cornuéjols, Laurent Miclet, and Vincent Barra. Apprentissage artificiel. Eyrolles Paris (3ième édition), 2018.
[3] Peter A. Flach. Machine Learning – The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press, 2012.
[4] Dhouha Grissa, Blandine Comte, Mélanie Pétéra, Estelle Pujos-Guillot, and Amedeo Napoli. A hybrid and exploratory approach to knowledge discovery in metabolomic data. Discrete Applied Mathematics, 2019. To Appear.
[5] Dhouha Grissa, Blandine Comte, Estelle Pujos-Guillot, and Amedeo Napoli. A hybrid knowledge discovery approach for mining predictive biomarkers in metabolomic data. In Proceedings of ECML-PKDD 2016, LNCS 9851, pages 572–587. Springer, 2016.
[6] Jean-Philippe Métivier, Alban Lepailleur, Aleksey Buzmakov, Guillaume Poezevara, Bruno Crémilleux, Sergei O. Kuznetsov, Jérémie Le Goff, Amedeo Napoli, Ronan Bureau, and Bertrand Cuissart. Discovering structural alerts for mutagenicity using stable emerging molecular patterns. Journal of Chemical Information and Modeling, 55(5) :925–940, 2015.

Logo d'Inria