OrphaMine : un outil pour mieux connaître les maladies rares

29 février 2016

A la manière du Dr. House de la série éponyme, les médecins sont parfois confrontés à des énigmes devant certaines pathologies. La plateforme OrphaMine, développée dans le cadre du projet ANR Hybride, vise à offrir aux spécialistes une meilleure compréhension des maladies rares. Testée en interne, elle sera bientôt proposée à un panel élargi de médecins, chercheurs et représentants de l’industrie pharmaceutique.

Source : Marine Loyen, Citizen Press, 21/12/2015

Yannick Toussaint : Chargé de recherche, il est l’un des fondateurs de l’équipe ORPAILLEUR en 1998. Pour le projet Hybride, il a obtenu une bourse ANR d’une durée de 4 ans. Le financement est prolongé d’un an pour permettre à son équipe de finaliser la plateforme OrphaMine.

Chedy Raïssi : Chargé de recherche au sein de l’équipe ORPAILLEUR d’Inria Nancy – Grand Est depuis 2009, il travaille, avec Yannick Toussaint, sur la plateforme OrphaMine.

Comment est née la plateforme OrphaMine ?

YT : Nous nous sommes aperçus que les spécialistes des maladies rares avaient du mal à rassembler les connaissances existantes. Plus de 8 000 maladies sont répertoriées et caractérisées, mais il en existerait en réalité plus de 15 000. De plus, certaines pathologies se manifestent de manières très différentes selon les patients. Le diagnostic peut donc prendre plusieurs années. Le nombre de malades est limité, c’est pourquoi peu de médecins s’y intéressent. Notre objectif est donc de leur offrir une plateforme pour visualiser l’ensemble des connaissances acquises sur ces pathologies rares. L’une de nos sources de travail est la base de données bibliographique Medline, qui compile des millions de textes médicaux. L’objectif est d’extraire les données les plus pertinentes de cette masse de textes.

Quelles méthodes utilisez-vous ?

YT : Au sein du projet Hybride, nous travaillons avec des équipes de l’Inserm, mais aussi avec le Greyc* et MoDyCo**. Nous étudions les textes pour en extraire les informations. Cela s’apparente à du « Machine Learning » : il faut que nos algorithmes puissent reconnaître les mots et comprendre s’il s’agit d’une maladie, d’un symptôme, d’une bactérie ou d’un traitement. Ensuite, pour extraire l’information, nous faisons en sorte que le logiciel reconnaisse la syntaxe de la phrase pour comprendre les relations entre les mots (causalité, opposition etc.) y compris dans des phrases complexes. La relation entre une maladie et un symptôme, par exemple, peut s’exprimer de différentes façons. Les nuances de sens peuvent être très fines. L’équipe de MoDyCo nous aide beaucoup sur ce plan.

CR : Concrètement, à partir de textes médicaux, nous dessinons un réseau de données connectées entre elles : une maladie est reliée à plusieurs symptômes et aux gènes impliqués par exemple. Ce premier travail permet d’obtenir une représentation des connaissances existantes. J’interviens dans un second temps pour déceler des motifs et des relations cachées dans ce réseau de données. J’utilise pour cela des algorithmes de fouille de données. Voici un exemple : notre réseau de données nous permet d’affirmer qu’une maladie A est en lien avec un gène B. Il nous indique aussi que le gène B est présent, avec certaines variations, dans l’organisme de la souris. Et que des interactions directes entre des protéines encodées par le génome de la souris et le gène B existent. Les médecins auraient intérêt à étudier de plus près l’équivalent de ces protéines identifiées chez l’homme pour améliorer leurs connaissances sur la maladie. Mon travail permet de mettre en évidence ces relations.

Concrètement, comment la plateforme fonctionne-t-elle ?

YT : Nous avons encore du travail pour rendre notre plateforme accessible et facile à utiliser par les médecins et à terme par le grand public. L’objectif est qu’ils puissent poser une question dans le logiciel au sujet d’une maladie rare. Ils peuvent par exemple entrer le nom d’une maladie pour connaître tous les symptômes auxquels elle est associée. Il pourra également entrer un certain nombre de symptômes rencontrés chez son patient. Plus le nombre de symptômes sera important et plus le groupe de maladies possibles sera réduit.

CR : Nous avons déjà présenté notre plateforme à des médecins dans plusieurs hôpitaux, ils nous font régulièrement des retours sur nos travaux. Au sein même de l’équipe, un médecin du CHU de Nancy contribue à affiner nos résultats. Le panel d’utilisateurs sera élargi dès le mois de janvier en incluant des médecins, des chercheurs et des représentants de l’industrie pharmaceutique.

*Greyc : Laboratoire d’informatique de l’université de Caen

 

**MoDyCo : Modèles, Dynamiques, Corpus. Laboratoire de linguistique qui rassemble des chercheurs de l’Université Paris-Ouest Nanterre-La Défense et du CNRS.


Démo plateforme Orphamine