Le Projet LLM4All financé par l’ANR : un consortium gagnant apportant les dernières avancées en matière d’IA générative au service de la santé
23 septembre 2023
LINAGORA, le CNRS, au travers du Laboratoire lorrain de recherche en informatique et ses applications (Loria – CNRS/Inria/Université de Lorraine) et du Laboratoire d’informatique de l’École polytechnique (LIX – CNRS/Institut Polytechnique de Paris) l’AP-HP et HuggingFace sont très heureux d’annoncer que l’ANR financera l’initiative LLM4All portée par un consortium d’acteurs stratégiques et complémentaires issus du monde de la recherche et de la technologie.
Lire l’article source sur Linagora.com
Deux cas d’usage en matière de santé ont été identifiés : le résumé automatique de réunions et l’analyse des appels d’urgence du SAMU. Pour le premier, un grand modèle de langue (Large Language Model ou LLM) actualisé sera formé sur un ensemble de données de réunions qui sera mis à disposition sous licence Open Source. Pour le second, un modèle combinant les aspects RAP et NLP sera spécifiquement adapté pour analyser un ensemble d’appels d’urgence simulés, enrichi par des données externes, y compris des éléments vocaux et des ontologies médicales.
« Avec LLM4All, les partenaires du consortium associent leurs capacités en R&D et ingénierie combinant innovation, efficacité et accessibilité pour répondre aux besoins croissants en termes d’IA Générative multimodale souveraine et Open Source. »
Michel-Marie Maudet, Directeur Général de LINAGORA
« Le CNRS soutient fortement les initiatives de recherche sur des thématiques liées au traitement automatique de la langue, en particulier les systèmes d’IA génératifs, à travers ses laboratoires et en mettant son supercalculateur Jean Zay à disposition pour l’entraînement des modèles. En outre, le CNRS est engagé dans le développement et la valorisation du logiciel libre. La collaboration avec des acteurs importants du monde du logiciel libre en France fait donc partie intégrante de notre effort pour la production des modèles de type LLM en langue française. »
Adeline Nazarenko – Directrice de l’Institut des sciences de l’information et de leurs interactions (INS2I) du CNRS
« LLM4All est à l’origine issu d’un rapprochement stratégique entre LINAGORA et le CNRS. Je suis ravi que cette collaboration se soit, par la suite, ouverte à de nouveaux acteurs clés. LLM4All est porté par une double ambition : en matière de recherche pure, mieux comprendre comment et pourquoi les LLM apprennent et oublient et dans son application, contribuer à réduire les coûts d’adaptation de ces modèles. Par ailleurs, d’un point de vue stratégique, LLM4All a vocation à ouvrir les LLM selon une vision Open Source chère à LINAGORA et bien sûr, aussi partagée par l’ensemble des partenaires du projet. »
Christophe Cerisara – Chercheur et Coordinateur du projet LORIA-Synalp
LLM4All répond à un double challenge technique vers des grands modèles de langage plus efficaces et plus accessibles
Au cours de ces derniers mois, les LLM ont démontré des capacités émergentes impressionnantes, notamment dans la génération de multiples formes de contenus, l’apprentissage en contexte et la décomposition de problèmes complexes en parties pouvant être traitées par des IA, soulignant l’importance de la taille comme critère déterminant pour la qualité des modèles. L’initiative LLM4All se lance par conséquent avec comme ambition majeure de développer des LLM de grande envergure tout en solutionnant deux défis cruciaux :
Le premier défi est la mise à jour automatique des modèles :
Contrairement à une idée reçue, il ne suffit pas de continuer à former un LLM avec de nouvelles données. Sans des processus d’apprentissage adéquats, ces modèles risquent d’ « oublier » des informations précédentes. LLM4All s’attaque à ce défi en explorant des approches innovantes, telles que l’intégration de réseaux neuronaux expansifs et de techniques de parcimonie. L’objectif est de fournir des LLM multilingues constamment mis à jour, en s’appuyant sur de nouvelles techniques développées dans le cadre du projet.
Le second défi est de rendre ces modèles plus accessibles en termes de coûts de calcul:
LLM4All propose une gamme de solutions adaptées à différents besoins, allant d’optimisations spécifiques pour équilibrer vitesse et mémoire, à des méthodes collaboratives pour accélérer les calculs, en passant par des techniques parcimonieuses et des méthodes de distillation pour des tâches spécifiques. Mais LLM4All ne s’arrête pas là. Le projet vise également à valider ces avancées technologiques sur des applications concrètes en langue française.
LLM4All : Deux cas d’usage appliqués au domaine de la santé et en français
Au-delà des modèles génériques qui seront diffusés, ces approches seront validées sur deux cas d’usages en français, respectivement le résumé automatique de réunions et l’analyse des appels d’urgence du SAMU.
Pour le premier, un LLM à jour sera entraîné sur un grand corpus disponible de réunions et diffusé en Open Source. Pour le second, un LLM sera adapté à un corpus d’appels d’urgence simulé et combiné à des informations externes, dont la voix et des ontologies médicales.
« Avec LLM4all, on va intégrer un modèle de la pathologie d’urgence dans le LLM en désignant des tâches auto-supervisées et semi-supervisées adaptées à nos objectifs médicaux, en collaboration étroite avec des experts du domaine. »
Ivan Lerner – Assistance Publique – Hôpitaux de Paris | AP-HP · Département de Santé Publique, Informatique Médicale et Biostatistique
LLM4All : vers la construction de – CLAIRE –, un modèle Open Source en langue française
Ainsi, LLM4All prépare actuellement la construction d’une première version d’un modèle dénommée – CLAIRE – visant à tester ces différentes approches sur un ensemble de datasets « propres » qui respectent les exigences visées par l’IA Act. L’objectif du consortium LLM4All est d’entraîner CLAIRE sur les prochaines semaines afin d’obtenir un modèle opérationnel avant la fin de mois d’octobre.