Projet PARTAGES
Démocratiser l’usage de l’intelligence artificielle générative sur les données textuelles de santé
PARTAGES (déveloPpement Avancé de communs numéRiques pour l’inTelligence Artificielle Générative En Santé) est un projet coordonné par la Plateforme des données de santé (Health Data Hub). Lauréat de l’appel à projets « Communs numériques pour l’IA générative » du plan France 2030, il vise à accélérer et démocratiser l’usage des grands modèles de langage (LLM) au service des professionnels de santé.
Son objectif : créer une dynamique nationale favorisant l’émergence de solutions ouvertes d’IA générative en santé, ainsi que leur utilisation au sein de l’écosystème de la santé, qu’il soit académique, de recherche ou industriel.

Un projet national d’envergure
Doté d’un budget de 9,4 millions d’euros, PARTAGES s’appuie sur un consortium inédit de 32 acteurs mobilisés à l’échelle nationale :
- 10 équipes de recherche (CNRS, Inria, universités),
- 20 établissements de santé publics et privés (AP-HP, Institut Curie, Centre Léon Bérard, Ramsay Santé, ELSAN, 12 CHUs...),
- des acteurs DeepTech spécialisés en IA, dont Mistral et ReciTAL.

Une approche en quatre grandes étapes
Développer des LLM médicaux
Constitution d’un corpus de données textuelles médicales en français, ouvert, pour entraîner, évaluer et diffuser plusieurs modèles de langage médicaux en open source.
Créer une base ouverte de comptes rendus médicaux fictifs
Création et mise à disposition en open data d’un corpus inédit de plus de 5 000 comptes rendus médicaux fictifs, dont 1 450 annotés, couvrant 20 spécialités.
Ce travail a mobilisé plus de 100 internes et jeunes médecins et servira notamment à l’entraînement de modèles spécialisés.
Développer des modèles pour des cas d’usage ciblés
À partir de ces ressources, PARTAGES développe sept modèles d’IA spécialisés, répondant à des cas d’usage à fort impact pour la recherche, l’innovation et le système de soins.
Mettre en place une plateforme nationale d’évaluation fédérée
Développement d’une plateforme souveraine d’évaluation fédérée, permettant d’évaluer des algorithmes sur des données réelles, dans un cadre réglementaire sécurisé.
Elle sera déployée dans 20 établissements de santé mais pourra être utilisée par tout établissement qui souhaiterait y avoir accès.

Des cas d’usage concrets pour la santé
PARTAGES adresse huit cas d’usage prioritaires, centrés sur l’analyse, la structuration et la génération de comptes rendus médicaux :
Data augmentation en générant des comptes-rendus fictifs
Pseudonymisation automatique des comptes-rendus médicaux
Codage médical automatisé (DIM) à la base de comptes-rendus médicaux
Résumé automatique de comptes-rendus médicaux
Génération de cas cliniques pour la formation médicale
Identification de biomarqueurs tumoraux en oncologie
Analyse de la réponse aux traitements en oncologie
Détection automatique en infectiologie, notamment pour lutter contre l’antibiorésistance
Une organisation en 8 lots de travail
Le premier lot est dédié à la coordination globale du projet PARTAGES, à la diffusion et à la valorisation de ses résultats. Il assure la bonne gouvernance du projet, la cohérence entre les différents lots de travail et le respect du calendrier, des objectifs scientifiques et des engagements réglementaires.
Ce second lot a pour objectif de créer une méthodologie rigoureuse pour la production et l’usage des données du projet (principalement les comptes-rendus médicaux fictifs) et d'assurer la mise en qualité de tous les jeux de données brutes utilisés pour l'entraînement des modèles du projet. Il appuie également la mise en qualité des données au niveau des établissements de santé pour l’évaluation des modèles.
Le lot n°3 est responsable de l'élaboration et du déploiement d'une méthodologie d'évaluation commune aux modèles de fondation et à tous les cas d'usage, ainsi que de l'analyse des résultats d'évaluation.
L'objectif du quatrième lot est de développer tous les modèles de fondation qui seront utilisés par les cas d'usage, incluant la spécialisation du LLM génératif généraliste sur le domaine médical en français, ainsi que le développement de modèles encodeurs de type BERT (Bidirectional Encoder Representations from Transformers).
Le lot n°5 vise la mise en place des infrastructures techniques nécessaires, notamment la création, l'adaptation et la documentation de la plateforme de validation fédérée dans laquelle chaque établissement de santé partenaire est un nœud.
L'objectif du sixième lot est de gérer le recrutement et le suivi des experts soignants (internes seniors et jeunes médecins) pour la constitution d'un corpus de 5 000 comptes-rendus de patients fictifs et pour les tâches d'annotation.
Le lot n° 7 assure le suivi des sujets légaux du projet, y compris le déploiement de l'architecture contractuelle et le suivi des travaux associés à l'utilisation locale des comptes-rendus des établissements de santé.
Ce dernier lot couvre le développement des modèles pour les cas d'usage précis identifiés plus haut.