Projet PARTAGES

Démocratiser l’usage de l’intelligence artificielle générative sur les données textuelles de santé

PARTAGES (déveloPpement Avancé de communs numéRiques pour l’inTelligence Artificielle Générative En Santé) est un projet coordonné par la Plateforme des données de santé (Health Data Hub). Lauréat de l’appel à projets « Communs numériques pour l’IA générative » du plan France 2030, il vise à accélérer et démocratiser l’usage des grands modèles de langage (LLM) au service des professionnels de santé.

Son objectif : créer une dynamique nationale favorisant l’émergence de solutions ouvertes d’IA générative en santé, ainsi que leur utilisation au sein de l’écosystème de la santé, qu’il soit académique, de recherche ou industriel.

Un projet national d’envergure

Doté d’un budget de 9,4 millions d’euros, PARTAGES s’appuie sur un consortium inédit de 32 acteurs mobilisés à l’échelle nationale :

10 équipes de recherche (CNRS, Inria, universités),
20 groupes et établissements de santé publics et privés (AP-HP, Institut Curie, Centre Léon Bérard, Ramsay Santé, ELSAN, 12 CHUs...),
des acteurs DeepTech spécialisés en IA

Les livrables clés de PARTAGES

Les premiers livrables du projet PARTAGES sont maintenant disponibles en open source sur Hugging Face !

Corpus de comptes rendus de patients fictifs (PARHAF)

Base de données de 6 000 comptes rendus médicaux de patients fictifs rédigés par des médecins, couvrant 20 spécialités médicales :

Base de données PARHAF et son guide méthodologique encadrant la production et la relecture des comptes-rendus
4 sous-ensemble annotés du corpus associés à des cas d’usage spécifiques :

Corpus de données médicales (PARCOMED)

Des jeux de données médicales ouvertes (articles scientifiques, notices de médicaments, cas cliniques) qui serviront à l’entraînement de modèles de fondation :

Base de données PARCOMED utilisable à toute fin
Base de données PARCOMED réservée à des fins de recherche

Une approche en quatre grandes étapes

Développer des LLM médicaux
Constitution d’un corpus de données textuelles médicales en français, ouvert, pour entraîner, évaluer et diffuser plusieurs modèles de langage médicaux en open source.
Créer une base ouverte de comptes rendus médicaux fictifs
Création et mise à disposition en open data d’un corpus inédit de plus de 6 000 comptes rendus médicaux fictifs, couvrant 20 spécialités médicales.
Ce travail a mobilisé plus de 120 internes et jeunes médecins et servira notamment à l’entraînement de modèles spécialisés.
Développer des modèles pour des cas d’usage ciblés
À partir de ces ressources, PARTAGES développe sept modèles d’IA spécialisés, répondant à des cas d’usage à fort impact pour la recherche, l’innovation et le système de soins.
Mettre en place une plateforme nationale d’évaluation fédérée
Développement d’une plateforme souveraine d’évaluation fédérée, permettant d’évaluer des algorithmes sur des données réelles, dans un cadre réglementaire sécurisé.
Elle sera déployée dans 20 établissements de santé mais pourra être utilisée par tout établissement qui souhaiterait y avoir accès.

Des cas d’usage concrets pour la santé

PARTAGES adresse huit cas d’usage prioritaires, centrés sur l’analyse, la structuration et la génération de comptes rendus médicaux :

Data augmentation en générant des comptes-rendus fictifs
Pseudonymisation automatique des comptes-rendus médicaux
Codage médical automatisé (DIM) à la base de comptes-rendus médicaux

Résumé automatique de comptes-rendus médicaux

Génération de cas cliniques pour la formation médicale

Identification de biomarqueurs tumoraux en oncologie

Analyse de la réponse aux traitements en oncologie

Détection automatique en infectiologie, notamment pour lutter contre l’antibiorésistance

Une organisation en 8 lots de travail

Le premier lot est dédié à la coordination globale du projet PARTAGES, à la diffusion et à la valorisation de ses résultats. Il assure la bonne gouvernance du projet, la cohérence entre les différents lots de travail et le respect du calendrier, des objectifs scientifiques et des engagements réglementaires.

Ce second lot a pour objectif de créer une méthodologie rigoureuse pour la production et l’usage des données du projet (principalement les comptes-rendus médicaux fictifs) et d'assurer la mise en qualité de tous les jeux de données brutes utilisés pour l'entraînement des modèles du projet. Il appuie également la mise en qualité des données au niveau des établissements de santé pour l’évaluation des modèles.

Le lot n°3 est responsable de l'élaboration et du déploiement d'une méthodologie d'évaluation commune aux modèles de fondation et à tous les cas d'usage, ainsi que de l'analyse des résultats d'évaluation.

L'objectif du quatrième lot est de développer tous les modèles de fondation qui seront utilisés par les cas d'usage, incluant la spécialisation du LLM génératif généraliste sur le domaine médical en français, ainsi que le développement de modèles encodeurs de type BERT (Bidirectional Encoder Representations from Transformers).

Le lot n°5 vise la mise en place des infrastructures techniques nécessaires, notamment la création, l'adaptation et la documentation de la plateforme de validation fédérée dans laquelle chaque établissement de santé partenaire est un nœud.

L'objectif du sixième lot est de gérer le recrutement et le suivi des experts soignants (internes seniors et jeunes médecins) pour la constitution d'un corpus de 6 000 comptes-rendus de patients fictifs et pour les tâches d'annotation.

Le lot n° 7 assure le suivi des sujets légaux du projet, y compris le déploiement de l'architecture contractuelle et le suivi des travaux associés à l'utilisation locale des comptes-rendus des établissements de santé.

Ce dernier lot couvre le développement des modèles pour les cas d'usage précis identifiés plus haut.

Projet PARTAGES

Un projet national d’envergure

Les livrables clés de PARTAGES

Une approche en quatre grandes étapes

Des cas d’usage concrets pour la santé

Une organisation en 8 lots de travail

Lot n°1 – Coordination du projet et diffusion des résultats

Lot n° 2 – Fiabilisation des données

Lot n° 3 – Évaluation des modèles et des cas d'usages

Lot n° 4 – Développement des modèles de fondation

Lot n° 5 – Mise en place d’une plateforme d’évaluation fédérée

Lot n° 6 – Création d’un corpus de comptes-rendus médicaux fictifs

Lot n° 7 – Suivi juridique

Lot n° 8 – Développement des modèles de cas d'usages

Les acteurs de PARTAGES