Propolos : Floutage de la base principale du SNDS pour accélérer le développement des méthodes pour analyser les parcours de soin

Objectif(s) de la recherche et intérêt pour la santé publique

Finalité de l'étude

Recherche, étude, évaluation

Objectifs poursuivis

Compréhension des maladies

Domaines médicaux investigués

Maladies rares

Bénéfices attendus

Le Système National des Données de Santé (SNDS) est l’une des plus vastes bases de données de santé au monde. Ce potentiel unique en fait une ressource majeure pour la recherche et l’innovation en santé. Pourtant, il reste encore largement sous-exploité, en grande partie à cause des contraintes réglementaires qui encadrent son accès. En effet, les données du SNDS sont pseudonymisées et non anonymisées. Les données conservent donc leur caractère personnel et restent soumises au RGPD, ce qui justifie un processus d’accès particulièrement strict et complexe. Au-delà de cet enjeu juridique, les données du SNDS présentent des défis techniques considérables : elles sont extrêmement éparses (contenant des centaines de milliers de codes différents, dont seulement quelques centaines au maximum par patient) et caractérisées par une longitudinalité complexe (informations collectées à des moments différents selon les parcours de soins individuels). Cette complexité structurelle renforce le besoin d'accéder à des données réalistes pour développer et tester des algorithmes d'analyse.
L’exemple des maladies rares illustre bien ces enjeux. Avec plus de 6 000 pathologies recensées, les patients concernés connaissent souvent une errance diagnostique de plusieurs années. Or, des algorithmes d’identification précoce, fondés sur l’analyse des parcours de soins, pourraient réduire considérablement ce délai. Pour répondre à cet objectif, la cellule opérationnelle de la BNDMR a mis en place une étude pilote, Drómos, qui vise à décrire les parcours de soins typiques des patients atteints des maladies rares. Mais faute d’accès suffisant aux données, peu de chercheurs peuvent aujourd’hui travailler sur des modèles pour réduire l’errance. Pour progresser, il est nécessaire de disposer de données anonymisées mais statistiquement fidèles à la réalité, afin de permettre le développement d’outils utiles à la recherche et à la prise en charge des patients.
Notre projet vise le développement d’un jeu de données flouté du SNDS, anonyme, conservant les propriétés essentielles pour la recherche méthodologique permettant de développer des méthodes pour analyser le parcours de soin des patients, à partir d'un jeu de données issu de la base catalogue BNDMR chainée au SNDS. Ce jeu de données rassemblera un très grand nombre de maladies rares (900 maladies pour laquelle au moins 100 patients ont un diagnostic confirmé) aux caractéristiques variées, offrant ainsi un support adapté au développement de méthodes généralisables à un large éventail de pathologies.
Notre démarche de développement et d'évaluation de la base de données floutée produite se décomposera en 5 étapes principales :
1. Sélection des variables pertinentes pour l’étude du parcours de soin
2. Généralisation et perturbation aléatoire des variables
La perturbation aléatoire sera appliquée aux caractéristiques individuelles et temporelles. La généralisation sera appliquée aux entités de soin et aux traitements. Cette étape de généralisation sera suivie par une étape de réattribution pour obtenir des données anonymes de granularité similaire. Les patients présentant des parcours de soins atypiques, identifiés par des statistiques descriptives sur la population, seront également supprimés.
3. Construction d’un modèle génératif de séquences synthétiques de soin par maladie
Il n’est pas possible de garantir la k-anonymisation sur le SNDS en raison de la très forte granularité, de la dimension élevée et de l’hétérogénéité des données qu’il contient. Les données des cas seront ainsi générées pour la partie du parcours de soins spécifiquement liée à la maladie, à l’aide d’un modèle génératif séquentiel entraîné sous confidentialité différentielle. L’intérêt de cette approche est de sélectionner au préalable un ensemble restreint d’événements caractéristiques de chaque maladie, ce qui permet de constituer pour chacune d’elles un jeu de données moins clairsemé. Cette réduction de la sparsité améliore la cohérence statistique des trajectoires et facilite l’estimation du modèle génératif.
4. Construction du jeu de données floutées des cas.
Les données synthétiques produites devront ensuite être appliquées sur un « bruit de fond » représentant la consommation de soin d’un individu non atteint par la maladie. Pour cela, nous utiliserons pour chaque cas un de ses témoins pour lequel les évènements spécifiques de la maladie identifiés précédemment auront été supprimés et nous lui ajouterons une séquence d’évènements générées en prenant la même date index que le cas pour le début de la maladie pour la partie spécifique à la maladie.
5. Construction d’un jeu de données floutées des témoins
Pour chaque cas, un unique témoin synthétique sera ensuite généré à partir du témoin non retenu lors de l’étape précédente. Un modèle génératif pour les témoins d’une maladie donnée sera ensuite estimé sur le sous-ensemble d’évènements spécifiques de cette maladie. Pour le témoin flouté, ces évènements seront ensuite supprimés et remplacés par une séquence générée grâce à ce modèle.

Données utilisées

Catégories de données utilisées

Informations relatives aux bénéficiaires de soins et de prestations médico-sociales

Informations relatives aux pathologies des personnes concernées

Informations relatives à la santé, aux conditions sociales, environnementales, aux habitudes de vie et au contexte socio-économique des personnes concernées

Informations recueillies à l'occasion d'activités de prévention, de diagnostic, de soins ou de suivi social et médico-social

Informations relatives à la prise en charge sanitaire, médico-sociale et financière associées à chaque bénéficiaire

Informations médico-sociales relatives à la situation des personnes en situation de handicap

Autre(s) catégorie(s) de donnée(s) utilisée(s)

Informations relatives au suivi dans les centres experts maladies rares

Source de données utilisées

Autres sources

Autre(s) source(s) de donnée(s) mobilisée(s)

Base(s) de suivi/surveillance

Appariement entre les sources de données mobilisées

Non

Variables sensibles utilisées

Commune de résidence de la personne étudiée

Année et mois de naissance

Justification du recours à cette(ces) variable(s) sensible(s)

Les mois et année de naissance et de décès sont également nécessaires afin de construire des modèles génératifs crédibles. Par ailleurs, un nombre important de maladies étudiées étant congénitales, le parcours de soin au cours des premiers mois de vie est très spécifique et l’information sur la date de naissance est importante pour ces modèles génératifs.
Le lieu de résidence (commune) qui est généralisé à la première étape de la procédure d’anonymisation pour attribuer une commune avec des caractéristiques proches en terme d’accès aux soins et de défavorisation sociale

Recours au numéro d'identification des professionnels de santé

Non

Plateforme utilisée pour l'analyse des données

Plateforme technologique du HDH

Acteurs finançant et participant à l'étude

Responsable(s) de traitement

Type de responsable de traitement 1

Université, école, structure de recherches dans le domaine IA / mathématiques

Responsable de traitement 1

Centre Inria Paris

La Plaine de Voluceau 78150 Le Chesnay-Rocquencourt 75015 Le Chesnay-Rocquencourt France

Localisation du responsable de traitement 1

Dans l'UE

Représentant du responsable de traitement 1

eric.fleury@inria.fr

Responsable(s) de mise en oeuvre non cités comme responsable de traitement

Responsable de mise en oeuvre non cité comme responsable de traitement 1

UMR1386 - HeKA

Rue d'Oradour-Sur-Glane 75015 Paris 75015 Paris France

Calendrier du projet

Date de début : 01/09/2025 – Date de fin : 01/09/2028 Durée de l'étude : 36

Etape 1 : Dépôt du projet

18/03/2026

Etape 2 : Complétude

18/03/2026

Base légale pour accéder aux données

Encadrement réglementaire

Autorisation CNIL

Destinataire(s) des données

Destinataire des données 1

Anne-Sophie Jannot

Rue d'Oradour-Sur-Glane 75015 Paris 75015 Paris France

Durée de conservation aux fins du projet (en années)

Existence d'une prise de décision automatisée

Non

Fondement juridique

Article 6 du RGPD (Licéité du traitement)

(1)(f) intérêts légitimes du responsable de traitement

Article 9 du RGPD (Exception permettant de traiter des données de santé)

(2)(j) archives, recherche scientifique ou historique, ou statistiques

Transfert de données personnelles vers un pays hors UE

Non

Droits des personnes

Les personnes incluses dans les études bénéficieront du droit d’accès, de rectification, à la limitation, d’opposition, à l’effacement concernant leurs données personnelles. Elles peuvent exercer ces droits par le formulaire web https://www.bndmr.fr/espace-patients/mes-droits/ ou protection.donnees.dsi@aphp.fr, tel qu’indiqué au sein de la note d’information individuelle pour information préalable.
Les patients reçoivent depuis 2020 une note d’information individuelle sur l’EDS BNDMR lors de leur prise en charge dans un centre de référence. Dans cette note d’information, la possibilité de chaînage avec le SNDS est mentionnée et depuis 2025 le transfert vers la plateforme de données de santé. Les patients non revenus en centre expert depuis 2020 n’ont pas reçu cette note d’information individuelle. Pour ces patients correspondant au cas III), une dispense d’information avait été obtenue pour le projet Drómos nécessaire également dans le cadre de Propolos afin de disposer d’un ensemble de données de taille suffisante pour chaque maladie pour pouvoir élaborer un modèle génératif par maladie

Délégué à la protection des données

Centre Inria de Paris

48 Rue Barrault 75013 Paris 75013 Paris France