PROPOLOS
Partenaires
- L’équipe de Biomédecine des Systèmes, dirigée par Anaïs Baudot, développe des algorithmes et stratégies d’intégration de données multimodales pour étudier les pathologies humaines.
- L’unité de recherche HeKA développe des méthodes, modèles et outils pour un système de santé apprenant, en particulier pour les maladies rares et le cancer.
- La Banque Nationale de Données Maladies Rares (BNDMR) vise à centraliser des données cliniques et épidémiologiques afin d'améliorer la prise en charge des patients, de faciliter la recherche et d'optimiser les politiques de santé.
- L’équipe MosAIk au sein du LORIA est entièrement dédié au domaine de l'intelligence artificielle dans ses 2 composantes numériques et symboliques et leurs interactions
Contexte
La base principale du Système National des Données de Santé (SNDS) est l’une des plus vastes bases de données de santé au monde, rassemblant les informations de remboursement de l’Assurance Maladie, les données hospitalières et les causes médicales de décès, couvrant ainsi plus de 67 millions de personnes en France. Ce potentiel unique en fait une ressource majeure pour la recherche et l’innovation en santé. Pourtant, elle reste encore largement sous-exploitée, en grande partie à cause des contraintes réglementaires qui encadrent son accès.
En effet, les données du SNDS sont pseudonymisées et non anonymisées. La différence est essentielle :
- L’anonymisation consiste à rendre impossible, de façon irréversible, l’identification d’une personne. Une fois anonymisées, les données perdent leur caractère personnel et sortent du champ d’application du RGPD.
- La pseudonymisation, en revanche, empêche seulement l’identification directe, mais laisse ouverte la possibilité d’une réidentification en recourant à des informations complémentaires. Les données conservent donc leur caractère personnel et restent soumises au RGPD, ce qui justifie un processus d’accès particulièrement strict et complexe.
L’exemple des maladies rares illustre bien l’importance de réduire le délai d’accès aux données de santé. Avec plus de 6 000 pathologies recensées, les patients concernés connaissent souvent une errance diagnostique de plusieurs années. Or, des algorithmes d’identification précoce, fondés sur l’analyse des parcours de soins, pourraient réduire considérablement ce délai.
Dans ce cadre, rendre accessibles des données anonymisées et statistiquement fidèles à la réalité permettra de faciliter le développement d’outils utiles à la recherche et à la prise en charge des patients.
Objectif du projet
Le projet Propolos est porté par HeKA, une unité de recherche conjointe d’Inria, de l’Inserm et de l’Université Paris Cité, en partenariat avec l’équipe de Biomédecine des Systèmes (Centre de Génétique Médicale de Marseille), la Banque Nationale de Données Maladies Rares (BNDMR) et MosAIk (LORIA).
L’objectif du projet est de développer un jeu de données “flouté” issu de la base principale du SNDS. Ce jeu de données sera anonyme, tout en conservant les propriétés statistiques essentielles à la recherche. Il constituera ainsi un support inédit pour concevoir et tester des méthodes d’analyse des parcours de soins des patients.
Les bénéfices attendus sont multiples :
- Faciliter l’accès aux données pour les chercheurs, tout en garantissant la confidentialité des patients ;
- Favoriser le développement d’algorithmes innovants, notamment en santé ;
- Soutenir l’organisation de data challenges, dont celui prévu dans le cadre du projet M4DI, dédié à l’identification précoce de patients potentiellement atteints de maladies rares à partir de l’analyse de leurs parcours de soins. Cette compétition en science des données vise le développement d’un jeu de données flouté de la base principale du SNDS, anonyme et conservant les corrélations au sein de la base de données.
Méthodologie et caractère innovant
Propolos s’appuie sur l’utilisation secondaire des données du projet Dromos qui a permis de réaliser le chaînage entre les données de la Banque Nationale de Données Maladies Rares (BNDMR) et de la base principale du SNDS. Cet important chaînage de données réalisé sur la plateforme technologique du HDH avait déjà été mis à profit dans le cadre du projet Dromos, qui inclut les données de près de 400 000 patients souffrant de plus de 500 maladies rares différentes.
L’algorithme de floutage des données développé dans le cadre du projet Propolos combine une généralisation des données trop précises (par exemple un âge exact remplacé par une tranche d’âge), ce qui réduit les risques d’identification individuelle suivie d’une réattribution d’un âge au patient dans la tranche d’âge correspondante afin d’obtenir une base de données ayant les mêmes variables que la base initiale.
Une étape supplémentaire permet ensuite de réajuster les données pour que leur répartition reste fidèle à celle de la base d’origine. Cette méthode se distingue par sa capacité à préserver les liens et les tendances entre les données, tout en rendant impossible toute réidentification. Elle ouvre ainsi de nouvelles perspectives pour la recherche, en permettant le développement et le test d’algorithmes innovants, notamment dans des domaines sensibles comme la détection précoce des maladies rares. À terme, cette approche pourrait lever un frein majeur à l’innovation en santé publique en France.
Le projet Propolos est lauréat de l’appel à manifestation d’intérêt visant à alimenter la Bibliothèque Ouverte d’Algorithmes en Santé (BOAS). Dans ce cadre, les porteurs bénéficient d’un soutien réglementaire, technique et financier et d’un accompagnement dans l’ouverture des résultats de la part du Health Data Hub.
Résultat / Livrable attendu
Le livrable principal du projet est un jeu de données standardisées au format OMOP contenant uniquement des individus floutés. Ce jeu est issu de la combinaison de plusieurs stratégies de floutage, ne conservant que les individus démontrés comme non individualisables pour l'ensemble des métriques de distance évaluées.
Une documentation technique détaillant les transformations appliquées et les algorithmes de floutage utilisés, ainsi que le code implémentant notre méthodologie sera également publiée en open source.