FIND-C France
Objectif(s) de la recherche et intérêt pour la santé publique
Finalité de l'étude
Objectifs poursuivis
Domaines médicaux investigués
Bénéfices attendus
La présente étude s'inscrit dans le cadre d'une initiative plus large visant à développer des algorithmes dans différents pays pour identifier les patients atteints d'une infection par le virus de l'hépatite C (VHC) non diagnostiqués et contribuer à l'ambitieux objectif de l'OMS d'éliminer l'infection par le VHC d'ici 2030. La détection précoce de l’infection facilite l'introduction rapide du traitement antiviral, ce qui conduit à une réduction de la morbi-mortalité et, et une réduction des coûts. Ainsi, la transmission du VHC peut être prévenue, et l'épidémie de VHC maitrisée.
L'objectif principal de cette étude est de développer un algorithme de machine learning (ML) capable d'identifier les personnes les plus à risque de développer une infection par le VHC en France en s’appuyant sur les précédents travaux américains. Après le développement et la validation de l'algorithme, la CNAM pourra décider de la manière dont le déploiement de l’algorithme sur la population française sera mis en œuvre. Dans cette perspective, la CNAM est un acteur actif de ce projet, et possède un rôle d'expertise scientifique.
Il s'agira d'une étude rétrospective sur les données de remboursement de l'assurance maladie (SNDS). La population d'étude sera les patients âgés de 18 ans ou plus, dont le sexe est connu, et sans interruption de leur couverture d'assurance maladie pendant la période d’étude. Deux cohortes seront constituées :
- Cohorte positive : patients incidents diagnostiqués VHC au cours de la période d'inclusion (du 01/12/2021 au 31/12/2024 );
- Cohorte « non étiquetée » : patients pour lesquels aucun remboursement lié au VHC n'a été observé au cours de la période d’étude (du 01/01/2015 au 31/12/2024).
Afin de développer le modèle prédictif, les prédicteurs utilisés dans les algorithmes américains seront transposés à l’architecture du SNDS. Ensuite, un « rolling-cross-sectional » design sera utilisé. Pour cela, la période d'inclusion sera divisée en :
- 14 fenêtres de sélection de 12 mois chacune, chacune étant décalée d’un mois par rapport à la précédente. Chaque fenêtre chevauchera donc la précédente sur 11 mois ;
- Une fenêtre « test » de 12 mois mise de côté, sans chevauchement avec les 14 précédentes. Cette fenêtre sera donc temporellement indépendante.
Un algorithme de ML sera entraîné sur les 14 fenêtres de sélection, en utilisant 4 années de données pré-diagnostic. L'algorithme sera testé sur la fenêtre « test » mise de côté. Les performances du modèle seront évaluées via la courbe de caractéristique des performances (ROC) et son aire sous la courbe (AUCROC), et via la courbe précision-rappel. La précision sera évaluée à plusieurs niveaux de sensibilité. Les performances de l'algorithme seront comparées à celles d’autres méthodes de dépistage telles que le dépistage universel, et/ou un dépistage sur des populations à risque.
Données utilisées
Catégories de données utilisées
Autre(s) catégorie(s) de donnée(s) utilisée(s)
Pour cette étude, l'ensemble des données du SNIIRAM et du PMSI (MCO, psychiatrie, SSR et HAD) sera utilisé.
Egalement, le référentiel médicalisé (IR_IMB_R) sera utilisé (la période sera alignée sur celle du DCIR) ainsi que le référentiel de pharmacie (IR_PHA_R).
Source de données utilisées
Composante(s) de la base principale du SNDS mobilisée(s)
Appariement entre les sources de données mobilisées
Variables sensibles utilisées
Justification du recours à cette(ces) variable(s) sensible(s)
Les justifications sont les suivantes:
1 L’âge des patients est un prédicteur important pour l’algorithme
2 La consommation des patients et les durées entre consommations constituent des prédicteurs pour l’algorithme
3 Afin d’exclure d’une cross-section un patient non étiqueté qui serait décédé avant le début de cette cross-section, lors de la phase d’entrainement de l’algorithme
4 La commune de résidence est nécessaire afin d’attribuer l’indice de défavorisation social prévu au protocole
Recours au numéro d'identification des professionnels de santé
Plateforme utilisée pour l'analyse des données
Acteurs finançant et participant à l'étude
Responsable(s) de traitement
Type de responsable de traitement 1
Responsable de traitement 1
Localisation du responsable de traitement 1
Représentant du responsable de traitement 1
Responsable(s) de mise en oeuvre non cités comme responsable de traitement
Responsable de mise en oeuvre non cité comme responsable de traitement 1
Calendrier du projet
Base légale pour accéder aux données
Encadrement réglementaire
Durée de conservation aux fins du projet (en années)
3
Existence d'une prise de décision automatisée
Fondement juridique
Article 6 du RGPD (Licéité du traitement)
Article 9 du RGPD (Exception permettant de traiter des données de santé)
Transfert de données personnelles vers un pays hors UE
Droits des personnes
L'étude sera menée dans le respect du cadre éthique et juridique français, dont les grands principes sont le respect des personnes, la bienfaisance, la non-malfaisance et la justice.
Conformément au RGPD et à la Loi Informatique et Libertés, les patients disposent par principe d'un droit d'accès, de rectification, de limitation, d’opposition sur leurs données. Pour cela, les patients peuvent s'adresser, en justifiant de leur identité par tout moyen, directement au directeur de la Plateforme des Données de Santé (Health Data Hub, https ://www.health-data-hub.fr/contact) ou au directeur de l'organisme gestionnaire d'assurance maladie obligatoire dont ils relèvent.
Seules les données nécessaires à la réalisation des objectifs seront mises à la disposition d'IQVIA France, responsable de la réalisation de l'étude et soumises au principe de minimisation du partage des données. Les données mises à disposition seront issues du SNDS et pseudonymisées. Aucune donnée supplémentaire ne sera traitée, telles que les données relatives à la qualité de vie. Les patients sont informés collectivement de l'existence du SNDS et de la réutilisation possible de leurs données à des fins de recherche sur différents sites web, sur des affiches ou même sur des documents livrés.