N° 21549267

FIND-C France

Partager

Objectif(s) de la recherche et intérêt pour la santé publique

Finalité de l'étude

Recherche, étude, évaluation
Surveillance, veille et sécurité sanitaires

Objectifs poursuivis

Diagnostics
Prise en charge des patients
Politiques publiques de santé

Domaines médicaux investigués

Gastro-entérologie et hépatologie
Maladies infectieuses

Bénéfices attendus

La présente étude s'inscrit dans le cadre d'une initiative plus large visant à développer des algorithmes dans différents pays pour identifier les patients atteints d'une infection par le virus de l'hépatite C (VHC) non diagnostiqués et contribuer à l'ambitieux objectif de l'OMS d'éliminer l'infection par le VHC d'ici 2030. La détection précoce de l’infection facilite l'introduction rapide du traitement antiviral, ce qui conduit à une réduction de la morbi-mortalité et, et une réduction des coûts. Ainsi, la transmission du VHC peut être prévenue, et l'épidémie de VHC maitrisée.
L'objectif principal de cette étude est de développer un algorithme de machine learning (ML) capable d'identifier les personnes les plus à risque de développer une infection par le VHC en France en s’appuyant sur les précédents travaux américains. Après le développement et la validation de l'algorithme, la CNAM pourra décider de la manière dont le déploiement de l’algorithme sur la population française sera mis en œuvre. Dans cette perspective, la CNAM est un acteur actif de ce projet, et possède un rôle d'expertise scientifique.

Il s'agira d'une étude rétrospective sur les données de remboursement de l'assurance maladie (SNDS). La population d'étude sera les patients âgés de 18 ans ou plus, dont le sexe est connu, et sans interruption de leur couverture d'assurance maladie pendant la période d’étude. Deux cohortes seront constituées :
- Cohorte positive : patients incidents diagnostiqués VHC au cours de la période d'inclusion (du 01/12/2021 au 31/12/2024 );
- Cohorte « non étiquetée » : patients pour lesquels aucun remboursement lié au VHC n'a été observé au cours de la période d’étude (du 01/01/2015 au 31/12/2024).

Afin de développer le modèle prédictif, les prédicteurs utilisés dans les algorithmes américains seront transposés à l’architecture du SNDS. Ensuite, un « rolling-cross-sectional » design sera utilisé. Pour cela, la période d'inclusion sera divisée en :
- 14 fenêtres de sélection de 12 mois chacune, chacune étant décalée d’un mois par rapport à la précédente. Chaque fenêtre chevauchera donc la précédente sur 11 mois ;
- Une fenêtre « test » de 12 mois mise de côté, sans chevauchement avec les 14 précédentes. Cette fenêtre sera donc temporellement indépendante.
Un algorithme de ML sera entraîné sur les 14 fenêtres de sélection, en utilisant 4 années de données pré-diagnostic. L'algorithme sera testé sur la fenêtre « test » mise de côté. Les performances du modèle seront évaluées via la courbe de caractéristique des performances (ROC) et son aire sous la courbe (AUCROC), et via la courbe précision-rappel. La précision sera évaluée à plusieurs niveaux de sensibilité. Les performances de l'algorithme seront comparées à celles d’autres méthodes de dépistage telles que le dépistage universel, et/ou un dépistage sur des populations à risque.

Données utilisées

Catégories de données utilisées

Informations relatives aux bénéficiaires de soins et de prestations médico-sociales
Informations relatives à la prise en charge sanitaire, médico-sociale et financière associées à chaque bénéficiaire
Informations relatives aux pathologies des personnes concernées
Informations recueillies à l'occasion d'activités de prévention, de diagnostic, de soins ou de suivi social et médico-social
Informations relatives aux conditions sociales, environnementales, aux habitudes de vie et au contexte socio-économique des personnes concernées

Autre(s) catégorie(s) de donnée(s) utilisée(s)

Pour cette étude, l'ensemble des données du SNIIRAM et du PMSI (MCO, psychiatrie, SSR et HAD) sera utilisé.
Egalement, le référentiel médicalisé (IR_IMB_R) sera utilisé (la période sera alignée sur celle du DCIR) ainsi que le référentiel de pharmacie (IR_PHA_R).

Source de données utilisées

Base principale du SNDS

Composante(s) de la base principale du SNDS mobilisée(s)

DCIR
PMSI

Appariement entre les sources de données mobilisées

  Non

Variables sensibles utilisées

Année et mois de naissance
Date de soins (JJ/MM/AAAA)
Date de décès (JJ/MM/AAAA)
Commune de résidence de la personne étudiée

Justification du recours à cette(ces) variable(s) sensible(s)

Les justifications sont les suivantes:
1 L’âge des patients est un prédicteur important pour l’algorithme
2 La consommation des patients et les durées entre consommations constituent des prédicteurs pour l’algorithme
3 Afin d’exclure d’une cross-section un patient non étiqueté qui serait décédé avant le début de cette cross-section, lors de la phase d’entrainement de l’algorithme
4 La commune de résidence est nécessaire afin d’attribuer l’indice de défavorisation social prévu au protocole

Recours au numéro d'identification des professionnels de santé

  Non

Plateforme utilisée pour l'analyse des données

Portail de la CNAM

Acteurs finançant et participant à l'étude

Responsable(s) de traitement

Type de responsable de traitement 1

Entreprise du médicament

Responsable de traitement 1

Gilead Sciences, Inc.

333 Lakeside Drive CA-94404 Foster City Etats-Unis d'Amérique

Localisation du responsable de traitement 1
  Hors UE
Représentant du responsable de traitement 1

Responsable(s) de mise en oeuvre non cités comme responsable de traitement

Responsable de mise en oeuvre non cité comme responsable de traitement 1

IQVIA Opérations France

17bis Place Des Reflets 92400 Courbevoie 92400 Courbevoie France

Calendrier du projet

Date de début : 21/03/2024 – Date de fin : 31/12/2026 Durée de l'étude : 33
Etape 1 : Dépôt du projet
23/12/2024
Etape 2 : Complétude
23/12/2024
Etape 3 : Avis CEREES/CESREES
23/12/2024
Etape 4 : Sens avis CEREES/CESREES
Favorable avec recommandation

Base légale pour accéder aux données

Encadrement réglementaire

Autorisation CNIL

Destinataire(s) des données

Destinataire des données 1

IQVIA Opérations France

17bis Place des Reflets 92400 Courbevoie France

Durée de conservation aux fins du projet (en années)

3

Existence d'une prise de décision automatisée

  Non

Fondement juridique

Article 6 du RGPD (Licéité du traitement)

(1)(f) intérêts légitimes du responsable de traitement

Article 9 du RGPD (Exception permettant de traiter des données de santé)

(2)(j) archives, recherche scientifique ou historique, ou statistiques

Transfert de données personnelles vers un pays hors UE

  Non

Droits des personnes

L'étude sera menée dans le respect du cadre éthique et juridique français, dont les grands principes sont le respect des personnes, la bienfaisance, la non-malfaisance et la justice.

Conformément au RGPD et à la Loi Informatique et Libertés, les patients disposent par principe d'un droit d'accès, de rectification, de limitation, d’opposition sur leurs données. Pour cela, les patients peuvent s'adresser, en justifiant de leur identité par tout moyen, directement au directeur de la Plateforme des Données de Santé (Health Data Hub, https ://www.health-data-hub.fr/contact) ou au directeur de l'organisme gestionnaire d'assurance maladie obligatoire dont ils relèvent.

Seules les données nécessaires à la réalisation des objectifs seront mises à la disposition d'IQVIA France, responsable de la réalisation de l'étude et soumises au principe de minimisation du partage des données. Les données mises à disposition seront issues du SNDS et pseudonymisées. Aucune donnée supplémentaire ne sera traitée, telles que les données relatives à la qualité de vie. Les patients sont informés collectivement de l'existence du SNDS et de la réutilisation possible de leurs données à des fins de recherche sur différents sites web, sur des affiches ou même sur des documents livrés.

Délégué à la protection des données

Gilead Sciences, Inc

333 Lakeside Drive CA-94404 Foster City États-Unis