Pseudonymiser les comptes-rendus médicaux (Cas d'usage 1 projet PARTAGES)
Objectif(s) de la recherche et intérêt pour la santé publique
Finalité de l'étude
Objectifs poursuivis
Domaines médicaux investigués
Bénéfices attendus
Les comptes rendus médicaux constituent une source majeure d’information pour la recherche clinique, l’épidémiologie, l’organisation des soins et le développement de méthodes d’intelligence artificielle. Ils contiennent toutefois de nombreuses informations identifiantes ou quasi-identifiantes, telles que les noms, prénoms, dates, adresses, numéros, lieux ou autres informations contextuelles sensibles. Leur utilisation secondaire nécessite donc une étape préalable de pseudonymisation.
Le projet PARTAGES vise à répondre à ces enjeux en développant un modèle de pseudonymisation open source, adaptable à plusieurs établissements, entraîné à partir de données fictives et évalué sur des données de vie réelle au moyen d’une plateforme distribuée installée chez chaque partenaire. Cette approche permet de mutualiser le développement méthodologique tout en évitant les transferts de données sensibles entre établissements.
L’étude porte sur des comptes rendus médicaux textuels.
Trois ensembles documentaires sont mobilisés :
1. Comptes rendus fictifs annotés produits dans le cadre du projet PARTAGES, utilisés pour le développement initial du modèle.
Volume attendu : environ 5000 comptes rendus fictifs.
2. Comptes rendus de vie réelle de l’AP-HP annotés au sein de l’EDS de l’AP-HP, utilisés pour l’affinage local de certains modèles dans le cadre du projet autorisé correspondant.
Volume indicatif : environ 4000 comptes rendus cliniques pour environ 4000 patients.
Profondeur d’historique : 2012–2025.
3. Comptes rendus de vie réelle des établissements partenaires, utilisés localement pour l’évaluation distribuée des modèles.
Volume attendu pour l’évaluation du cas d’usage pseudonymisation :
a. minimum : 100 comptes rendus par établissement
b. idéal : 400 comptes rendus par établissement
Les CR médicaux qui seront notamment annotés et soumis à l'algorithme testés ne sont pas pseudonymisés avant traitement. Ils contiennent donc l'ensemble des informations directement identifiantes et notamment nominatives qui peuvent se trouver dans un CR médical : données
d’identification (nom, prénom, éventuellement identité de professionnels), identifiants administratifs/hospitaliers (p. ex. INS, NIR/NSS, IPP/IEP ou équivalents), données temporelles identifiantes (date de naissance et dates d’évènements de soins), coordonnées et localisation
(adresse, code postal, ville, pays) ainsi que coordonnées numériques (email, numéro de téléphone/fax, URL). Ces éléments, annotés dans les documents par les établissements de santé, sont précisément ceux visés par le projet d’évaluation d’algorithmes de pseudonymisation, afin de
mesurer la capacité des méthodes à détecter et masquer les informations identifiantes tout en préservant le contenu médical utile à l’analyse.
Le projet PARTAGES est un projet d’ampleur nationale dont le mode d'organisation entre les partenaires et implique la présence d'une multitude d'établissements de santé évaluateurs (à la fois responsables de la mise en œuvre et destinataires des données). Le détail de l'architecture du projet est décrit dans le protocole scientifique.
Données utilisées
Catégories de données utilisées
Autre(s) catégorie(s) de donnée(s) utilisée(s)
Données d’identification : nom(s), prénom(s)
Données administratives d’identification (p. ex. INS, NIR/NSS, IPP/IEP ou équivalents),
Age, sexe et date de naissance
Coordonnées (ex : adresse postal, électronique, numéro de téléphone, commune de résidence)
Données temporelles (ex dates d’évènements de soins)
Données de santé (ex : taille/poids, examens, prescriptions, antécédents, pathologies).
Origine ethnique
Situation personnelle ou familiale
Mode de vie
Vie sexuelle
Habitudes de vie (ex : addictions, dépendance, activité sportive).
Source de données utilisées
Autre(s) source(s) de donnée(s) mobilisée(s)
Appariement entre les sources de données mobilisées
Variables sensibles utilisées
Justification du recours à cette(ces) variable(s) sensible(s)
Des CR médicaux bruts sont nécessaires à la finalité scientifique (test d'une solution de pseudonymisation). Tout l'intérêt de la démarche est d'évaluer la qualité de la pseudonymisation de documents médicaux contenant de nombreuses informations nominatives ou
directement/indirectement identifiantes de manière obligatoire (connue à l'avance) ou incidente (dépendant du remplissage de chaque CR médical) tout en préservant la qualité du contenu médical du document.
Recours au numéro d'identification des professionnels de santé
Plateforme utilisée pour l'analyse des données
Acteurs finançant et participant à l'étude
Responsable(s) de traitement
Type de responsable de traitement 1
Responsable de traitement 1
Localisation du responsable de traitement 1
Représentant du responsable de traitement 1
Responsable(s) de mise en oeuvre non cités comme responsable de traitement
Responsable de mise en oeuvre non cité comme responsable de traitement 1
Responsable de mise en oeuvre non cité comme responsable de traitement 2
Responsable de mise en oeuvre non cité comme responsable de traitement 3
Calendrier du projet
Base légale pour accéder aux données
Encadrement réglementaire
Destinataire(s) des données
Destinataire des données 1
Destinataire des données 2
Durée de conservation aux fins du projet (en années)
2
Existence d'une prise de décision automatisée
Fondement juridique
Article 6 du RGPD (Licéité du traitement)
Article 9 du RGPD (Exception permettant de traiter des données de santé)
Transfert de données personnelles vers un pays hors UE
Droits des personnes
En plus de la remise d'une note d'information par les établissements de santé évaluateur à destination de leurs patients, les informations relatives au projet PARTAGES seront publiées sur le portail de transparence sur le site des établissements évaluateurs concernés.
L'AP-HP, en tant que responsable de traitement, s'assure que les personnes concernées sont informées conformément à la MR-004 de la CNIL. L'AP-HP détermine le contenu de l'information à transmettre aux personnes concernées. Les modalités précises de remise de l'information relèvent néanmoins du cadre mis en place par chaque établissement évaluateur pour l’usage secondaire de ses données. En effet, le projet PARTAGES repose sur la sollicitation des entrepôts de données de santé des établissements participants, lesquels disposent déjà de circuits d'information éprouvés (portails de transparence). Chaque établissement évaluateur, par le biais de son portail de transparence ou d’une note d’information individuelle dédiée (voir le modèle soumis en annexe), est chargé d’informer les personnes concernées de la réutilisation de leurs données personnelles dans le cadre de cette recherche. Cette responsabilité sera écrite dans le contrat de sous-traitance établi entre l'AP-HP et chaque établissement évaluateur. Ce même contrat précisera que l'établissement évaluateur sera désigné comme point de contact privilégié des personnes concernées pour l'exercice de leurs droits. Ce schéma est optimal aussi bien du point de vue de la confidentialité médicale que d'un point de vue efficacité, l'AP-HP n'ayant pas accès aux données de participants dont les comptes-rendus ont été sélectionnés. Bien entendu, le même schéma est en vigueur pour l'AP-HP concernant ses propres patients.