EHDEN / Persephone

Ressource

Lien vers le repo : Ressource

Objectifs de l’algorithme

Outils de manipulation / transformation de la base principale du SNDS

Ces scripts permettent de standardiser la base principale du SNDS (BP-SNDS) selon le modèle OMOPCentré sur une table “patient”, son schéma permet de suivre facilement les parcours de soins. Il est particulièrement adapté dans le cadre d'études observationnelles, fédérées et à grande échelle. 

Ils permettent d’extraire les données médicales de la BP-SNDS et les rendent disponibles sous deux codages : les terminologies de la BP-SNDS (e.g. CCAM, CSARR, NABM, LPP) et les nomenclatures internationales (e.g. SNOMED) 

Ils sont adaptés aux années 2015 à 2021 de la BP-SNDS, on peut choisir de les lancer sur une ou plusieurs années de cette période. 

Ils contiennent un certain nombre de prétraitements (e.g. régularisation dans le DCIR, reconstruction des codes départements) d’intérêt facilitant l’utilisation de la BP-SNDS.

Auteur(s)

Plateforme de données
Cécile Charles

Health Data Hub

Plateforme de données
Gaëlle Collumeau

Health Data Hub

Plateforme de données
Elena Mylonas

Health Data Hub

Plateforme de données
Lorien Benda

Health Data Hub

Domaine médical

Autre

Méthodologie

La documentation de la méthodologie de standardisation est décrite avec précision sur la documentation SNDS.

Les scripts correspondant présentés ici sont développés en SQL, sous forme de projet DBT

Langage de programmation

SQL

Données utilisées

Données d'application

Base principale

L’algorithme concerne les données d’une cohorte de 570 000 patients sélectionnés aléatoirement dans la BP-SNDS, sur la période 2015-2021. Elles comportent : 

  • Les données du DCIR de 2015 à 2021
  • Les données du PMSI de 2015 à 2021
  • Les données du CépiDC de 2015 à 2017
  • Le référentiel des bénéficiaires
  • Le référentiel médicalisé

L’algorithme utilise les terminologies de la BP-SND, disponibles sur la documentation collaborative de la BP-SNDS. Elles peuvent être retrouvées grâce aux noms de variables, la nomenclature correspondante est alors téléchargeable.

L’algorithme utilise les terminologies standard OMOP-CDM, disponible au téléchargement sur le portail Athena.

L’algorithme utilise également les correspondances entre le registre Etalab, ainsi que les codes communes de l’INSEE. 

La liste des tables et variables de la BP-SNDS est disponible dans ce fichier

Validation

Validé

L’algorithme concerne les données d’une cohorte de 570 000 patients sélectionnés aléatoirement dans la BP-SNDS, sur la période 2015-202.

La qualité des données transformées a été testée par les outils développés par OHDSI, le consortium qui maintient OMOP-CDM : Achilles, DataQualityDashboard, CDMInspectionLa SME EasterEggs a étudié les résultats de ces tests de qualité, avant de délivrer une certification de qualité de la transformation.

Date de dernière mise à jour

17 novembre 2023

Maintenance

Ad-hoc (en fonction des remontées de problèmes, suggestions)

L’algorithme est maintenu, dans le cadre de projets menés par le Health Data Hub, nécessitant les données de la base principale du SNDS au format OMOP. 

La maintenance comprend : 

  • L’intégration des mises à jour de la BP-SNDS (schéma relationnel et terminologies)
  • L’intégration des mises à jours des vocabulaires standards OMOP-CDM 
  • Les corrections de l’ETL

Comment installer l’algorithme ?

Comment utiliser l’algorithme ?

Prérequis : 

  • Les données de la BP SNDS sont dans une base de données (développement réalisé avec une base de données Postgres v13.2)
  • DBT et dbt-utils sont installés

Initialisation du projet : 

  • Exécuter dbt init  dans le dossier du projet DBT pour initialiser le projet.
  • Configurer le fichier `profiles.yml  comme indiqué sur la documentation DBT. Si vous avez exécuté DBT pour la première fois, DBT a normalement créé un fichier `profiles.yml`  dans un dossier caché .dbt en exécutant l'étape précédente.

 

# Exemple de profile dbt

mon_profile_dbt: # nom du profile 

  target: dev

  outputs:

    dev:

      type: postgres # Type de base de données 

      host: localhost

      user: <user> 

      password: <password>

      port: 5432 # Image postgres

      dbname: <database name>

      schema: snds #schéma contenant les données snds 

      threads: 5

 

Utilisation du projet DBT

Pour exécuter tous les modèles : dbt run --select

  • Pour exécuter un modèle en particulier : dbt run --select <nom_modèle>
  • Pour lancer les tests contre le modèle :  dbt test

Pour générer la documentation dbt : dbt docs generate puis dbt docs serve --port <numero_port>

Contributions

Toute suggestion d’amélioration de la standardisation est la bienvenue, via le système d’issues du dépôt GitLab du projet.

Crédits

Auteurs: Cécile Charles, Gaëlle Collumeau, Lorien Benda

Experts SNDS : Axelle Menu, Tim Vlaar, Emmanuel Stranadica, Anne Cuerq

Alignements de terminologies : Nicolas Thurin, Alexandre Kitic, Nicolas Kitic, Sara Tuno de Lara, François Bourquard, Raphaël Lee

 

Licence et conditions d’utilisation