Cartographie des pathologies et des dépenses, version G12
Objectifs de l’algorithme
Les algorithmes de la cartographie des pathologies et des dépenses sont des algorithmes de ciblage appliqués au SNDS afin de constituer des cohortes et sous-groupes spécifiques de personnes atteintes d’une pathologie chronique ou grave, ayant eu un épisode de soins (ex : maternité) ou ayant certains traitements chroniques. Ces algorithmes ont été définis dans un but initial de répartir les dépenses remboursées par l’Assurance Maladie, en particulier la soixantaine de pathologies dites « tops » (https://data.ameli.fr/pages/data-pathologies/). Les algorithmes aboutissent à la création de plus de 300 variables indicatrices pour une année calendaire donnée, dont certaines sont des regroupements d’autres. Ces algorithmes doivent permettre d’estimer la prévalence des prises en charge de ces pathologies au niveau national et régional, les trajectoires de soins associées, les consommations de soins et de biens médicaux résultantes. Ils peuvent également faciliter la définition des comorbidités dans une étude portant sur une pathologie spécifique.
Auteur(s)
Domaine médical
Méthodologie
La méthodologie est disponible et mise à jour sur ameli.fr et a été décrite dans un article scientifique pour la version G8 (Rachas A et al. The Economic Burden of Disease in France From the National Health Insurance Perspective: The Healthcare Expenditures and Conditions Mapping Used to Prepare the French Social Security Funding Act and the Public Health Act. Med Care. 2022 Sep 1;60(9):655-664).
En synthèse, les algorithmes ont été développés à partir des informations médicales disponibles dans le SNDS, avec un recul pouvant aller jusqu'à 5 ans. Plusieurs pathologies peuvent être identifiées chez un même patient. Les "hospitalisations hors pathologies repérées" concernent les personnes ayant eu au moins un séjour en MCO pour une raison autre que celles prises en compte pour les pathologies identifiées par ailleurs. Pour les maladies cardiovasculaires, les cancers et l'insuffisance rénale terminale, des algorithmes exclusifs identifient différentes « phases » d'une même maladie afin de distinguer les dépenses liées au traitement actif ou aux soins aigus de celles d’un suivi à long terme.
La première version des algorithmes a été développée en 2012, avec l'aide d'un expert en codage, d'un épidémiologiste, d'un médecin conseil de l'Assurance Maladie et d'échanges avec d'autres experts. Tous les algorithmes ont été soumis à une relecture critique par des cliniciens, des épidémiologistes et des experts en codage, réalisée par une équipe de recherche (rapport disponible sur Ameli.fr).
Plusieurs défis ont été rencontrés :
- Définir des algorithmes spécifiques de chaque pathologie tout en conservant une homogénéité et une cohérence globale
- Rassembler tous les algorithmes dans un outil unique, intégrant également le rattachement des séjours hospitaliers aux pathologies pour y affecter les dépenses correspondantes. Cela permet de s’assurer que certaines requêtes du PMSI soient les mêmes pour repérer les pathologies et identifier les séjours en lien avec ces pathologies. Cette contrainte explique pourquoi certaines requêtes sont scindées en plusieurs sous-requêtes.
- Traiter un gigantesque volume de données pour repérer toutes ces pathologies
- Maintenir à jour et améliorer les algorithmes au fil du temps.
Langage de programmation
Données utilisées
Données d'application
Les données utilisées sont détaillées dans des tableaux en annexes de la Méthodologie médicale de la cartographie des pathologies et des dépenses disponible sur Ameli.fr.
Il s’agit des programmes et référentiels utilisés pour la version G12 (années 2015 à 2023, Tous Régimes).
Les données utilisées incluent des données du PMSI de 2011 à 2023, les ALD de 2014 à 2023 et le DCIR de 2014 à 2023.
Validation
Tous les algorithmes ont été soumis à une relecture critique par des cliniciens, des épidémiologistes et des experts en codage, réalisée par une équipe de recherche (rapport disponible sur Ameli.fr).
A notre connaissance, les performances des algorithmes n’ont été évaluées contre gold-standard que pour l’algorithme du diabète, sur la période 2012-2014, à partir de la cohorte CONSTANCES (Fuentes S, Cosson E, Mandereau-Bruno L, Fagot-Campagna A, Bernillon P, Goldberg M, Fosse-Edorh S; CONSTANCES-Diab Group. Identifying diabetes cases in health administrative databases: a validation study based on a large French cohort. Int J Public Health. 2019 Apr;64(3):441-450. doi: 10.1007/s00038-018-1186-3. Epub 2018 Dec 4. PMID: 30515552.)
Date de dernière mise à jour
Il s’agit de la version G12 pour l'implémentation R mise à jour en janvier 2025
Maintenance
Les programmes R et les référentiels seront mis à jour à chaque nouvelle version de la cartographie.
Comment installer l’algorithme ?
Pour lancer les algorithmes sur le portail de la CNAM il suffit de :
- Lancer sa session Rstudio normalement depuis la plateforme CNAM en se plaçant dans un dossier/projet R
- Créer un fichier R à la racine du dossier/projet R - peu importe le nom donné à ce fichier - et y copier l'intégralité du contenu installation_hepaviralgo.R puis de le lancer. Ce programme va créer toute l'arborescence et le contenu des fichiers présents dans le dossier algorithme.
- Lancer le programme principal hepaviralgo.R en choisissant le phénotype d'intérêt, les années d'intérêt, et en ajustant éventuellement le seuil de détection selon l'objectif souhaité (afin de calibrer précision, sensibilité et spécificité désirées) Ce programme crée alors deux résultats : l'ensemble des scores de probabilité de pathologie pour l'ensemble des individus étudiés, et surtout la création des BEN_NIR_ANO correspondant à la cohorte finale d'intérêt
Comment utiliser l’algorithme ?
Pour les personnes intéressées par le fonctionnement du projet, le script hepaviralgo.R consiste lui-même en l'appel à des fonctions issus de deux programmes :
func_oracle.R comprend toutes les fonctions permettant d'importer les tables Oracle du SNDS, de les joindre puis de les formater en une table unique utilisable par les algorithmes de machine learning. Plus précisément l'objectif est de créer une table unique par année, donnant le décompte de chaque événement durant l'année.
fun_predictions.R applique ensuite simplement les poids des modèles XGBoost estimés (via les données HEPATHER-SNDS) aux bases annuelles précédemment créées. En raison de non disponibilité du package à la bonne version, le modèle implémenté est uniquement une régression linéaire à ce jour.
Support
Contributions
Merci de bien vouloir nous remonter d’éventuelles erreurs constatées, ou des propositions d’optimisations de codage ou d’évolution. Nous essayerons de les prendre en compte, sans toutefois pouvoir nous y engager.
Crédits
Les programmes et référentiels ont été réalisés par les auteurs sus-cités. Les algorithmes eux-mêmes ont été constitués au fil des ans par les auteurs et d’anciens membres de l’équipe de la Cartographie, en lien avec les experts et la communauté du SNDS en général. Nous remercions en particulier le réseau REDSIAM du travail réalisé sur les algorithmes, qui participe à l’amélioration de la cartographie. Sur les évolutions les plus récentes nous remercions Santé publique France de nous avoir transmis l’algorithme de l’hépatite C chronique, l’IRDES d’avoir partagé l’algorithme « lésions médullaires » que nous avons adapté et l’INCa pour les algorithmes « cancers » dont nous nous sommes inspirés et le maintien à jour des listes de médicaments anticancéreux. Enfin, nous remercions l’équipe Inserm U943 pour le maintien à jour de la liste des médicaments spécifiques de l’infection par le VIH.
Licence et conditions d’utilisation
All content shared in this repository is published under the GNU General Public License v.3. A copy of the license is available in the LICENSE file, or at https://www.gnu.org/licenses/gpl-3.0.fr.html#license-text.
Autre
La documentation décrivant la méthodologie de la cartographie est disponible sur ameli.fr.