ICan Algo
Partenaires
- Equipe PEPITES de l'Institut Pierre Louis d’Epidémiologie et de Santé Publique (IPLESP) / INSERM et Sorbonne Université
- Institut National du Cancer (INCA) : apport d’expertise scientifique
Contexte
La base principale du Système National de Données de Santé (SNDS) est un outil précieux pour les études pharmaco-épidémiologiques, notamment en cancérologie, car elle permet d’accéder à des données détaillées sur la santé et la consommation de soins de la population française. Contrairement aux registres de cancers régionaux, la base principale du SNDS offre une couverture nationale et une mise à jour plus rapide des données.
La base principale du SNDS présente cependant des défis pour l'identification des cancers dits “incidents”, c’est-à-dire les nouveaux cas de cancers. Le centre de pharmaco-épidémiologie de l'AP-HP a ainsi développé et sélectionné, en fonction de leurs performances, deux algorithmes (un pour chaque sexe) afin de détecter les cancers incidents toutes localisations confondues au sein de la base principale du SNDS. Ces algorithmes ont été validés par rapport aux données de FRANCIM (réseau français des registres des cancers) et sont largement utilisés dans la recherche pharmaco-épidémiologique.
Avec l'arrivée de nouvelles immunothérapies, l’évolution de la cancérologie ambulatoire et l’amélioration des méthodes de dépistage, une évolution de ces algorithmes apparaît désormais nécessaire, ainsi que leur validation par le biais d’outils comme la cohorte CONSTANCES (cohorte épidémiologique française) afin d’en renforcer la précision. Un autre enjeu réside dans l’importance de les rendre accessibles avec une documentation complète pour faciliter leur utilisation et leur mise à jour ultérieure.
Objectif du projet
Le projet ICan Algo est porté par le Centre de pharmaco-épidémiologie de l’AP-HP (Céphépi) et la Cohorte Constances (Inserm), en partenariat avec l’Université Paris Cité, l’Université Paris-Saclay, l’Université de Versailles – Saint-Quentin-en-Yvelines. L'objectif de ce projet est de mettre à jour et valider les algorithmes de ciblage des cancers incidents dans la base principale du SNDS et de sélectionner, à terme, l’algorithme le plus performant.
À cette fin, ces algorithmes d'identification seront mis à jour et validés à deux niveaux : 1) à l’échelle populationnelle en les comparant aux estimations nationales de l’incidence de cancer obtenues à partir des données des registres de cancers, 2) à l’échelle individuelle grâce aux données de la cohorte CONSTANCES, chaînées aux données de la base principale du SNDS.
Méthodologie et caractère innovant
Les deux algorithmes développés vont être revus par des experts. La liste des médicaments ainsi que des actes médicaux ou chirurgicaux à prendre en compte sera également mise à jour pour refléter l'évolution de la prise en charge des cancers.
Le projet se distingue par sa validation à deux niveaux essentiels :
- Au niveau populationnel, les porteurs de projet comparent le nombre de cancers incidents identifiés par chaque algorithme avec le nombre attendu de cas, calculé à partir des estimations nationales fournies par le réseau FRANCIM. Cette comparaison sera effectuée pour chaque année de 2010 à 2023, avec des analyses distinctes par sexe, classe d’âge, et type de régimes d’assurances maladies. De plus, des programmes automatisés sont mis en place pour faciliter des comparaisons plus rapides lors des futures mises à jour, dès que de nouvelles estimations seront disponibles.
- Au niveau individuel, ils évaluent les performances diagnostiques des algorithmes proposés en les appliquant à la cohorte CONSTANCES en prenant comme référence les cas de cancers incidents identifiés dans la cohorte CONSTANCES. Ces cas ont fait l'objet d'une adjudication sur la période 2012-2018.
Enfin, il est envisagé d’adapter les algorithmes pour détecter des cancers spécifiques, notamment ceux pour lesquels il n’existe pas encore de méthodes de ciblage.
Le projet ICan Algo est lauréat de l’appel à manifestation d’intérêt relatif à la Bibliothèque Ouverte d’Algorithmes en Santé (BOAS). Dans ce cadre, il bénéficie d’un appui technique et financier, et d’un accompagnement du Health Data Hub pour la publication en open source de ses résultats.
Résultat / Livrable attendu
À l’issue du projet, trois algorithmes seront partagés dans la bibliothèque BOAS :
- deux algorithmes (un pour chaque sexe) actualisés et améliorés pour l'identification des cancers incidents .
- un algorithme permettant d’exclure les cancers prévalents (Langage programmation naturel SAS).
Une documentation claire, incluant des descriptions des algorithmes en langage naturel ainsi qu'en langages de programmation (SAS), sera également mise à la disposition de la communauté scientifique, afin de faciliter la compréhension, l'application, la réutilisation et la mise à jour ultérieure des algorithmes.