Data Challenge TissueNet - Détection des lésions dans les biopsies cervicales

Gitlab

Lien vers le repo : Gitlab

Objectifs de l’algorithme

Outils d’identification de patients / dépistage biologique

Ces algorithmes sont les algorithmes lauréats produits dans le cadre du data challenge TissueNet, porté par la Société Française de Pathologie, au cours duquel les participants ont eu pour objectif de créer des modèles d’apprentissage automatique capables de détecter les lésions épithéliales les plus sévères du col utérin sur la base de l’analyse de près de 5 000 lames de biopsie numérisées

 

La compétition s’est déroulée de septembre à octobre 2020 et a rassemblée près de 550 compétiteurs. Les résultats sont prometteurs avec des scores de performance allant jusqu’à 95% de prédictions correctes.

 

Pour en savoir plus sur les data challenges en santé accompagnés par le HDH, rendez-vous ici.

Auteur(s)

Société savante
Société Française de Pathologie

Domaine médical

Cancers

Méthodologie

La méthodologie de construction des algorithmes lauréats est détaillée dans les dépôts GitHub associés.

Langage de programmation

Python

Données utilisées

Données d'application

Données d’imagerie

Ces algorithmes ont été développés dans le cadre du Data Challenge TissueNet sur la base d’un ensemble de données constitué d'images haute résolution de lames microscopiques issues de la numérisation de biopsies cervicales.

 

Cette base de données sera prochainement accessible en open data sur data.gouv.fr. 

 

  • Méthodologie de collecte des données : 

 

Comme quasiment aucune des lames du data challenge n’était déjà numérisée à l’origine, il a fallu désarchiver les lames physiquement. Les cas désarchivés avaient été choisis sur les systèmes informatiques des laboratoires pour respecter dans la mesure du possible un équilibre entre les 4 classes diagnostiques, tout en vérifiant la qualité des lames. 

 

Les lames désarchivées ont été anonymisées et numérisées par les centres disposant d'un scanner de lames ou par 2 centres référents (Bicêtre, Saint-Louis) pour les centres ne disposant pas d'un scanner. Les formats de fichiers ont par la suite été homogénéisés au format tif.

 

  • Méthodologie de consolidation des données : 

 

4934 lames ont été collectées, incluant 3709 biopsies du col utérin et 1225 conisations. Ces lames de conisation n'ont pas été incluses dans la compétition finale mais pourront être utilisées ultérieurement afin d'enrichir la banque d'images à disposition des chercheurs. Parmi les 3709 lames de biopsies, 2542 ont été annotées avec la classe diagnostique la plus grave présente sur chaque lame. 

 

Suite à cette phase d'annotation diagnostique, les 2542 lames ont été distribuées dans 3 groupes distincts : 1015 lames finement annotées pour le jeu d'apprentissage, 513 lames pour le jeu de test et 1014 lames pour le jeu de validation finale. Pour chaque jeu de lames, la proportion de chacune des quatre classes diagnostiques devait être aussi proche que possible de 25% afin d'équilibrer les classes et optimiser ainsi l’apprentissage des algorithmes. 

 

Plus d’informations sur la méthodologie de collecte de données ici.

 

Il est à noter que la base de données partagée sur data.gouv.fr n’est qu’une partie de la base utilisée pour le data challenge. Elle contient les lames provenant des centres de pathologie ayant accepté de partager les données de manière ouverte. En conséquence, la version partagée de la base de données inclut 1269 lames microscopiques de tissus utérins provenant de centres médicaux à travers la France.

Validation

Validé

Précisée au niveau des dépôts GitHub associés aux algorithmes lauréats.

Date de dernière mise à jour

Précisée au niveau des dépôts GitHub associés aux algorithmes lauréats.

Maintenance

Pas de maintenance

Précisée au niveau des dépôts GitHub associés aux algorithmes lauréats.

Comment installer l’algorithme ?

Précisée au niveau des dépôts GitHub associés aux algorithmes lauréats.

Comment utiliser l’algorithme ?

Précisée au niveau des dépôts GitHub associés aux algorithmes lauréats.

Contributions

Précisée au niveau des dépôts GitHub associés aux algorithmes lauréats.

Crédits

Précisée au niveau des dépôts GitHub associés aux algorithmes lauréats.

Licence et conditions d’utilisation

Licence MIT

Autre