Le Data Challenge TissueNet
Améliorer le diagnostic de lésions cancéreuses et précancéreuses du col de l’utérus grâce à l’IA

Lancé en septembre 2020, le Data Challenge TissueNet est une compétition internationale en science des données organisée par la Société Française de Pathologie (SFP). Son objectif est de développer des outils d’automatisation de la détection de lésions cancéreuses et précancéreuses du col de l’utérus.
Près de 550 équipes du monde entier ont été mises en concurrence pour développer le modèle d’IA le plus performant dans la détection des lésions épithéliales les plus sévères du col utérin, grâce à l’analyse d’une base de données inédite de plus de 5 000 lames numérisées de biopsies du col de l’utérus. Les algorithmes soumis par les participants ont atteint des scores de performance atteignant jusqu’à 94 % de prédictions correctes.
Les modèles des lauréats sont disponibles en open source et référencés dans la BOAS et les données mobilisées sont accessibles en open data sur la plateforme data.gouv.
Ce Data Challenge a été organisé dans le cadre du programme Grand Défi “Améliorer les diagnostics médicaux à l'aide de l’intelligence artificielle” et a bénéficié d’un accompagnement par le Health Data Hub.
TissueNet : zoom sur la question médicale

En France, le cancer du col de l’utérus est le huitième cancer le plus fréquent chez les femmes. Pour en établir le diagnostic, une biopsie est réalisée : il s’agit d’un échantillon de tissu examiné au microscope afin de détecter un cancer ou des signes précancéreux. Ce diagnostic est complexe, car il requiert une formation spécialisée et un examen minutieux du tissu au niveau microscopique.
Pour remédier à la difficulté du diagnostic, la Société Française de Pathologie (SFP) a lancé le challenge TissueNet dans le but de favoriser l’accès à cette expertise grâce à l’IA et d’assister les praticiens du monde entier dans la détection des lésions épithéliales les plus sévères du col utérin.
Une base de données inédite de biopsies du col utérin
Vingt centres ont participé à la constitution d’une base de données inédite de près de 5 000 lames numérisées de biopsies du col de l’utérus et annotées par des experts en anatomocytopathologie.
Cette base de données anonymisée a été mise à disposition sur la plateforme en ligne Driven Data de septembre à octobre 2020, permettant ainsi à des équipes du monde entier de participer au challenge et de soumettre leurs modèles d’IA. Le but : créer un outil fiable et performant capable de détecter les lésions épithéliales les plus sévères du col utérin.
Les résultats du Data Challenge
Trois de ces modèles sont publiés en open source et référencés sur la Bibliothèque Ouverte d'Algorithmes en Santé (BOAS).
- 1ère place – Tribvn-Healthcare : Brice Tayart, Capucine Bertrand, Solène Chan Lang, Saïma Ben Hadj, Tina Rey
Un DenseNet est entraîné ainsi que plusieurs modèles avec différents paramètres afin de classifier les lésions. Des heatmaps sont ensuite générées pour chaque classe avant d'être utilisées pour entraîner un SVM afin de réaliser une classification au niveau de la lame entière.
L’équipe a préféré renoncer à la récompense en échange de pouvoir conserver la confidentialité d’une partie de leur solution algorithmique. L’équipe a documenté et partagé sa méthodologie et la pipeline de traitement des données et a également contribué à la publication d’un article scientifique co-écrit avec la SFP traitant de l’explicabilité des modèles proposés.
- 2ème place – Raphael Kiminya, développeur Business Intelligence/Data Warehouse
Pour chaque lame, les N tuiles les plus informatives sont sélectionnées par heuristique, puis passées dans un CNN pour extraire des caractéristiques. Ces dernières sont agrégées pour une classification globale de la lame via apprentissage par instances multiples.
- 3ème place – Kirill Brodt, chercheur en graphisme informatique à l’Université de Montréal
La lame est divisée en N x N tuiles, les K plus pertinentes sont assemblées en une seule image. Des modèles EfficientNet-B0 sont entraînés sur ces images recomposées avec différentes valeurs de N et K, et leurs prédictions sont moyennées pour obtenir la classification finale.
- 4ème place – LifeIs2Short : Kele Xu, Ming Feng et Tingzhen Li, respectivement Professeur adjoint à National University of Defense Technology (Chine), doctorant à Tongji University (Chine) et étudiant à Tongji University.
Un DenseNet201 est entraîné sur les régions annotées, puis utilisé pour générer des cartes de probabilité sur les zones tissulaires. Ces cartes sont résumées en vecteurs, classifiés par un ensemble de modèles pour prédire la classe de la lame.
Ouverture des résultats et perspectives
La publication en open data d’environ 1 000 images anonymisées offre un accès libre et gratuit à cette base de données inédite et ouvre la voie à de nouveaux travaux collaboratifs de recherche pour le diagnostic des lésions du col de l’utérus. Cette base de données de grande qualité et richement annotée constitue également un support pédagogique précieux dans la formation à l’analyse de lames d’anatomopathologie de biopsies du col de l’utérus. En un an, cette base a déjà été téléchargée plus de 3 300 fois témoignant ainsi de l’intérêt de la communauté pour ce type de ressources.
Les modèles disponibles en open source sont accessibles et déployables partout dans le monde, rendant l’expertise en l’analyse des biopsies du col utérin plus accessible et permettant la poursuite du développement d’outil d’aide au diagnostic en anatomopathologie.
Les publications en lien avec ce Data Challenge
- Delaune, A., Valmary-Degano, S., Loménie, N., Zryouil, K., Benyahia, N., Trassard, O., ... & Bertheau, P. (2022, March). Le premier data challenge organisé par la Société Française de Pathologie: une compétition internationale en 2020, un outil de recherche en intelligence artificielle pour l’avenir?. In Annales de Pathologie (Vol. 42, No. 2, pp. 119-128). Elsevier Masson.
- Loménie, N., Bertrand, C., Fick, R. H., Hadj, S. B., Tayart, B., Tilmant, C., ... & Bertheau, P. (2022). Can AI predict epithelial lesion categories via automated analysis of cervical biopsies: The TissueNet challenge?. Journal of Pathology Informatics, 13, 100149.
- Fick, R. H., Tayart, B., Bertrand, C., Lang, S. C., Rey, T., Ciompi, F., ... & Hadj, S. B. (2021, November). A partial label-based machine learning approach for cervical whole-slide image classification: the winning tissuenet solution. In 2021 43rd Annual International Conference of the IEEE Engineering in Medicine & Biology Society (EMBC) (pp. 2127-2131). IEEE.
- Tayart, B., Rey, T., Bertrand, C.,Chan Lang, S., Ben Hadj, S., Tilmant,C., & Farré, I. (2021). TissueNet Data Challenge: Detect Lesions in Cervical Biopsies [Poster presentation].
Les partenaires
- Pr Philippe Bertheau : Président de la Société Française de Pathologie (SFP), Professeur de pathologie à l’Université Paris Cité
- Pr Sophie Prévot : Secrétaire Générale de la SFP, Médecin pathologiste
Le programme Data Challenges en santé
Depuis 2020, par le biais des Appels à Projets “Data Challenges en santé”, le Health Data Hub accompagne des acteurs de l'écosystème de la santé dans l’organisation de projets de Data Challenge portant sur des thématiques médicales d’intérêt et à portée internationale. Ces projets bénéficient d’un soutien financier de Bpifrance ainsi que d’un accompagnement logistique, technique et organisationnel de bout en bout par les équipes du Health Data Hub.
Découvrez l'ensemble des Data Challenges sur la page Les Data Challenges en santé.
Pour en savoir plus sur l’Appel à Projets “Data Challenges en santé”, rendez-vous sur la page dédiée.