Le Data Challenge CytologIA
Améliorer le diagnostic des pathologies en hématologie biologique grâce à l’IA

Lancé en novembre 2024, le Data Challenge CytologIA est une compétition internationale en science des données organisée par le Groupe Francophone d’Hématologie Cellulaire (GFHC) en partenariat avec Algoscope. Son objectif est de développer des outils d’automatisation du diagnostic en hématologie biologique.
Près de 250 équipes du monde entier ont été mises en concurrence pour développer le modèle d’IA le plus performant dans la détection et la classification des leucocytes normaux et pathologiques, grâce à l’analyse d’une base de données inédite de plus de 70 000 images de lames de biopsies. Près de 2 000 algorithmes ont été soumis par les participants, permettant ainsi d’atteindre des scores de performance dépassant 93 % de précision.
Les modèles des lauréats sont disponibles en open source et référencés dans la BOAS et les données mobilisées sont accessibles en open data sur la plateforme data.gouv.
Ce challenge a été organisé dans le cadre de l’Appel à projets “Data Challenges en santé" et a bénéficié d’un soutien financier du plan France 2030 et d’un accompagnement par le Health Data Hub.
Retour sur le Data Challenge CytologIA
CytologIA : zoom sur la question médicale

La numération formule sanguine est l’examen de biologie médicale le plus réalisé en France. Lorsqu’une anomalie est suspectée, un frottis sanguin est réalisé pour visualiser au microscope les cellules sanguines. Cette analyse est longue et requiert une expertise fine pour distinguer les cellules normales, immatures ou pathologiques.
La technicité de cette analyse engendre des disparités de compétences sur le territoire, ce qui peut retarder le diagnostic ou impacter sa qualité, compromettant ainsi la bonne prise en charge des patients.
Pour y remédier, le Groupe Francophone d’Hématologie Cellulaire et Algoscope ont lancé le challenge CytologIA dans le but de favoriser l’accès à cette expertise grâce à l’IA et d’assister les praticiens du monde entier dans la détection des maladies hématologiques.
Une base de données unique d’imagerie cellulaire
Vingt centres francophones ont participé à la constitution d’une base de données inédite de près de 70 000 images de leucocytes, annotées par des experts et réparties en 23 classes de cellules normales et pathologiques.
Cette base de données a été mise à disposition sur la plateforme en ligne Trustii.io pour une durée de 6 semaines, permettant ainsi à des équipes du monde entier de participer au challenge et de soumettre leurs modèles d’IA. Le but : créer un outil fiable et performant capable de détecter et de classifier les leucocytes normaux et pathologiques.
Les résultats du Data Challenge
Près de 250 équipes ont rejoint la compétition et ont proposé près de 2 000 modèles. Trois participants se sont démarqués avec des scores de plus 93 % de précision. Leurs modèles sont publiés en open source et référencés sur la Bibliothèque Ouverte d'Algorithmes en Santé (BOAS).
- 1ère place – Eric Ben Hamou (MPWARE) , Senior Software Engineer & Data Scientist, Kaggle Grandmaster x2
Eric Ben Hamou a développé une solution robuste et reproductible, combinant YOLOX pour la détection avec des réseaux de neurones convolutifs (CNN) et des transformers pour une classification optimisée.
- 2ème place – Xueer Chen, Senior Scientist chez Bristol Myers Squibb
Xueer Chen s'est illustrée par une approche intégrant détection et classification sur des données augmentées. L’architecture du modèle repose sur YOLOv9c pour la détection et YOLOv11 optimisé pour la classification.
- 3ème place – Simon Thomine, ingénieur de recherche en vision par ordinateur chez Vitadx
Simon Thomine a proposé une approche efficace et simplifiée, basée sur un modèle en une seule étape, optimisé grâce à un important travail de nettoyage et d'annotation des données.
La remise des prix des lauréats de CytologIA a eu lieu à l’occasion de la Journée de l’open science en santé le 4 juin 2025.
Les résultats du Data Challenge ont également été mis à l’honneur à l’occasion du Sommet mondial pour l’action sur l’intelligence artificielle à Paris en février 2025.
Ouverture des résultats et perspectives
La publication en open data offre un accès libre et gratuit à cette base de données inédite et ouvre la voie à de nouveaux travaux collaboratifs de recherche en hématologie biologique. Cette base de données de grande qualité et richement annotée constitue également un support pédagogique précieux dans la formation des cytologistes.
Les modèles disponibles en open source sont accessibles et déployables partout dans le monde, rendant l’expertise en cytologie plus accessible et permettant la poursuite du développement d’outils d’aide au diagnostic en hématologie biologique.
Publication en lien avec ce Data Challenge
Biologiste365 : CytologIA : un bon pas vers l'IA efficiente en hématologie cellulaire (juin 2025)
Les partenaires
- Dr Thomas Boyer : Hématologue et biologiste au CHU d’Amiens, Secrétaire adjoint du Groupe Francophone d'Hématologie Cellulaire (GFHC)
- Dr Soufiane Zakaria Azdad : Anatomopathologiste, co-fondateur d’Algoscope
- Dr Samy Dahmani : Biologiste médical, co-fondateur d’Algoscope
Le programme Data Challenges en santé
Depuis 2020, par le biais des Appels à Projets “Data Challenges en santé”, le Health Data Hub accompagne des acteurs de l'écosystème de la santé dans l’organisation de projets de Data Challenge portant sur des thématiques médicales d’intérêt et à portée internationale. Ces projets bénéficient d’un soutien financier de Bpifrance ainsi que d’un accompagnement logistique, technique et organisationnel de bout en bout par les équipes du Health Data Hub.
Découvrez l'ensemble des Data Challenges sur la page Les Data Challenges en santé.
Pour en savoir plus sur l’Appel à Projets “Data Challenges en santé”, rendez-vous sur la page dédiée.