Le premier Data Challenge du HDH
Le but du Data Challenge est, pour ses participants, de répondre en un temps imparti, et à partir de données spécifiques, à une question posée. Le data challenge s'adresse ainsi à des data scientists (chercheurs, industriels, étudiants…), de diverses nationalités. Les compétiteurs peuvent ainsi développer leurs algorithmes à partir d'un jeu de données anonymisées. Dans une ultime étape, l’accessibilité des données et des algorithmes issus du Data Challenge est encouragée afin de permettre à la recherche de poursuivre sa progression dans l’intérêt de tous.
En 2020, notre premier Data Challenge
A l’heure actuelle, les diagnostics du col de l’utérus sont réalisés à partir de l'observation de lames de verre avec un microscope optique. Néanmoins, si ces lames de verre sont aujourd’hui totalement numérisables, cette pratique reste assez marginale. Les outils de l'Intelligence Artificielle (IA), appliqués à l’analyse de ces lames virtuelles, peuvent permettre aux professionnels de santé une aide au diagnostic des lésions du col de l’utérus.
C'est donc pour favoriser le développement d'outils d’IA d'aide au diagnostic, que notre premier Data Challenge, en partenariat avec la Société Française de Pathologie (SFP) et le Grand Défi “Améliorer les diagnostics médicaux à l’aide de l’intelligence artificielle” a été organisé sur la détection des lésions pré-cancéreuses et cancéreuses pouvant survenir sur le col de l’utérus. Les algorithmes développés dans le cadre de ce Data Challenge se basent sur des outils d’IA tels que le deep learning et les réseaux de neurones.
La problématique posée par ce Data Challenge a porté sur la détection des lésions précancéreuses et cancéreuses pouvant subvenir sur le col de l'utérus. Les compétiteurs ont pu développer leurs algorithmes à partir d'un jeu de données de plusieurs milliers de lames virtuelles annotées.
En effet, un jeu de données anonymes de près de 5 000 lames d’histopathologie (biopsies et conisations) a été constitué pour ce Data Challenge. La SFP, grâce à son appel à manifestation d’intérêt, a permis de mobiliser une vingtaine de centres anatomopathologiques français, publics et privés, qui se sont portés volontaires pour inclure des lames. Ces derniers ont anonymisé chaque lame, avant de les numériser.
Le Health Data Hub a apporté une aide organisationnelle et logistique dans la collecte de ces données. Nous avons également assuré le stockage des lames sur une infrastructure hautement sécurisée.
Ces lames ont ainsi pu être mises à disposition d’un comité de cinq anatomopathologistes experts de la pathologie du col de l’utérus. Ils ont, durant l’été 2020, annoté plusieurs milliers de lames. Cette étape a été cruciale pour le Data Challenge car elle a permis d’apporter une vérité de terrain sur laquelle les compétiteurs ont pu se baser pour développer leurs algorithmes.
Toutes ces données richement annotées ont donc été mises à disposition des compétiteurs sur la plateforme Driven Data qui a hébergé et orchestré la compétition.
Au total, 547 participants ont rejoint la compétition entre septembre et octobre 2020 pour développer le meilleur algorithme de détection de lésion sur des biopsies du col de l’utérus.
Des résultats prometteurs pour le diagnostic du cancer du col de l’utérus
Les résultats des algorithmes soumis sont impressionnants. Douze équipes ont atteint un score de plus de 0,9/1 avec un vainqueur culminant à plus de 0.93/1 sur le "Leaderboard".
La compétition a été une réelle opportunité pour les candidats, pour se faire repérer par des acteurs majeurs du domaine. Elle a permis aux trois meilleures équipes, récompensées notamment lors du Carrefour Pathologie 2020, de recevoir des prix pouvant aller jusqu’à 12 000€.
Les quatre meilleurs participants sont "Tribvn Healthcare" (France), Raphael Kiminya (Kenya), Kirill Brodt (Canada), Ming Feng (Chine).
Les médecins et statisticiens organisateurs de la compétition travaillent désormais à l'interprétation clinique des résultats de la compétition