Témoignage d’un des vainqueurs du data challenge SFP x HDH
Kirill Brodt, étudiant kazakh à l’Université de Montréal, est un des vainqueurs du Data Challenge en imagerie médicale sur les biopsies du col de l’utérus, organisé par la Société Française de Pathologie, en collaboration avec Le Grand Défi et le Health Data Hub. C’est aussi un ancien élève de l’ENSTA ParisTech, son doctorat actuel porte sur l’infographie et l’apprentissage automatique.
Aimant “faire avancer la recherche dans tous les domaines”, il s’est démarqué par l’attention particulière qu’il a portée à la préparation des données. Il a décidé de participer au challenge pour relever le défi d’exploiter une base de données originale: “je n’avais jamais eu l’occasion de travailler sur des images si grandes et ce Data Challenge m’a permis de le faire”.
Selon lui, “la difficulté majeure de cette compétition était liée à la taille des données. Il a fallu [les] préparer [...] pour pouvoir appliquer un modèle de classification dessus. La taille d’une image seule était énorme, ça prenait beaucoup de Mémoire sur l’ordinateur, il a fallu compresser. Une fois que celles-ci étaient prêtes, j’ai pu appliquer le modèle dessus”.
Ce défi a été relevé grâce à l'utilisation “d'une méthode simple de traitement d’image. Chaque image a été divisée en petits blocs. Cette méthode de traitement d’images a été efficace pour bien préparer les données et appliquer le modèle de classification dessus”. Ce modèle était justement “pré-entraîné, de classification générale”, ne nécessitant pas l’utilisation de bases de données extérieures à des fins d'entraînement. Kirill a rendu ce modèle disponible à l’issue de la compétition.
Comment se démarquer dans la compétition ? Au vu de la taille des données, Kirill a notamment pu compter sur l’utilisation “d’un processeur graphique de l’université de Novossibirsk en Russie”, son alma mater. Habitué des épreuves de ce genre, il a su gérer au mieux la contrainte de temps puisque les compétiteurs ne disposaient que d’un mois et demi : “le temps étant restreint, il fallait faire au plus vite pour obtenir les meilleurs résultats”.
Kirill sera présent en distanciel pour exposer ses travaux lors du Meetup du 21 janvier 2021, organisé par le Health Data Hub.