Le Data Challenge Allergen Chip

Améliorer, grâce à l’IA, l’identification des allergènes à l’origine d’une maladie allergique à partir du profil immunologique de patients allergiques

Partager
allergenchip

Lancé en mai 2023, le Data Challenge Allergen Chip est une compétition internationale en science des données organisée par la Société Française d’Allergologie (SFA), l’IDESP (Université de Montpellier) et AllergoBioNet. Son objectif est de développer des algorithmes d’intelligence artificielle (IA) permettant de faciliter le diagnostic des allergies. 
 

Près de 300 équipes du monde entier ont été mises en concurrence pour créer des modèles d’apprentissage automatique permettant d’identifier les allergènes en cause dans une réaction allergique et de prédire sa sévérité. Grâce à l’analyse d’une base de données inédite de profils immunologiques et cliniques de plus de 4 000 patients, plus de 3 000 algorithmes ont été soumis par les participants, permettant ainsi d’atteindre des scores de performance atteignant jusqu’à 80 % de précision.
Les modèles des lauréats sont disponibles en open source et référencés dans la BOAS et les données mobilisées sont accessibles en open data sur la plateforme data.gouv.
 

Ce challenge a été organisé dans le cadre de l’Appel à Manifestation d'Intérêt "Data Challenge en santé". Dans ce cadre, il a bénéficié d’un soutien financier du plan France 2030 et d’un accompagnement de la Plateforme des données de santé (Health Data Hub).

Allergen Chip Challenge : zoom sur la question médicale

 

Les allergies touchent actuellement près de 20 % de la population des pays occidentaux et sont les pathologies chroniques liées à l’environnement les plus courantes. L’Organisation Mondiale de la Santé (OMS) estime que 50 % de la population sera touchée en 2050. 

Les laboratoires ont développé de nouvelles méthodes pour déterminer la réaction allergique d’une personne dans un environnement donné : il s’agit des puces à allergènes. Ces méthodes basées sur des tests mesurant des concentrations d’anticorps fortement associés aux allergies (en particulier les immunoglobulines E) permettent de définir le profil immunologique exhaustif d’un individu vis-à-vis de près de 300 allergènes. L’interprétation de ce profil immunologique permet aux médecins d’identifier les allergènes en cause de la réaction allergique. Cependant, la complexité de ce profil peut rendre son interprétation difficile. L’intelligence artificielle pourrait aider à interpréter ces résultats et ainsi optimiser le diagnostic et la prise en charge des patients allergiques.

Dans ce contexte, la Société Française d’Allergologie, l’IDESP et AllergoBioNet ont lancé l’Allergen Chip Challenge afin de développer des outils d’intelligence artificielle permettant d’assister les praticiens du monde entier dans l’identification des allergènes en cause dans une réaction allergique.

Une base de données unique de profils immunologiques reliés aux historiques cliniques

Douze laboratoires d'allergologie français du réseau AllergoBioNet et leurs homologues cliniciens ont participé à la constitution d’une base de données anonymisées inédite et de grande qualité rassemblant plus de 4 000 bilans allergologiques associés à des données cliniques.

Cette base de données a été mise à disposition sur la plateforme en ligne Trustii.io pour une durée de 12 semaines, permettant ainsi à des équipes du monde entier de participer au challenge et de soumettre leurs modèles d’IA. Le but : créer un outil capable d'identifier les allergènes en cause dans une réaction allergique et prédire la sévérité de la réaction.

 

Les résultats du Data Challenge 

Trois algorithmes se sont démarqués et leurs modèles sont d’ores et déjà publiés en open source et référencés sur la Bibliothèque Ouverte d'Algorithmes en Santé (BOAS).

  • 1ère place – Rakesh Jarupula, Data scientist (Télangana, Inde)
    Rakesh Jarupula s’est centré sur la préparation des données notamment en alignant les ensembles d’entraînement et de test. Pour corriger le déséquilibre entre classes, il a ajusté les poids des échantillons et utilisé une recherche bayésienne pour optimiser les hyperparamètres. Trois modèles ont ensuite été moyennés afin d’éviter le surapprentissage.
  • 2ème place – Ning Jia, Data scientist senior dans la startup Acerta (Canada)
    Ning Jia a utilisé une approche automatisée en se basant sur des modèles binaires (LightGBM et CatBoost) entraînés séparément pour chaque cible puis combinés. Les prédictions ont été ajustées en tenant compte des relations entre allergènes ce qui a permis d’optimiser les résultats.
  • 3ème place – Mithil Salunkhe, étudiant en machine learning (Maharashtra, Inde)
    Mithil Salunkhe a proposé un modèle principal reposant sur XGBoost avec une validation croisée adaptée aux données multiclasse. De nouvelles caractéristiques ont été ajoutées et des seuils spécifiques par allergène ont permis d’améliorer la précision des prédictions.

La remise des prix des lauréats de l’Allergen Chip Challenge a eu lieu le 17 novembre 2023 et a été l’occasion de présenter plus en détails les enjeux et résultats du Data Challenge. 

Ouverture des résultats et perspectives 

La publication en open data offre un accès libre et gratuit à cette base de données anonymisée inédite et ouvre la voie à de nouveaux travaux collaboratifs de recherche sur les allergies. Couplée à des données environnementales, la base Allergen Chip pourrait également permettre d’adresser des problématiques d’actualité ayant des conséquences socio-économiques majeures en partie liées au changement climatique ainsi qu’aux nouvelles habitudes de vie. 

Les modèles disponibles en open source sont accessibles et déployables partout dans le monde, rendant l’expertise en l’analyse des profils immunologiques plus accessible et permettant la poursuite du développement d’outils d’aide au diagnostic en allergologie.

 

Les suites de ce Data Challenge : création d’un entrepôt de données de santé, collaboration académiques et industrielles…

La base de données constituée dans le cadre de l’Allergen Chip Challenge a permis de lancer la création et l’alimentation de l’entrepôt de données de santé (EDS) du CHU de Bordeaux. Ce projet a aidé à convaincre les cliniciens de standardiser les comptes rendus, de digitaliser les examens (particulièrement la lecture des tests cutanés) et de collecter les résultats de biologie pour les intégrer dans l’EDS afin de permettre une valorisation secondaire optimale de ces données. Ce modèle de standardisation de la collecte des données pourra ensuite être développé dans d’autres CHU ou centres hospitaliers comme cela est réalisé entre le CHU de Bordeaux et Mont de Marsan. Ce projet représente un atout majeur pour la recherche épidémiologique, en permettant d’intégrer des spécificités locales dans la médecine personnalisée, d’identifier de nouveaux profils immunologiques et de mettre en place des systèmes d’alerte en temps réel.

Dans la suite du Challenge, un Hackathon a été organisé en novembre 2024 en partenariat avec l’équipe du Dr Julie Josse (INRIA, Université de Montpellier) pour poursuivre l’exploitation de la base de données. L’objectif était d’analyser par des méthodes mathématiques les interactions entre les immunoglobulines E et les pathologies. De très bons résultats ont été obtenus permettant ainsi d’identifier des allergènes comme marqueurs spécifiques de certaines pathologies, le but étant d’être capable de mieux diagnostiquer les patients et d’adapter les traitements. Il y a également un travail avec cette équipe pour la complétion des données manquantes à l’aide d’outils mathématiques innovants. 

Une analyse descriptive de la base d’un point de vue épidémiologique est également en cours. Ce projet est réalisé par le groupe de travail “Biologie de l’allergie” de la SFA sous la direction du Dr Caroline Klingebiel et Dr Julien Goret.

Dans le cadre de l’appel à projets CNRS PNRIA 2023, une collaboration avec l’équipe de l’INRIA de Bordeaux (Dr Olivier Saut) et Cyril Leroux a été initiée afin de développer un outil d'exploitation de l’algorithme vainqueur. L’objectif est de réaliser une validation externe (sur une nouvelle base de données) en vie réelle.

En parallèle, des projets de collaboration industrielle sont en cours de discussion afin de permettre l’accès sur le marché à de nouveaux outils de suivi des patients allergiques.

Enfin, le Data Challenge a permis aux porteurs du Data Challenge de se faire connaître auprès de l'Académie européenne d'allergie et d'immunologie clinique (EAACI) et d'être invité à participer au groupe de travail “Task Force IA” réunissant 38 membres européens.

 

Les présentations et publications en lien avec ce Data Challenge

Présentations

Les Inspirations d'Enghien, septembre 2025

EAACI Congress, juin 2025 - replay

Académie nationale de médecine, février 2025

Rencontres francophones d’allergologie moléculaire (RFAM), novembre 2025

 

Publications

Le Data Challenge et l’ouverture des ressources ont mené à une publication qui a été accepté en septembre 2025 dans la prestigieuse revue The Journal of Allergy and Clinical Immunology : lien vers l’article scientifique

 

Les partenaires

  • Pr Joana Vitte : Praticienne hospitalière en immunologie à l’université de Reims-Champagne Ardennes et de Montpellier, Co-présidente de la Société Française d’Allergologie
  • Dr Julien Goret : Immunologiste au CHU de Bordeaux

Le programme Data Challenges en santé
 

Depuis 2020, par le biais de l’appels à projets “Data Challenges en santé”, le Health Data Hub accompagne des acteurs de l'écosystème de la santé dans l’organisation de Data Challenge portant sur des thématiques médicales d’intérêt et à portée internationale. Ces projets bénéficient d’un soutien financier de Bpifrance ainsi que d’un accompagnement logistique, technique et organisationnel de bout en bout par les équipes du Health Data Hub. 

Découvrez l'ensemble des Data Challenges sur la page Les Data Challenges en santé. 

Pour en savoir plus sur l’appel à projets “Data Challenges en santé”, rendez-vous sur la page dédiée.