AMBER : Automated Method for structuring data from Biopsy Examination Reports Une nouvelle approche hybride de reconnaissance optique des caractères avec traitement du langage naturel pour l'extraction de données dans les rapports de biopsies

Objectif(s) de la recherche et intérêt pour la santé publique

Finalité de l'étude

Recherche, étude, évaluation

Objectifs poursuivis

Organisation des établissements de santé

Domaines médicaux investigués

Cancérologie

Bénéfices attendus

Les dossiers informatisés des patients contiennent un grand nombre d’examens réalisés en dehors de l’hôpital. Ces examens sont très souvent stockés sous forme d’images dans des fichiers PDF ou Word et dans un format non standardisé, ce qui empêche une extraction automatique des données. Le traitement de ces données est indispensable à la prise en charge des patients à l’hôpital. Nous souhaitons développer AMBER, un outil basé sur une nouvelle approche hybride utilisant le traitement de reconnaissance optique de caractères OCR avec le traitement du langage naturel NLP pour identifier et structurer les informations cliniques dans les photocopies numérisées des rapports de biopsies rédigés sous différents formats par plusieurs laboratoires.
Différents modèles d’intelligence artificielle et des méthodes de prétraitement d'image seront testés sur ces documents scannés, y compris ceux pouvant conduire à la création d'un système d’extraction automatique ne nécessitant pas d’annotation manuelle (processus chronophage et couteux).
La performance d’AMBER sera évaluée en comparant les informations extraites automatiquement avec les données collectées manuellement par un médecin spécialiste à partir de rapports de biopsie en fichiers PDF et Word et avec les données collectées dans les cahiers d’observation de plusieurs études cliniques sur le cancer du sein et de la thyroïde.
Notre objectif est de développer un outil qui permettrait une analyse et une structuration automatique rapide et précise des données dans les rapports de biopsie.

Objectif principal :
Développer et valider une nouvelle approche hybride utilisant le traitement de reconnaissance optique de caractères (OCR) et le langage naturel (NLP) pour structurer les données cliniques à partir des rapports de biopsie numérisées.
Objectifs secondaires :
Evaluer les risques d’erreur entre la pratique courante et le système automatique.
Evaluer le gain de temps généré par cet outil versus le recueil manuel de données.
Déterminer la faisabilité et les avantages de la nouvelle approche et la meilleure façon d'intégrer ce système dans un flux de travail clinique quotidien.

Critère de jugement principal :
On mesurera les performances d’extraction des informations ciblées par AMBER (en terme de recall et précision) versus le gold standard (relecture des dossiers médicaux par un médecin spécialiste).
Critères de jugement secondaires :
On mesurera les performances d’extraction des informations ciblées par AMBER (en terme de recall et precision) versus les performances d’extraction manuelle des données pour remplir les cahiers d’observation de plusieurs études cliniques par des ARC.
Nous mesurerons le gain de temps grâce à l'utilisation du système hybride versus la recherche et extraction manuelle.
Nous identifierons le nombre de biopsies qui ne sont pas actuellement structurées et dont l'information n'est pas actuellement disponible pour la prise en charge du patient et l'impact sur son suivi.
Nous évaluerons la possibilité d’utiliser cette méthode en pratique clinique courante au CAL et nous validerons cette méthode dans un autre Centre participant à l’étude : l’Institut Paoli-Calmette.

Population étudiée :
Patients pour lesquels nous disposons d'au moins un compte-rendu de biopsie scanné dans le DPI.
Critères d’inclusion :
Âge ≥ 18 ans
Patient pris en charge pour un cancer du sein ou de la thyroïde au Centre Antoine Lacassagne
Patient ayant réalisé une biopsie en dehors du Centre Antoine Lacassagne
Patient ayant pris connaissance de la note d’information et non opposé au traitement de ses données

Critères de non inclusion :
Patients de moins de 18 ans
Patient incapable de donner son libre consentement

Données utilisées

Catégories de données utilisées

Informations relatives aux pathologies des personnes concernées

Informations recueillies à l'occasion d'activités de prévention, de diagnostic, de soins ou de suivi social et médico-social

Source de données utilisées

Autre

Autre(s) source(s) de donnée(s) mobilisée(s)

Dossiers Médicaux

Appariement entre les sources de données mobilisées

Non

Variables sensibles utilisées

Date de soins (JJ/MM/AAAA)

Année et mois de naissance

Date de décès (JJ/MM/AAAA)

Justification du recours à cette(ces) variable(s) sensible(s)

Données essentielles pour structurer les données cliniques à partir des rapports de biopsie numérisées.

Recours au numéro d'identification des professionnels de santé

Non

Plateforme utilisée pour l'analyse des données

Autre

Acteurs finançant et participant à l'étude

Responsable(s) de traitement

Type de responsable de traitement 1

Etablissement privé de santé (dont fédération)

Responsable de traitement 1

Centre Antoine Lacassagne

33 Avenue De Valombrose 06189 NICE, cedex 02 France

Localisation du responsable de traitement 1

Dans l'UE

Représentant du responsable de traitement 1

Emmanuel CHAMOREY

emmanuel.chamorey@ice.unicancer.fr

Calendrier du projet

Date de début : 01/04/2024 – Date de fin : 31/03/2025 Durée de l'étude : 12

Base légale pour accéder aux données

Encadrement réglementaire

Méthodologie de référence 004

Destinataire(s) des données

Destinataire des données 1

Sara CONTU

33 Avenue De Valombrose 06189 NICE, cedex 02 France

Durée de conservation aux fins du projet (en années)

Existence d'une prise de décision automatisée

Non

Fondement juridique

Article 6 du RGPD (Licéité du traitement)

(1)(e) exécution d’une mission d’intérêt public

Article 9 du RGPD (Exception permettant de traiter des données de santé)

(2)(i) intérêt public dans le domaine de la santé publique

Transfert de données personnelles vers un pays hors UE

Non

Droits des personnes

Les personnes peuvent exercer leurs droits en contactant le DPO de l'établissement. Les modalités d'exercice des droits sont précisés dans la note d'information remise au patient ou via le portail de transparence medonnées.unicancer.fr

Délégué à la protection des données

Centre Antoine Lacassagne

33 Avenue De Valombrose 06189 NICE, cedex 02 France

anne-catherine.noble@nice.unicancer.fr