AMBER : Automated Method for structuring data from Biopsy Examination Reports Une nouvelle approche hybride de reconnaissance optique des caractères avec traitement du langage naturel pour l'extraction de données dans les rapports de biopsies
Objectif(s) de la recherche et intérêt pour la santé publique
Finalité de l'étude
Objectifs poursuivis
Domaines médicaux investigués
Bénéfices attendus
Les dossiers informatisés des patients contiennent un grand nombre d’examens réalisés en dehors de l’hôpital. Ces examens sont très souvent stockés sous forme d’images dans des fichiers PDF ou Word et dans un format non standardisé, ce qui empêche une extraction automatique des données. Le traitement de ces données est indispensable à la prise en charge des patients à l’hôpital. Nous souhaitons développer AMBER, un outil basé sur une nouvelle approche hybride utilisant le traitement de reconnaissance optique de caractères OCR avec le traitement du langage naturel NLP pour identifier et structurer les informations cliniques dans les photocopies numérisées des rapports de biopsies rédigés sous différents formats par plusieurs laboratoires.
Différents modèles d’intelligence artificielle et des méthodes de prétraitement d'image seront testés sur ces documents scannés, y compris ceux pouvant conduire à la création d'un système d’extraction automatique ne nécessitant pas d’annotation manuelle (processus chronophage et couteux).
La performance d’AMBER sera évaluée en comparant les informations extraites automatiquement avec les données collectées manuellement par un médecin spécialiste à partir de rapports de biopsie en fichiers PDF et Word et avec les données collectées dans les cahiers d’observation de plusieurs études cliniques sur le cancer du sein et de la thyroïde.
Notre objectif est de développer un outil qui permettrait une analyse et une structuration automatique rapide et précise des données dans les rapports de biopsie.
Objectif principal :
Développer et valider une nouvelle approche hybride utilisant le traitement de reconnaissance optique de caractères (OCR) et le langage naturel (NLP) pour structurer les données cliniques à partir des rapports de biopsie numérisées.
Objectifs secondaires :
Evaluer les risques d’erreur entre la pratique courante et le système automatique.
Evaluer le gain de temps généré par cet outil versus le recueil manuel de données.
Déterminer la faisabilité et les avantages de la nouvelle approche et la meilleure façon d'intégrer ce système dans un flux de travail clinique quotidien.
Critère de jugement principal :
On mesurera les performances d’extraction des informations ciblées par AMBER (en terme de recall et précision) versus le gold standard (relecture des dossiers médicaux par un médecin spécialiste).
Critères de jugement secondaires :
On mesurera les performances d’extraction des informations ciblées par AMBER (en terme de recall et precision) versus les performances d’extraction manuelle des données pour remplir les cahiers d’observation de plusieurs études cliniques par des ARC.
Nous mesurerons le gain de temps grâce à l'utilisation du système hybride versus la recherche et extraction manuelle.
Nous identifierons le nombre de biopsies qui ne sont pas actuellement structurées et dont l'information n'est pas actuellement disponible pour la prise en charge du patient et l'impact sur son suivi.
Nous évaluerons la possibilité d’utiliser cette méthode en pratique clinique courante au CAL et nous validerons cette méthode dans un autre Centre participant à l’étude : l’Institut Paoli-Calmette.
Population étudiée :
Patients pour lesquels nous disposons d'au moins un compte-rendu de biopsie scanné dans le DPI.
Critères d’inclusion :
Âge ≥ 18 ans
Patient pris en charge pour un cancer du sein ou de la thyroïde au Centre Antoine Lacassagne
Patient ayant réalisé une biopsie en dehors du Centre Antoine Lacassagne
Patient ayant pris connaissance de la note d’information et non opposé au traitement de ses données
Critères de non inclusion :
Patients de moins de 18 ans
Patient incapable de donner son libre consentement
Données utilisées
Catégories de données utilisées
Source de données utilisées
Autre(s) source(s) de donnée(s) mobilisée(s)
Appariement entre les sources de données mobilisées
Variables sensibles utilisées
Justification du recours à cette(ces) variable(s) sensible(s)
Données essentielles pour structurer les données cliniques à partir des rapports de biopsie numérisées.
Recours au numéro d'identification des professionnels de santé
Plateforme utilisée pour l'analyse des données
Acteurs finançant et participant à l'étude
Responsable(s) de traitement
Type de responsable de traitement 1
Responsable de traitement 1
Localisation du responsable de traitement 1
Représentant du responsable de traitement 1
Calendrier du projet
Base légale pour accéder aux données
Encadrement réglementaire
Durée de conservation aux fins du projet (en années)
2
Existence d'une prise de décision automatisée
Fondement juridique
Article 6 du RGPD (Licéité du traitement)
Article 9 du RGPD (Exception permettant de traiter des données de santé)
Transfert de données personnelles vers un pays hors UE
Droits des personnes
Les personnes peuvent exercer leurs droits en contactant le DPO de l'établissement. Les modalités d'exercice des droits sont précisés dans la note d'information remise au patient ou via le portail de transparence medonnées.unicancer.fr