Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20200311_datadrink_inserm.pdf

8eada3aa8251117a617e101bb2881366?s=47 etalab-ia
March 11, 2020
33

 20200311_datadrink_inserm.pdf

8eada3aa8251117a617e101bb2881366?s=128

etalab-ia

March 11, 2020
Tweet

Transcript

  1. 1 12/03/2020 CépiDc Centre d’épidémiologie sur les causes médicales de

    décès 11 mars 2020 Apprentissage profond et reconnaissance d’entités médicales CIM10 à partir du langage naturel Louis Falissard, Claire Imbaud, Walid Ghosn, Karim Bounebache, Grégoire Rey
  2. 2 12/03/2020 Introduction • Codage médical • Identifier les entités

    médicales contenues dans un document de texte libre • Enjeu d’importance en santé publique • Processus long, coûteux et soumis à des variabilités
  3. 3 12/03/2020 Introduction • Exemple au CépiDc: Codage des certificats

    de décès • Renseignée par le médecin sur le certificat en langage naturel • Convertie en code CIM10 préalablement au codage • Principale source d’information impliquée dans les règles de décisions de l’OMS Line Natural language ICD10 encoding 1 STROKE IN SEPTEMBER LEFT HEMIPARESIS I64 G819 2 FALL SCALP LACERATION FRACTURE HUMERUS S010 W19 S423 3 CORONARY ARTERY DISEASE I251 4 ACUTE INTRACRANIAL HEMORRHAGE I629 6 DEMENTIA DEPRESSION HYPERTENSION F03 F329 I10
  4. 4 12/03/2020 Introduction • Récentes avancées en apprentissage machine (profond)

    • Performances supérieures aux systèmes experts • Nécessite des données massives
  5. 5 12/03/2020 Introduction • Apprentissage machine Régression Classification (régression logistique)

  6. 6 12/03/2020 Définition du problème • Jeu de données •

    Base de données du CépiDc sur les années 2011 à 2016 • Base exhaustive des certificats de décès en France • ≈ 3 millions d’observations • Conditions favorables à l’exploitation de méthodes d’apprentissage profond
  7. 7 12/03/2020 Définition du problème • Variables principales: • Chaine

    d’évènement sous formats textuels et CIM10
  8. 8 12/03/2020 Définition du problème • 3 variables catégorielles additionnelles:

    • Genre (2 états) • Année du décès (16 états) • Age (25 états) • Assimilation à un problème de traduction automatique • Modèles séquentiels (seq2seq)
  9. 9 12/03/2020 Définition du modèle • Modèles seq2seq • Projections

    linéaires du texte (Word2vec)
  10. 10 12/03/2020 Définition du modèle • Modèles seq2seq • Projections

    linéaires de la classification CIM (CIM2vec)
  11. 11 12/03/2020 Définition du modèle • Modèles seq2seq • Construction

    simultanée avec espace latent partagé
  12. 12 12/03/2020 Définition du modèle • Problème: aspect séquentiel

  13. 13 12/03/2020 Définition du modèle • Problème: aspect séquentiel •

    Utilisation de deux réseaux de neurones profonds ajustés simultanément
  14. 14 12/03/2020 Ajustement et évaluation des performances • Ajustement •

    Choix du modèle: Transformer (légèrement modifié pour gérer les variables conditionnelles) • Implémentation pratique du modèle avec la version Python de la librairie tensorflow • Optimisation pendant 500 000 itérations réparties en parallèle sur trois GPUs Nvidia RTX 2070 Source: Attention is all you need (Vaswani et al, 2016)
  15. 15 12/03/2020 Ajustement et évaluation des performances • Evaluation des

    performances • Définition de la F-mesure utilisée − Un code est vrai positif si le modèle le prédit et qu'il est contenu dans la valeur cible − Un code est faux positif si le modèle le prédit et qu'il n'est pas contenu dans la valeur cible − Un code est faux négatif s'il n'est pas prédit et qu'il est contenu dans la valeur cible
  16. 16 12/03/2020 Ajustement et évaluation des performances • Evaluation des

    performances • F-mesure de 0.952 (avec ensemble de modèles) • Comparaison avec l’état de l’art: F-mesure de 0.825 (système expert + SVM) • Avancée récente: réplication de la méthode sur données anglaises (6 millions d’observations) • F-mesure de 0,987 (modèle unique) • Comparaison avec l’état de l’art: F-mesure de 0.85 (apprentissage profond avec réseau récurrent) Source: CLEF eHealth 2017 Multilingual Information Extraction task overview: ICD10 coding of death certificates in English and French (Névéol et al, 2017)
  17. 17 12/03/2020 Conclusion • Elaboration d’un outil de codage aux

    performances de niveau nosologiste • Multiples applications potentielles • Contrôle de qualité • Accélération de la production de données • Codage rétrospectif homogène • Perspectives: • Amélioration des performances en exploitant des données multilingues
  18. 18 12/03/2020 Conclusion • Merci pour votre attention

  19. 19 12/03/2020 Définition du modèle • Neurone artificiel

  20. 20 12/03/2020 Définition du problème • Perceptron multicouches ! =

    !! " % ! !! # % ! + !# # % # + ! # + !# " % # #! # % ! + ## # % # + # # + ! "
  21. 21 12/03/2020 Model definition • Multi-layer perceptron: Visualization

  22. 22 12/03/2020 Définition du problème • Perceptron multicouches

  23. 23 12/03/2020 Model definition • Multi-layer perceptron

  24. 24 12/03/2020 Définition du problème • Réseaux à convolution: Couche

    à convolution • Réduire la dimensionnalité du modèle en exploitant les invariances du problème − Localité − Invariance par translation
  25. 25 12/03/2020 Transduction neuronale • Adaptation à l’analyse de séquences:

    Convolution causales dilatées
  26. 26 12/03/2020 Transduction neuronale • Modules d’attentions

  27. 27 12/03/2020 Transduction neuronale • Modules d’attentions • Ajustement par

    « teacher forcing »
  28. 28 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

  29. 29 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

  30. 30 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

  31. 31 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

  32. 32 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne