20200311_datadrink_inserm.pdf

1 12/03/2020 CépiDc Centre d’épidémiologie sur les causes médicales de
décès 11 mars 2020 Apprentissage profond et reconnaissance d’entités médicales CIM10 à partir du langage naturel Louis Falissard, Claire Imbaud, Walid Ghosn, Karim Bounebache, Grégoire Rey

2 12/03/2020 Introduction • Codage médical • Identifier les entités
médicales contenues dans un document de texte libre • Enjeu d’importance en santé publique • Processus long, coûteux et soumis à des variabilités

3 12/03/2020 Introduction • Exemple au CépiDc: Codage des certificats
de décès • Renseignée par le médecin sur le certificat en langage naturel • Convertie en code CIM10 préalablement au codage • Principale source d’information impliquée dans les règles de décisions de l’OMS Line Natural language ICD10 encoding 1 STROKE IN SEPTEMBER LEFT HEMIPARESIS I64 G819 2 FALL SCALP LACERATION FRACTURE HUMERUS S010 W19 S423 3 CORONARY ARTERY DISEASE I251 4 ACUTE INTRACRANIAL HEMORRHAGE I629 6 DEMENTIA DEPRESSION HYPERTENSION F03 F329 I10

4 12/03/2020 Introduction • Récentes avancées en apprentissage machine (profond)
• Performances supérieures aux systèmes experts • Nécessite des données massives

5 12/03/2020 Introduction • Apprentissage machine Régression Classification (régression logistique)

6 12/03/2020 Définition du problème • Jeu de données •
Base de données du CépiDc sur les années 2011 à 2016 • Base exhaustive des certificats de décès en France • ≈ 3 millions d’observations • Conditions favorables à l’exploitation de méthodes d’apprentissage profond

7 12/03/2020 Définition du problème • Variables principales: • Chaine
d’évènement sous formats textuels et CIM10

8 12/03/2020 Définition du problème • 3 variables catégorielles additionnelles:
• Genre (2 états) • Année du décès (16 états) • Age (25 états) • Assimilation à un problème de traduction automatique • Modèles séquentiels (seq2seq)

9 12/03/2020 Définition du modèle • Modèles seq2seq • Projections
linéaires du texte (Word2vec)

10 12/03/2020 Définition du modèle • Modèles seq2seq • Projections
linéaires de la classification CIM (CIM2vec)

11 12/03/2020 Définition du modèle • Modèles seq2seq • Construction
simultanée avec espace latent partagé

12 12/03/2020 Définition du modèle • Problème: aspect séquentiel

13 12/03/2020 Définition du modèle • Problème: aspect séquentiel •
Utilisation de deux réseaux de neurones profonds ajustés simultanément

14 12/03/2020 Ajustement et évaluation des performances • Ajustement •
Choix du modèle: Transformer (légèrement modifié pour gérer les variables conditionnelles) • Implémentation pratique du modèle avec la version Python de la librairie tensorflow • Optimisation pendant 500 000 itérations réparties en parallèle sur trois GPUs Nvidia RTX 2070 Source: Attention is all you need (Vaswani et al, 2016)

15 12/03/2020 Ajustement et évaluation des performances • Evaluation des
performances • Définition de la F-mesure utilisée − Un code est vrai positif si le modèle le prédit et qu'il est contenu dans la valeur cible − Un code est faux positif si le modèle le prédit et qu'il n'est pas contenu dans la valeur cible − Un code est faux négatif s'il n'est pas prédit et qu'il est contenu dans la valeur cible

16 12/03/2020 Ajustement et évaluation des performances • Evaluation des
performances • F-mesure de 0.952 (avec ensemble de modèles) • Comparaison avec l’état de l’art: F-mesure de 0.825 (système expert + SVM) • Avancée récente: réplication de la méthode sur données anglaises (6 millions d’observations) • F-mesure de 0,987 (modèle unique) • Comparaison avec l’état de l’art: F-mesure de 0.85 (apprentissage profond avec réseau récurrent) Source: CLEF eHealth 2017 Multilingual Information Extraction task overview: ICD10 coding of death certificates in English and French (Névéol et al, 2017)

17 12/03/2020 Conclusion • Elaboration d’un outil de codage aux
performances de niveau nosologiste • Multiples applications potentielles • Contrôle de qualité • Accélération de la production de données • Codage rétrospectif homogène • Perspectives: • Amélioration des performances en exploitant des données multilingues

18 12/03/2020 Conclusion • Merci pour votre attention

19 12/03/2020 Définition du modèle • Neurone artificiel

20 12/03/2020 Définition du problème • Perceptron multicouches ! =
!! " % ! !! # % ! + !# # % # + ! # + !# " % # #! # % ! + ## # % # + # # + ! "

21 12/03/2020 Model definition • Multi-layer perceptron: Visualization

22 12/03/2020 Définition du problème • Perceptron multicouches

23 12/03/2020 Model definition • Multi-layer perceptron

24 12/03/2020 Définition du problème • Réseaux à convolution: Couche
à convolution • Réduire la dimensionnalité du modèle en exploitant les invariances du problème − Localité − Invariance par translation

25 12/03/2020 Transduction neuronale • Adaptation à l’analyse de séquences:
Convolution causales dilatées

26 12/03/2020 Transduction neuronale • Modules d’attentions

27 12/03/2020 Transduction neuronale • Modules d’attentions • Ajustement par
« teacher forcing »

28 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

20200311_datadrink_inserm.pdf

20200311_datadrink_inserm.pdf

etalab-ia

More Decks by etalab-ia

Featured

Transcript

1 12/03/2020 CépiDc Centre d’épidémiologie sur les causes médicales de

2 12/03/2020 Introduction • Codage médical • Identifier les entités

3 12/03/2020 Introduction • Exemple au CépiDc: Codage des certificats

4 12/03/2020 Introduction • Récentes avancées en apprentissage machine (profond)

5 12/03/2020 Introduction • Apprentissage machine Régression Classification (régression logistique)

6 12/03/2020 Définition du problème • Jeu de données •

7 12/03/2020 Définition du problème • Variables principales: • Chaine

8 12/03/2020 Définition du problème • 3 variables catégorielles additionnelles:

9 12/03/2020 Définition du modèle • Modèles seq2seq • Projections

10 12/03/2020 Définition du modèle • Modèles seq2seq • Projections

11 12/03/2020 Définition du modèle • Modèles seq2seq • Construction

12 12/03/2020 Définition du modèle • Problème: aspect séquentiel

13 12/03/2020 Définition du modèle • Problème: aspect séquentiel •

14 12/03/2020 Ajustement et évaluation des performances • Ajustement •

15 12/03/2020 Ajustement et évaluation des performances • Evaluation des

16 12/03/2020 Ajustement et évaluation des performances • Evaluation des

17 12/03/2020 Conclusion • Elaboration d’un outil de codage aux

18 12/03/2020 Conclusion • Merci pour votre attention

19 12/03/2020 Définition du modèle • Neurone artificiel

20 12/03/2020 Définition du problème • Perceptron multicouches ! =

21 12/03/2020 Model definition • Multi-layer perceptron: Visualization

22 12/03/2020 Définition du problème • Perceptron multicouches

23 12/03/2020 Model definition • Multi-layer perceptron

24 12/03/2020 Définition du problème • Réseaux à convolution: Couche

25 12/03/2020 Transduction neuronale • Adaptation à l’analyse de séquences:

26 12/03/2020 Transduction neuronale • Modules d’attentions

27 12/03/2020 Transduction neuronale • Modules d’attentions • Ajustement par

28 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

29 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

30 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

31 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne

32 12/03/2020 Transduction neuronale • Modules d’attentions • Prédiction gloutonne