Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20200311_datadrink_snds2vec.pdf

8eada3aa8251117a617e101bb2881366?s=47 etalab-ia
March 11, 2020
53

 20200311_datadrink_snds2vec.pdf

8eada3aa8251117a617e101bb2881366?s=128

etalab-ia

March 11, 2020
Tweet

Transcript

  1. Apprentissage de représentations de concepts médicaux à partir du SNDS

    snds2vec Présentation Etalab - 2020.03.11 Matthieu Doutreligne - Drees snds2vec.health-data-hub.fr:8051
  2. Motivation La proximité entre deux individus ou population est complexe

  3. Motivation : plus basique ! • Comparer deux événements d’un

    parcours • Quantifier à partir des données la proximité entre événements
  4. Objectif On aimerait une représentation des codes / événements qui

    permettent de quantifier une distance entre eux
  5. Inspiration, le langage et word2vec • Hypothèse : Deux mots

    sont proches ssi ils apparaissent dans des contextes similaires (“You shall know a word by the company it keeps”, hypothèse de distribution de Firth, 1957) La reine est assise sur le trône et discute avec le roi des problèmes du royaume. On force deux mots à se rapprocher quand ils co-occurrent dans une fenêtre de taille donnée (exemple 5 mots). fenêtre = 2 x 5 mots
  6. Deux Méthodes • Word2vec : Prédiction du contexte à partir

    du mot central à l’aide d’un réseau de neurone à une couche • SVD(PPMI) : Décomposition en valeurs singulières de la matrice de co-occurrence
  7. Sur le SNDS Le Système National des Données de Santé

    (SNDS) est un pseudonymisées couvrant l'ensemble de la population française et contenant l'ensemble des soins présentés au remboursement. Créé en 2016 dans la continuité d'un entrepôt précédent, géré par la Caisse Nationale de l'Assurance Maladie (CNAM), il permet de chaîner : - les données de l'assurance maladie (base SNIIRAM) - les données des hôpitaux (base PMSI) - les causes médicales de décès (base du CépiDC de l'Inserm) En quelques chiffres, le SNDS c'est plus de 3000 variables, et un flux annuel de : - 1,2 milliards de feuilles de soins - 11 millions de séjours hospitaliers - 500 millions d'actes - Plusieurs To de données
  8. Sur le Système National des Données de Santé Données :

    ◦ Produit : Échantillon 3 millions de bénéficiaires sur 9 ans ◦ Sources : DCIR (assurance maladie), les PMSI (hospitalier) MCO, MCO_CE, SSR, SSR_CE, HAD ◦ Evénements : CIM10 (diagnostics), actes techniques CCAM (ville, hôpital, consultations externes), médicaments en ville, biologie en ville ◦ Granularité des codes : Plusieurs essais, ici granularité fine : ATC 7, CIM10 complète (4 caractères), CCAM complète (7 caractères), biologie non regroupée (4 chiffres) -> 18K codes https://documentation-snds.health-data-hub.fr/
  9. Sur le SNDS • Factorisation de la matrice de co-occurrence

    M avec des séquences patients • Paramètres : rayon=30 jours (rayon=90 en cours d’analyse)
  10. Résultats

  11. Résultats, TSNE-plot • Projection en deux dimensions • Mise en

    évidence de groupe d’événements proches • Distinction forte selon la catégorie/terminologie des codes • Groupes de pathologies émergeants
  12. Résultats, Qualitatifs • Exemples : pyélonéphrite (N10) / entorse cheville

    (S93) / ... DEMO : http://snds2vec.health-data-hub.fr:8051/
  13. Résultats, Qualitatifs, r=30 vs r=90

  14. Illustration de la reconstruction de la hiérarchie CIM10, granularité 3

    caractères, r=30 jours, centrée Colorée par chapitre (premier caractère)
  15. • Evolution des pratiques : - Calculer les codes d’année

    en année et regarder les vecteurs évoluant le plus -> Premiers résultats encourageant https://drees.shinyapps.io/embeddings3peri odes100parmi15k/ • Aide au phénotypage : ◦ Détection de population/pathologie en partant d’un code central et en incluant ses plus proches voisins. Intéressant en transfer learning -> Difficulté d’évaluer l’efficacité car manques de gold standard !
  16. Références sur word2vec en santé : - Y. Choi, C.

    Y.-I. Chiu, et D. Sontag, « Learning Low-Dimensional Representations of Medical Concepts », AMIA Jt Summits Transl Sci Proc. 2016, p. 41–50, 2016. - A. L. Beam et al., « Clinical Concept Embeddings Learned from Massive Sources of Multimodal Medical Data », arXiv:1804.01486 [cs, stat], avr. 2018. Références sur word2vec en langages : - T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, et J. Dean, « Distributed Representations of Words and Phrases and their Compositionality », Nips process, vol. 2013, p. 9. - O. Levy et Y. Goldberg, « Neural Word Embedding as Implicit Matrix Factorization », Nips process, vol. 2014, p. 9 Codes : - SNDS2vec webapp, exploration : - lien externe : http://snds2vec.health-data-hub.fr:8051/ - Code source application : https://gitlab.com/DREES_code/OSAM/appli_snds2vec_fr - Notebook d’explorations (python) : https://gitlab.com/DREES_code/OSAM/snds2vec_analyse