Slide 1

Slide 1 text

Apprentissage de représentations de concepts médicaux à partir du SNDS snds2vec Présentation Etalab - 2020.03.11 Matthieu Doutreligne - Drees snds2vec.health-data-hub.fr:8051

Slide 2

Slide 2 text

Motivation La proximité entre deux individus ou population est complexe

Slide 3

Slide 3 text

Motivation : plus basique ! ● Comparer deux événements d’un parcours ● Quantifier à partir des données la proximité entre événements

Slide 4

Slide 4 text

Objectif On aimerait une représentation des codes / événements qui permettent de quantifier une distance entre eux

Slide 5

Slide 5 text

Inspiration, le langage et word2vec ● Hypothèse : Deux mots sont proches ssi ils apparaissent dans des contextes similaires (“You shall know a word by the company it keeps”, hypothèse de distribution de Firth, 1957) La reine est assise sur le trône et discute avec le roi des problèmes du royaume. On force deux mots à se rapprocher quand ils co-occurrent dans une fenêtre de taille donnée (exemple 5 mots). fenêtre = 2 x 5 mots

Slide 6

Slide 6 text

Deux Méthodes ● Word2vec : Prédiction du contexte à partir du mot central à l’aide d’un réseau de neurone à une couche ● SVD(PPMI) : Décomposition en valeurs singulières de la matrice de co-occurrence

Slide 7

Slide 7 text

Sur le SNDS Le Système National des Données de Santé (SNDS) est un pseudonymisées couvrant l'ensemble de la population française et contenant l'ensemble des soins présentés au remboursement. Créé en 2016 dans la continuité d'un entrepôt précédent, géré par la Caisse Nationale de l'Assurance Maladie (CNAM), il permet de chaîner : - les données de l'assurance maladie (base SNIIRAM) - les données des hôpitaux (base PMSI) - les causes médicales de décès (base du CépiDC de l'Inserm) En quelques chiffres, le SNDS c'est plus de 3000 variables, et un flux annuel de : - 1,2 milliards de feuilles de soins - 11 millions de séjours hospitaliers - 500 millions d'actes - Plusieurs To de données

Slide 8

Slide 8 text

Sur le Système National des Données de Santé Données : ○ Produit : Échantillon 3 millions de bénéficiaires sur 9 ans ○ Sources : DCIR (assurance maladie), les PMSI (hospitalier) MCO, MCO_CE, SSR, SSR_CE, HAD ○ Evénements : CIM10 (diagnostics), actes techniques CCAM (ville, hôpital, consultations externes), médicaments en ville, biologie en ville ○ Granularité des codes : Plusieurs essais, ici granularité fine : ATC 7, CIM10 complète (4 caractères), CCAM complète (7 caractères), biologie non regroupée (4 chiffres) -> 18K codes https://documentation-snds.health-data-hub.fr/

Slide 9

Slide 9 text

Sur le SNDS ● Factorisation de la matrice de co-occurrence M avec des séquences patients ● Paramètres : rayon=30 jours (rayon=90 en cours d’analyse)

Slide 10

Slide 10 text

Résultats

Slide 11

Slide 11 text

Résultats, TSNE-plot ● Projection en deux dimensions ● Mise en évidence de groupe d’événements proches ● Distinction forte selon la catégorie/terminologie des codes ● Groupes de pathologies émergeants

Slide 12

Slide 12 text

Résultats, Qualitatifs ● Exemples : pyélonéphrite (N10) / entorse cheville (S93) / ... DEMO : http://snds2vec.health-data-hub.fr:8051/

Slide 13

Slide 13 text

Résultats, Qualitatifs, r=30 vs r=90

Slide 14

Slide 14 text

Illustration de la reconstruction de la hiérarchie CIM10, granularité 3 caractères, r=30 jours, centrée Colorée par chapitre (premier caractère)

Slide 15

Slide 15 text

● Evolution des pratiques : - Calculer les codes d’année en année et regarder les vecteurs évoluant le plus -> Premiers résultats encourageant https://drees.shinyapps.io/embeddings3peri odes100parmi15k/ ● Aide au phénotypage : ○ Détection de population/pathologie en partant d’un code central et en incluant ses plus proches voisins. Intéressant en transfer learning -> Difficulté d’évaluer l’efficacité car manques de gold standard !

Slide 16

Slide 16 text

Références sur word2vec en santé : - Y. Choi, C. Y.-I. Chiu, et D. Sontag, « Learning Low-Dimensional Representations of Medical Concepts », AMIA Jt Summits Transl Sci Proc. 2016, p. 41–50, 2016. - A. L. Beam et al., « Clinical Concept Embeddings Learned from Massive Sources of Multimodal Medical Data », arXiv:1804.01486 [cs, stat], avr. 2018. Références sur word2vec en langages : - T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, et J. Dean, « Distributed Representations of Words and Phrases and their Compositionality », Nips process, vol. 2013, p. 9. - O. Levy et Y. Goldberg, « Neural Word Embedding as Implicit Matrix Factorization », Nips process, vol. 2014, p. 9 Codes : - SNDS2vec webapp, exploration : - lien externe : http://snds2vec.health-data-hub.fr:8051/ - Code source application : https://gitlab.com/DREES_code/OSAM/appli_snds2vec_fr - Notebook d’explorations (python) : https://gitlab.com/DREES_code/OSAM/snds2vec_analyse