20200311_datadrink_snds2vec.pdf

Apprentissage de représentations de concepts médicaux à partir du SNDS
snds2vec Présentation Etalab - 2020.03.11 Matthieu Doutreligne - Drees snds2vec.health-data-hub.fr:8051

Motivation La proximité entre deux individus ou population est complexe

Motivation : plus basique ! • Comparer deux événements d’un
parcours • Quantifier à partir des données la proximité entre événements

Objectif On aimerait une représentation des codes / événements qui
permettent de quantifier une distance entre eux

Inspiration, le langage et word2vec • Hypothèse : Deux mots
sont proches ssi ils apparaissent dans des contextes similaires (“You shall know a word by the company it keeps”, hypothèse de distribution de Firth, 1957) La reine est assise sur le trône et discute avec le roi des problèmes du royaume. On force deux mots à se rapprocher quand ils co-occurrent dans une fenêtre de taille donnée (exemple 5 mots). fenêtre = 2 x 5 mots

Deux Méthodes • Word2vec : Prédiction du contexte à partir
du mot central à l’aide d’un réseau de neurone à une couche • SVD(PPMI) : Décomposition en valeurs singulières de la matrice de co-occurrence

Sur le SNDS Le Système National des Données de Santé
(SNDS) est un pseudonymisées couvrant l'ensemble de la population française et contenant l'ensemble des soins présentés au remboursement. Créé en 2016 dans la continuité d'un entrepôt précédent, géré par la Caisse Nationale de l'Assurance Maladie (CNAM), il permet de chaîner : - les données de l'assurance maladie (base SNIIRAM) - les données des hôpitaux (base PMSI) - les causes médicales de décès (base du CépiDC de l'Inserm) En quelques chiffres, le SNDS c'est plus de 3000 variables, et un flux annuel de : - 1,2 milliards de feuilles de soins - 11 millions de séjours hospitaliers - 500 millions d'actes - Plusieurs To de données

Sur le Système National des Données de Santé Données :
◦ Produit : Échantillon 3 millions de bénéficiaires sur 9 ans ◦ Sources : DCIR (assurance maladie), les PMSI (hospitalier) MCO, MCO_CE, SSR, SSR_CE, HAD ◦ Evénements : CIM10 (diagnostics), actes techniques CCAM (ville, hôpital, consultations externes), médicaments en ville, biologie en ville ◦ Granularité des codes : Plusieurs essais, ici granularité fine : ATC 7, CIM10 complète (4 caractères), CCAM complète (7 caractères), biologie non regroupée (4 chiffres) -> 18K codes https://documentation-snds.health-data-hub.fr/

Sur le SNDS • Factorisation de la matrice de co-occurrence
M avec des séquences patients • Paramètres : rayon=30 jours (rayon=90 en cours d’analyse)

Résultats

Résultats, TSNE-plot • Projection en deux dimensions • Mise en
évidence de groupe d’événements proches • Distinction forte selon la catégorie/terminologie des codes • Groupes de pathologies émergeants

Résultats, Qualitatifs • Exemples : pyélonéphrite (N10) / entorse cheville
(S93) / ... DEMO : http://snds2vec.health-data-hub.fr:8051/

Résultats, Qualitatifs, r=30 vs r=90

Illustration de la reconstruction de la hiérarchie CIM10, granularité 3
caractères, r=30 jours, centrée Colorée par chapitre (premier caractère)

• Evolution des pratiques : - Calculer les codes d’année
en année et regarder les vecteurs évoluant le plus -> Premiers résultats encourageant https://drees.shinyapps.io/embeddings3peri odes100parmi15k/ • Aide au phénotypage : ◦ Détection de population/pathologie en partant d’un code central et en incluant ses plus proches voisins. Intéressant en transfer learning -> Difficulté d’évaluer l’efficacité car manques de gold standard !

Références sur word2vec en santé : - Y. Choi, C.
Y.-I. Chiu, et D. Sontag, « Learning Low-Dimensional Representations of Medical Concepts », AMIA Jt Summits Transl Sci Proc. 2016, p. 41–50, 2016. - A. L. Beam et al., « Clinical Concept Embeddings Learned from Massive Sources of Multimodal Medical Data », arXiv:1804.01486 [cs, stat], avr. 2018. Références sur word2vec en langages : - T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, et J. Dean, « Distributed Representations of Words and Phrases and their Compositionality », Nips process, vol. 2013, p. 9. - O. Levy et Y. Goldberg, « Neural Word Embedding as Implicit Matrix Factorization », Nips process, vol. 2014, p. 9 Codes : - SNDS2vec webapp, exploration : - lien externe : http://snds2vec.health-data-hub.fr:8051/ - Code source application : https://gitlab.com/DREES_code/OSAM/appli_snds2vec_fr - Notebook d’explorations (python) : https://gitlab.com/DREES_code/OSAM/snds2vec_analyse

20200311_datadrink_snds2vec.pdf

20200311_datadrink_snds2vec.pdf

etalab-ia

More Decks by etalab-ia

Featured

Transcript

Apprentissage de représentations de concepts médicaux à partir du SNDS

Motivation La proximité entre deux individus ou population est complexe

Motivation : plus basique ! • Comparer deux événements d’un

Objectif On aimerait une représentation des codes / événements qui

Inspiration, le langage et word2vec • Hypothèse : Deux mots

Deux Méthodes • Word2vec : Prédiction du contexte à partir

Sur le SNDS Le Système National des Données de Santé

Sur le Système National des Données de Santé Données :

Sur le SNDS • Factorisation de la matrice de co-occurrence

Résultats

Résultats, TSNE-plot • Projection en deux dimensions • Mise en

Résultats, Qualitatifs • Exemples : pyélonéphrite (N10) / entorse cheville

Résultats, Qualitatifs, r=30 vs r=90

Illustration de la reconstruction de la hiérarchie CIM10, granularité 3

• Evolution des pratiques : - Calculer les codes d’année

Références sur word2vec en santé : - Y. Choi, C.