Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#24 Réconcilier data management et sémantique

#24 Réconcilier data management et sémantique

Le data management est la discipline qui assure la qualité des ressources numériques. Par exemple, le contexte des données peut être apporté par l’ajout de métadonnées issues de Master Data ou dictionnaires contrôlés (en science de la vie: code patient, code maladie, en logistique le code produit, ...).

La sémantique et les ontologies sont le graal de la gestion des connaissances. Cependant leur flexibilité extrême les rendent complexes à intégrer dans des applications informatiques.

Au cours de cette présentation, nous allons voir comment tenter de réconcilier ces deux mondes. Nous avons tous à y gagner pour mieux qualifier nos données et les relier entre elles.

Erwan David : CTO chez DEXSTR

Toulouse Data Science

November 15, 2017
Tweet

More Decks by Toulouse Data Science

Other Decks in Technology

Transcript

  1. Réconcilier data management et sémantique Toulouse Data Science Erwan David

    Co-founder | Chief Technology Officer [email protected] | +33 658 634 496 | www.dexstr.io
  2. 4

  3. Pourquoi si peu de fiabilité ? Une solution : Le

    data management Définition, exemples Outils et limites observés en biologie La sémantique à la rescousse ? Définition, expériences Architecture et exemples Peut-on s’améliorer ? 7
  4. INTRODUCCION A LA MEJORA GENETICA VEGETAL JOSE IGNACIO CUBERO SALMERON

    , S.A. MUNDI-PRENSA LIBROS, 2013 ISBN 9788484766551 8
  5. Compare Compute Publish Experiment Observe Register FASTA DCM CEL IMPORT

    RAW DAT XML IRF LAB 9 80 % des données en science sont des fichiers* Un projet de recherche c’est • des données expérimentales, • des données raffinées, • des scripts ou paramétrages d’algo, • des rapports Certains projets durent des années * Knowledge Acquisition and Modeling Workshop, 2008. KAM Workshop 2008. IEEE International Symposium 9
  6. 10 Seulement le passage à l’échelle est assez difficile :

    Données non comparables Expériences peu reproductibles Perte du contexte Silo Pas d’indexation Obsolescence
  7. 11

  8. FAIR DATA To be Findable: F1. (meta)data are assigned a

    globally unique and persistent identifier F2. data are described with rich metadata (defined by R1 below) F3. metadata clearly and explicitly include the identifier of the data it describes F4. (meta)data are registered or indexed in a searchable resource To be Accessible : A1. (meta)data are retrievable by their identifier using a standardized communications protocol A1.1 the protocol is open, free, and universally implementable A1.2 the protocol allows for an authentication and authorization procedure, where necessary A2. metadata are accessible, even when the data are no longer available To be Interoperable: I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation. I2. (meta)data use vocabularies that follow FAIR principles I3. (meta)data include qualified references to other (meta)data To be Reusable: R1. meta(data) are richly described with a plurality of accurate and relevant attributes R1.1. (meta)data are released with a clear and accessible data usage license R1.2. (meta)data are associated with detailed provenance R1.3. (meta)data meet domain-relevant community standards 12
  9. Cahiers de laboratoire électronique Importance pour la PI Laboratory Information

    Management Systems Importance tracabilité (ELN) (LIMS) Comment appliquer ces principes ?
  10. Descriptions des expériences par couple clef-valeur Dictionnaires contrôlés certes mais

    pas universels Data management qualifier à l’échelle d’une organisation Les donnés elles-mêmes (raw, scripts, …) ne sont pas annotées Certes… Comment aller plus loin ? ? = 14
  11. L’étude du sens en général En IT : rendre l’information

    compréhensible par des machines Utilisation d’ontologies Serveurs de métadonnées générales (Dublin Core, foaf) Biologie: OBO foundry (et OLS), bioportal Tout mettre au format RDF ? La sémantique 15
  12. https://www.w3.org/wiki/LargeTripleStores UNIPROT : - close to 13 billion triples loaded

    in 57,240 seconds at a rate of 225,297 st./sec. (just under 16 hours). If data size is judged by the amount of triples in the input files (which is 17 billion), the loading speed is 295 000 st./sec. The hardware utilized was a dual-CPU server with Xeon E5-2690 CPUs, 512 GB of RAM and SSD storage array DBPedia 2014 : - 566 million triples loaded in 1 hour, 10 minutes (from turtle files) at 180,000 st./sec.. The hardware utilized was a dual-CPU server with Xeon E5-2690 CPUs, 256 GB of RAM and SSD storage array. 16
  13. 17

  14. Expériences curl -X POST -H Content-Type:application/rdf+xml -G http://localhost:3030/obo/data -T ontology.owl

    140 ontologies, 1 518 456 entités 50 000 000 triplets AWS EC2 t2.2xlarge 8vCPU 32GB RAM Env 2h 16 secondes pour une recherche d’entité type *string* 18
  15. Triple store sont des bases de données Cependant rapidement le

    nombre de triplets devient énorme Plutôt un datalake qu’un storage opérationnel ? Le data management à une échelle de besoins en sémantique Gérer des listes de termes contrôlés (par dictionnaires) Gérer des liens de sens (synonymes & cross reférences) Gérer des liens de parentés Le prix de l’universalité 19
  16. Parents Synonymes et cross références Listes de termes contrôlés Niveaux

    sémantiques du data management 20 http://www.w3.org/2000/01/rdf-schema#subClassOf" http://www.geneontology.org/formats /oboInOwl#hasExactSynonym http://www.w3.org/2000/ 01/rdf-schema#label
  17. Comparaison de stockage: • natif OWL dans jena • simplification

    dans neo4j • simplification dans mongoDB 21
  18. Large triple store Operational Metadata Management SQL World Files in

    NAS/SAN HDFS, S3… CURATION and ENTITY DETECTION TOOLS External data Insight Entities SQL World Entities & relationships 22
  19. Le data management est la discipline qui assure la qualité

    des ressources numériques. Par exemple, le contexte des données peut être apporté par l’ajout de métadonnées issues de Master Data ou de dictionnaires contrôlés (en science de la vie: code patient, code maladie, en logistique le code produit, ...). La sémantique et les ontologies sont le graal de la gestion des connaissances. Cependant leur flexibilité extrême les rendent complexes à intégrer dans des applications informatiques. Au cours de cette présentation, nous allons voir comment tenter de réconcilier ces deux mondes. Nous avons tous à y gagner pour mieux qualifier nos données et les relier entre elles.
  20. DATA SOURCE INTEGRATION LAYER CONSUMERS The Tagging API - Understands

    queries, - Lookup Ontologies, - Query responsible systems - Answer request Single view of all ontologies, requestable by business entities (like disease, compounds, gene, organism) SQL Ultra Fast Pace: Direct SQL query SQL OBO Fast Pace: RDF integration MDM SQL SQL Controled Pace: Master Data THE BIG PICTURE Ontology Mapping