$30 off During Our Annual Pro Sale. View Details »

#24 Réconcilier data management et sémantique

#24 Réconcilier data management et sémantique

Le data management est la discipline qui assure la qualité des ressources numériques. Par exemple, le contexte des données peut être apporté par l’ajout de métadonnées issues de Master Data ou dictionnaires contrôlés (en science de la vie: code patient, code maladie, en logistique le code produit, ...).

La sémantique et les ontologies sont le graal de la gestion des connaissances. Cependant leur flexibilité extrême les rendent complexes à intégrer dans des applications informatiques.

Au cours de cette présentation, nous allons voir comment tenter de réconcilier ces deux mondes. Nous avons tous à y gagner pour mieux qualifier nos données et les relier entre elles.

Erwan David : CTO chez DEXSTR

Toulouse Data Science

November 15, 2017
Tweet

More Decks by Toulouse Data Science

Other Decks in Technology

Transcript

  1. Réconcilier data management et
    sémantique
    Toulouse Data Science
    Erwan David Co-founder | Chief Technology Officer
    [email protected] | +33 658 634 496 | www.dexstr.io

    View Slide

  2. des expériences
    en science de la vie
    ne peuvent pas être reproduites

    View Slide

  3. Influances
    MSX
    (1985)
    ADN au µscope
    (1995)
    BioInfo
    (2000)
    Init
    (1976)
    3

    View Slide

  4. 4

    View Slide

  5. https://www.nature.com/news/1-500-scientists-lift-the-lid-on-
    reproducibility-1.19970
    https://www.nature.com/articles/s41562-016-0021

    View Slide

  6. http://visit.crowdflower.com/rs/416-ZBE-
    142/images/CrowdFlower_DataScienceReport_2016.pdf

    View Slide

  7. Pourquoi si peu de fiabilité ?
    Une solution : Le data management
    Définition, exemples
    Outils et limites observés en biologie
    La sémantique à la rescousse ?
    Définition, expériences
    Architecture et exemples
    Peut-on s’améliorer ?
    7

    View Slide

  8. INTRODUCCION A LA MEJORA
    GENETICA VEGETAL
    JOSE IGNACIO CUBERO SALMERON , S.A. MUNDI-PRENSA LIBROS, 2013
    ISBN 9788484766551
    8

    View Slide

  9. Compare
    Compute
    Publish
    Experiment
    Observe
    Register
    FASTA
    DCM
    CEL
    IMPORT
    RAW
    DAT
    XML
    IRF
    LAB
    9
    80 % des données en science sont des
    fichiers*
    Un projet de recherche c’est
    • des données expérimentales,
    • des données raffinées,
    • des scripts ou paramétrages d’algo,
    • des rapports
    Certains projets durent des années
    * Knowledge Acquisition and Modeling Workshop,
    2008. KAM Workshop 2008. IEEE International
    Symposium
    9

    View Slide

  10. 10
    Seulement le passage à
    l’échelle est assez difficile :
    Données non comparables
    Expériences peu
    reproductibles
    Perte du contexte
    Silo
    Pas d’indexation
    Obsolescence

    View Slide

  11. 11

    View Slide

  12. FAIR DATA
    To be
    Findable:
    F1. (meta)data are assigned a globally unique and persistent identifier
    F2. data are described with rich metadata (defined by R1 below)
    F3. metadata clearly and explicitly include the identifier of the data it
    describes
    F4. (meta)data are registered or indexed in a searchable resource
    To be
    Accessible
    :
    A1. (meta)data are retrievable by their identifier using a standardized
    communications protocol
    A1.1 the protocol is open, free, and universally implementable
    A1.2 the protocol allows for an authentication and authorization procedure,
    where necessary
    A2. metadata are accessible, even when the data are no longer available
    To be
    Interoperable:
    I1. (meta)data use a formal, accessible, shared, and broadly applicable
    language for knowledge representation.
    I2. (meta)data use vocabularies that follow FAIR principles
    I3. (meta)data include qualified references to other (meta)data
    To be
    Reusable:
    R1. meta(data) are richly described with a plurality of accurate and
    relevant attributes
    R1.1. (meta)data are released with a clear and accessible data usage
    license
    R1.2. (meta)data are associated with detailed provenance
    R1.3. (meta)data meet domain-relevant community standards
    12

    View Slide

  13. Cahiers de laboratoire électronique
    Importance pour la PI
    Laboratory Information Management Systems
    Importance tracabilité
    (ELN) (LIMS)
    Comment appliquer ces principes ?

    View Slide

  14. Descriptions des expériences par couple clef-valeur
    Dictionnaires contrôlés certes mais pas universels
    Data management qualifier à l’échelle d’une organisation
    Les donnés elles-mêmes (raw, scripts, …) ne sont pas annotées
    Certes…
    Comment aller plus loin ?
    ?
    =
    14

    View Slide

  15. L’étude du sens en général
    En IT : rendre l’information compréhensible par des machines
    Utilisation d’ontologies
    Serveurs de métadonnées générales (Dublin Core, foaf)
    Biologie: OBO foundry (et OLS), bioportal
    Tout mettre au format RDF ?
    La sémantique
    15

    View Slide

  16. https://www.w3.org/wiki/LargeTripleStores
    UNIPROT : - close to 13 billion triples loaded in 57,240 seconds at a rate
    of 225,297 st./sec. (just under 16 hours). If data size is judged by the
    amount of triples in the input files (which is 17 billion), the loading speed
    is 295 000 st./sec. The hardware utilized was a dual-CPU server with
    Xeon E5-2690 CPUs, 512 GB of RAM and SSD storage array
    DBPedia 2014 : - 566 million triples loaded in 1 hour, 10 minutes (from
    turtle files) at 180,000 st./sec.. The hardware utilized was a dual-CPU
    server with Xeon E5-2690 CPUs, 256 GB of RAM and SSD storage
    array.
    16

    View Slide

  17. 17

    View Slide

  18. Expériences
    curl -X POST -H Content-Type:application/rdf+xml -G http://localhost:3030/obo/data -T ontology.owl
    140 ontologies, 1 518 456 entités
    50 000 000 triplets
    AWS EC2
    t2.2xlarge
    8vCPU 32GB RAM
    Env 2h
    16 secondes pour une recherche d’entité
    type *string*
    18

    View Slide

  19. Triple store sont des bases de données
    Cependant rapidement le nombre de triplets devient énorme
    Plutôt un datalake qu’un storage opérationnel ?
    Le data management à une échelle de besoins en sémantique
    Gérer des listes de termes contrôlés (par dictionnaires)
    Gérer des liens de sens (synonymes & cross reférences)
    Gérer des liens de parentés
    Le prix de l’universalité
    19

    View Slide

  20. Parents
    Synonymes et
    cross références
    Listes de termes
    contrôlés
    Niveaux sémantiques du
    data management
    20
    http://www.w3.org/2000/01/rdf-schema#subClassOf"
    http://www.geneontology.org/formats
    /oboInOwl#hasExactSynonym
    http://www.w3.org/2000/
    01/rdf-schema#label

    View Slide

  21. Comparaison de stockage:
    • natif OWL dans jena
    • simplification dans neo4j
    • simplification dans mongoDB
    21

    View Slide

  22. Large triple
    store Operational
    Metadata Management
    SQL
    World
    Files in
    NAS/SAN
    HDFS, S3…
    CURATION and ENTITY DETECTION TOOLS
    External data
    Insight Entities
    SQL
    World
    Entities &
    relationships
    22

    View Slide

  23. Exemples d’initiatives

    View Slide

  24. Exemples d’initiatives

    View Slide

  25. MERCI
    25

    View Slide

  26. View Slide

  27. Le data management est la discipline qui assure la qualité des ressources
    numériques. Par exemple, le contexte des données peut être apporté par
    l’ajout de métadonnées issues de Master Data ou de dictionnaires
    contrôlés (en science de la vie: code patient, code maladie, en logistique le
    code produit, ...).
    La sémantique et les ontologies sont le graal de la gestion des
    connaissances. Cependant leur flexibilité extrême les rendent complexes à
    intégrer dans des applications informatiques.
    Au cours de cette présentation, nous allons voir comment tenter de
    réconcilier ces deux mondes. Nous avons tous à y gagner pour mieux
    qualifier nos données et les relier entre elles.

    View Slide

  28. DATA SOURCE INTEGRATION LAYER CONSUMERS
    The Tagging API
    - Understands queries,
    - Lookup Ontologies,
    - Query responsible
    systems
    - Answer request
    Single view of all
    ontologies,
    requestable by
    business entities
    (like disease,
    compounds,
    gene, organism)
    SQL
    Ultra Fast Pace: Direct SQL query
    SQL
    OBO
    Fast Pace: RDF integration
    MDM
    SQL
    SQL
    Controled Pace: Master Data
    THE BIG PICTURE
    Ontology Mapping

    View Slide