Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DataTalk #42 Comment rendre accessible et utilisable le savoir existant

DataTalk #42 Comment rendre accessible et utilisable le savoir existant

Speaker : Erwan David, CTO chez DEXSTR

Abstract :De la BI au Big data, nous autres informaticiens nous targuons de transformer la donnée en informations et même en connaissance.
Mais qu'en est il vraiment ? Comment extraire, stocker et rendre utilisable des connaissances ?
Et puis c'est quoi de la connaissance ? Une (co) relation entre entités ? Une ligne dans une base de données ? Une publi ? Une ontologie ?
A l'heure où les avancées scientifiques ne peuvent se faire qu’en ayant connaissance des faits antérieurs, comment rendre accessible et utilisables le savoir existant ?

Toulouse Data Science

February 25, 2020
Tweet

More Decks by Toulouse Data Science

Other Decks in Programming

Transcript

  1. Comment rendre accessible et utilisable le
    savoir existant ?
    25 Février 2020
    Erwan David

    View Slide

  2. Once upon a time...
    https://en.wikipedia.org/wiki/DIKW_pyramid
    (Multiple authors, 1975 to 1990)

    View Slide

  3. Agenda
    • Définitions
    • Mise à l’épreuve du modèle vs exemples et remarques
    • Outillages
    • Zoom sur le Knowledge
    • Take away & conclusion

    View Slide

  4. This is (presque)
    me :
    MSX
    (1985)
    ADN au µscope
    (1995)
    BioInfo
    (2000)
    Init
    (1978)
    4
    Disclamer : don’t trust me :)

    View Slide

  5. Définitions
    KNOWLEDGE
    INFORMATION
    DATA
    Anything
    Discret facts The product of
    observation
    Signals
    Data that
    changes us
    Who ? What ?
    When ? How many ?
    ????
    Qui permet d’agir
    Raw-Data
    Processed-Data
    Integrated-Data
    Rowley
    (2006)
    Ackoff
    (1989)
    Henry (1974)

    View Slide

  6. Exemple 0 : le thermostat
    Sensor : The temp is 16°c
    The normal
    temperature is 20°c
    I know how to
    warm the room
    The room is too cold
    Warm the room
    Sensor - Temp
    mapping

    View Slide

  7. Exemple 1 : la structure activité
    Structure
    chimique
    Test d’activité dans
    différents contextes
    Le trésor pour la R&D en pharma en 2000
    - 2010 : comprendre le lien entre la
    structure d’un candidat médicament et
    son activité biologique
    Zone active de
    la molécule
    Mécanisme
    d’action
    Nouvelles idées
    de synthèse
    Technologie : en général Oracle (chimie)
    et data warehouse / data mart
    Comparaison
    Aggregation
    Statistiques
    Visualisation

    View Slide

  8. Exemple 2 : Aladdin (blackrock)
    Règles financières et
    aspect légal
    Risk Model
    Le trésor : prédire les placements les plus
    pertinents
    Données
    financières
    Technologie : Hadoop, Elastic, Cognos BI
    Modélisation depuis
    les experts
    ML
    Modélisation

    View Slide

  9. Exemple 2’ : Machine learning
    DATA
    WISDOM
    ?

    View Slide

  10. Exemple 3 : Datawheel
    Transport data
    Technologie : Proprietaire
    “Bamboo (ETL)”
    “Tesseract (Dynamic API)”
    Stories
    Economy data
    Entity
    detection
    Health data Demographic data
    Fragmented Data
    Contextualised Data
    Data
    Integration
    Actions
    Visualisation,
    Filtering,
    Narration

    View Slide

  11. Exemple 4 : Inquiro
    Publications
    scientifiques
    Occurrence des termes
    dans les documents
    Nouvelles
    corrélations
    Rapports,
    compte rendus
    Indexation sémantique
    Visualisation
    Drill Down
    Graphe de
    connaissance
    Exemple trésor : “We need to look for data on
    bacterial strains and/or nutritional components
    able to have a beneficial effect in a
    certain early life population”
    Entity detection

    View Slide

  12. Remarques sur le modèle
    Les domaines scientifiques ne questionnent pas à leur
    bornes. Eg : La biologie ne questionne pas la physique
    quantique
    Beaucoup de définitions mais peu de processus ou
    d’outils pour passer de la donnée à l’information et de
    l’information au savoir
    On ne peut pas tout observer et on fait des
    statistiques !!
    GIGO (Data Warehousing)
    La notion de théorie et de trésor manquent
    Importance de la visualisation!
    Assez facile de mapper des Use Case
    → génériquable ?
    Pas d’aspect itératif (essais/erreurs)

    View Slide

  13. Généralisation
    KNOWLEDGE
    INFORMATION
    DATA
    1) Curation,
    Indexation,
    Résolution
    2) Visualisation,
    Aggregation,
    Vérifications,
    Expertise
    3) Exploitation, remise
    en question
    0) Définition du trésor
    2’) Machine Learning

    View Slide

  14. Outillage
    Excel
    Excel
    Excel
    Tableau
    Spotfire
    SAS/R
    RDF
    Knime/Talend
    SGBD
    datamart
    neo4j
    NLP
    EDW
    csv
    xml
    json

    View Slide

  15. • Permets de répondre à une question - Permettre l’action
    • Permet des imports / exports vers des standards
    • Flexible pour ne pas multiplier les efforts
    • Visuel pour permettre de comprendre les données
    • Permets des analyses / inférences
    Outils pour le KM

    View Slide

  16. Outils pour stocker du savoir
    Réponds à
    une question
    Flexible Visuel Standard Analyse
    EDW et BI
    (SGBD)
    +++ - ++ (outils
    tiers)
    Entreprise +++
    Open data -
    ++
    Triple stores ++ +++ - Entreprise -
    Open data +++
    +++
    Neo4j +++ ++ ++ Entreprise -
    Open data ++
    ++

    View Slide

  17. Exemple triple store
    DBpedia est un projet universitaire et communautaire
    d'exploration et extraction automatiques de données
    dérivées de Wikipédia.
    → Text classification
    → Traduction
    → Query expansion
    DBpedia data set describes 6.0 million entities, including
    1.5M persons, 810k places, 135k music albums, 106k
    films, 20k video games, 275k organizations, 301k
    species and 5k diseases.[

    View Slide

  18. https://neo4j.het.io/browser/
    Exemples neo4j
    https://neo4j.com/labs/nsmtx-rdf/
    https://www.youtube.com/watch?v=eKB2jreJ5VA&t=

    View Slide

  19. Importance de se connecter à l’utilisateur :
    - Visualisation !
    - Trésor !
    Importance des graphes (sémantique, graphe DB) dans la gestion des
    connaissances !
    Conclusion

    View Slide