DataTalk #42 Comment rendre accessible et utilisable le savoir existant

DataTalk #42 Comment rendre accessible et utilisable le savoir existant

Speaker : Erwan David, CTO chez DEXSTR

Abstract :De la BI au Big data, nous autres informaticiens nous targuons de transformer la donnée en informations et même en connaissance.
Mais qu'en est il vraiment ? Comment extraire, stocker et rendre utilisable des connaissances ?
Et puis c'est quoi de la connaissance ? Une (co) relation entre entités ? Une ligne dans une base de données ? Une publi ? Une ontologie ?
A l'heure où les avancées scientifiques ne peuvent se faire qu’en ayant connaissance des faits antérieurs, comment rendre accessible et utilisables le savoir existant ?

6aa4f3c589d3108830b371d0310bc4da?s=128

Toulouse Data Science

February 25, 2020
Tweet

Transcript

  1. Comment rendre accessible et utilisable le savoir existant ? 25

    Février 2020 Erwan David
  2. Once upon a time... https://en.wikipedia.org/wiki/DIKW_pyramid (Multiple authors, 1975 to 1990)

  3. Agenda • Définitions • Mise à l’épreuve du modèle vs

    exemples et remarques • Outillages • Zoom sur le Knowledge • Take away & conclusion
  4. This is (presque) me : MSX (1985) ADN au µscope

    (1995) BioInfo (2000) Init (1978) 4 Disclamer : don’t trust me :)
  5. Définitions KNOWLEDGE INFORMATION DATA Anything Discret facts The product of

    observation Signals Data that changes us Who ? What ? When ? How many ? ???? Qui permet d’agir Raw-Data Processed-Data Integrated-Data Rowley (2006) Ackoff (1989) Henry (1974)
  6. Exemple 0 : le thermostat Sensor : The temp is

    16°c The normal temperature is 20°c I know how to warm the room The room is too cold Warm the room Sensor - Temp mapping
  7. Exemple 1 : la structure activité Structure chimique Test d’activité

    dans différents contextes Le trésor pour la R&D en pharma en 2000 - 2010 : comprendre le lien entre la structure d’un candidat médicament et son activité biologique Zone active de la molécule Mécanisme d’action Nouvelles idées de synthèse Technologie : en général Oracle (chimie) et data warehouse / data mart Comparaison Aggregation Statistiques Visualisation
  8. Exemple 2 : Aladdin (blackrock) Règles financières et aspect légal

    Risk Model Le trésor : prédire les placements les plus pertinents Données financières Technologie : Hadoop, Elastic, Cognos BI Modélisation depuis les experts ML Modélisation
  9. Exemple 2’ : Machine learning DATA WISDOM ?

  10. Exemple 3 : Datawheel Transport data Technologie : Proprietaire “Bamboo

    (ETL)” “Tesseract (Dynamic API)” Stories Economy data Entity detection Health data Demographic data Fragmented Data Contextualised Data Data Integration Actions Visualisation, Filtering, Narration
  11. Exemple 4 : Inquiro Publications scientifiques Occurrence des termes dans

    les documents Nouvelles corrélations Rapports, compte rendus Indexation sémantique Visualisation Drill Down Graphe de connaissance Exemple trésor : “We need to look for data on bacterial strains and/or nutritional components able to have a beneficial effect in a certain early life population” Entity detection
  12. Remarques sur le modèle Les domaines scientifiques ne questionnent pas

    à leur bornes. Eg : La biologie ne questionne pas la physique quantique Beaucoup de définitions mais peu de processus ou d’outils pour passer de la donnée à l’information et de l’information au savoir On ne peut pas tout observer et on fait des statistiques !! GIGO (Data Warehousing) La notion de théorie et de trésor manquent Importance de la visualisation! Assez facile de mapper des Use Case → génériquable ? Pas d’aspect itératif (essais/erreurs)
  13. Généralisation KNOWLEDGE INFORMATION DATA 1) Curation, Indexation, Résolution 2) Visualisation,

    Aggregation, Vérifications, Expertise 3) Exploitation, remise en question 0) Définition du trésor 2’) Machine Learning
  14. Outillage Excel Excel Excel Tableau Spotfire SAS/R RDF Knime/Talend SGBD

    datamart neo4j NLP EDW csv xml json
  15. • Permets de répondre à une question - Permettre l’action

    • Permet des imports / exports vers des standards • Flexible pour ne pas multiplier les efforts • Visuel pour permettre de comprendre les données • Permets des analyses / inférences Outils pour le KM
  16. Outils pour stocker du savoir Réponds à une question Flexible

    Visuel Standard Analyse EDW et BI (SGBD) +++ - ++ (outils tiers) Entreprise +++ Open data - ++ Triple stores ++ +++ - Entreprise - Open data +++ +++ Neo4j +++ ++ ++ Entreprise - Open data ++ ++
  17. Exemple triple store DBpedia est un projet universitaire et communautaire

    d'exploration et extraction automatiques de données dérivées de Wikipédia. → Text classification → Traduction → Query expansion DBpedia data set describes 6.0 million entities, including 1.5M persons, 810k places, 135k music albums, 106k films, 20k video games, 275k organizations, 301k species and 5k diseases.[
  18. https://neo4j.het.io/browser/ Exemples neo4j https://neo4j.com/labs/nsmtx-rdf/ https://www.youtube.com/watch?v=eKB2jreJ5VA&t=

  19. Importance de se connecter à l’utilisateur : - Visualisation !

    - Trésor ! Importance des graphes (sémantique, graphe DB) dans la gestion des connaissances ! Conclusion