Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DataTalk #42 Comment rendre accessible et utili...

DataTalk #42 Comment rendre accessible et utilisable le savoir existant

Speaker : Erwan David, CTO chez DEXSTR

Abstract :De la BI au Big data, nous autres informaticiens nous targuons de transformer la donnée en informations et même en connaissance.
Mais qu'en est il vraiment ? Comment extraire, stocker et rendre utilisable des connaissances ?
Et puis c'est quoi de la connaissance ? Une (co) relation entre entités ? Une ligne dans une base de données ? Une publi ? Une ontologie ?
A l'heure où les avancées scientifiques ne peuvent se faire qu’en ayant connaissance des faits antérieurs, comment rendre accessible et utilisables le savoir existant ?

Toulouse Data Science

February 25, 2020
Tweet

More Decks by Toulouse Data Science

Other Decks in Programming

Transcript

  1. Agenda • Définitions • Mise à l’épreuve du modèle vs

    exemples et remarques • Outillages • Zoom sur le Knowledge • Take away & conclusion
  2. This is (presque) me : MSX (1985) ADN au µscope

    (1995) BioInfo (2000) Init (1978) 4 Disclamer : don’t trust me :)
  3. Définitions KNOWLEDGE INFORMATION DATA Anything Discret facts The product of

    observation Signals Data that changes us Who ? What ? When ? How many ? ???? Qui permet d’agir Raw-Data Processed-Data Integrated-Data Rowley (2006) Ackoff (1989) Henry (1974)
  4. Exemple 0 : le thermostat Sensor : The temp is

    16°c The normal temperature is 20°c I know how to warm the room The room is too cold Warm the room Sensor - Temp mapping
  5. Exemple 1 : la structure activité Structure chimique Test d’activité

    dans différents contextes Le trésor pour la R&D en pharma en 2000 - 2010 : comprendre le lien entre la structure d’un candidat médicament et son activité biologique Zone active de la molécule Mécanisme d’action Nouvelles idées de synthèse Technologie : en général Oracle (chimie) et data warehouse / data mart Comparaison Aggregation Statistiques Visualisation
  6. Exemple 2 : Aladdin (blackrock) Règles financières et aspect légal

    Risk Model Le trésor : prédire les placements les plus pertinents Données financières Technologie : Hadoop, Elastic, Cognos BI Modélisation depuis les experts ML Modélisation
  7. Exemple 3 : Datawheel Transport data Technologie : Proprietaire “Bamboo

    (ETL)” “Tesseract (Dynamic API)” Stories Economy data Entity detection Health data Demographic data Fragmented Data Contextualised Data Data Integration Actions Visualisation, Filtering, Narration
  8. Exemple 4 : Inquiro Publications scientifiques Occurrence des termes dans

    les documents Nouvelles corrélations Rapports, compte rendus Indexation sémantique Visualisation Drill Down Graphe de connaissance Exemple trésor : “We need to look for data on bacterial strains and/or nutritional components able to have a beneficial effect in a certain early life population” Entity detection
  9. Remarques sur le modèle Les domaines scientifiques ne questionnent pas

    à leur bornes. Eg : La biologie ne questionne pas la physique quantique Beaucoup de définitions mais peu de processus ou d’outils pour passer de la donnée à l’information et de l’information au savoir On ne peut pas tout observer et on fait des statistiques !! GIGO (Data Warehousing) La notion de théorie et de trésor manquent Importance de la visualisation! Assez facile de mapper des Use Case → génériquable ? Pas d’aspect itératif (essais/erreurs)
  10. Généralisation KNOWLEDGE INFORMATION DATA 1) Curation, Indexation, Résolution 2) Visualisation,

    Aggregation, Vérifications, Expertise 3) Exploitation, remise en question 0) Définition du trésor 2’) Machine Learning
  11. • Permets de répondre à une question - Permettre l’action

    • Permet des imports / exports vers des standards • Flexible pour ne pas multiplier les efforts • Visuel pour permettre de comprendre les données • Permets des analyses / inférences Outils pour le KM
  12. Outils pour stocker du savoir Réponds à une question Flexible

    Visuel Standard Analyse EDW et BI (SGBD) +++ - ++ (outils tiers) Entreprise +++ Open data - ++ Triple stores ++ +++ - Entreprise - Open data +++ +++ Neo4j +++ ++ ++ Entreprise - Open data ++ ++
  13. Exemple triple store DBpedia est un projet universitaire et communautaire

    d'exploration et extraction automatiques de données dérivées de Wikipédia. → Text classification → Traduction → Query expansion DBpedia data set describes 6.0 million entities, including 1.5M persons, 810k places, 135k music albums, 106k films, 20k video games, 275k organizations, 301k species and 5k diseases.[
  14. Importance de se connecter à l’utilisateur : - Visualisation !

    - Trésor ! Importance des graphes (sémantique, graphe DB) dans la gestion des connaissances ! Conclusion