DataTalk #42 Comment rendre accessible et utilisable le savoir existant

Comment rendre accessible et utilisable le savoir existant ? 25
Février 2020 Erwan David

Once upon a time... https://en.wikipedia.org/wiki/DIKW_pyramid (Multiple authors, 1975 to 1990)

Agenda • Définitions • Mise à l’épreuve du modèle vs
exemples et remarques • Outillages • Zoom sur le Knowledge • Take away & conclusion

This is (presque) me : MSX (1985) ADN au µscope
(1995) BioInfo (2000) Init (1978) 4 Disclamer : don’t trust me :)

Définitions KNOWLEDGE INFORMATION DATA Anything Discret facts The product of
observation Signals Data that changes us Who ? What ? When ? How many ? ???? Qui permet d’agir Raw-Data Processed-Data Integrated-Data Rowley (2006) Ackoff (1989) Henry (1974)

Exemple 0 : le thermostat Sensor : The temp is
16°c The normal temperature is 20°c I know how to warm the room The room is too cold Warm the room Sensor - Temp mapping

Exemple 1 : la structure activité Structure chimique Test d’activité
dans différents contextes Le trésor pour la R&D en pharma en 2000 - 2010 : comprendre le lien entre la structure d’un candidat médicament et son activité biologique Zone active de la molécule Mécanisme d’action Nouvelles idées de synthèse Technologie : en général Oracle (chimie) et data warehouse / data mart Comparaison Aggregation Statistiques Visualisation

Exemple 2 : Aladdin (blackrock) Règles financières et aspect légal
Risk Model Le trésor : prédire les placements les plus pertinents Données financières Technologie : Hadoop, Elastic, Cognos BI Modélisation depuis les experts ML Modélisation

Exemple 2’ : Machine learning DATA WISDOM ?

Exemple 3 : Datawheel Transport data Technologie : Proprietaire “Bamboo
(ETL)” “Tesseract (Dynamic API)” Stories Economy data Entity detection Health data Demographic data Fragmented Data Contextualised Data Data Integration Actions Visualisation, Filtering, Narration

Exemple 4 : Inquiro Publications scientifiques Occurrence des termes dans
les documents Nouvelles corrélations Rapports, compte rendus Indexation sémantique Visualisation Drill Down Graphe de connaissance Exemple trésor : “We need to look for data on bacterial strains and/or nutritional components able to have a beneficial effect in a certain early life population” Entity detection

Remarques sur le modèle Les domaines scientifiques ne questionnent pas
à leur bornes. Eg : La biologie ne questionne pas la physique quantique Beaucoup de définitions mais peu de processus ou d’outils pour passer de la donnée à l’information et de l’information au savoir On ne peut pas tout observer et on fait des statistiques !! GIGO (Data Warehousing) La notion de théorie et de trésor manquent Importance de la visualisation! Assez facile de mapper des Use Case → génériquable ? Pas d’aspect itératif (essais/erreurs)

Généralisation KNOWLEDGE INFORMATION DATA 1) Curation, Indexation, Résolution 2) Visualisation,
Aggregation, Vérifications, Expertise 3) Exploitation, remise en question 0) Définition du trésor 2’) Machine Learning

Outillage Excel Excel Excel Tableau Spotfire SAS/R RDF Knime/Talend SGBD
datamart neo4j NLP EDW csv xml json

• Permets de répondre à une question - Permettre l’action
• Permet des imports / exports vers des standards • Flexible pour ne pas multiplier les efforts • Visuel pour permettre de comprendre les données • Permets des analyses / inférences Outils pour le KM

Outils pour stocker du savoir Réponds à une question Flexible
Visuel Standard Analyse EDW et BI (SGBD) +++ - ++ (outils tiers) Entreprise +++ Open data - ++ Triple stores ++ +++ - Entreprise - Open data +++ +++ Neo4j +++ ++ ++ Entreprise - Open data ++ ++

Exemple triple store DBpedia est un projet universitaire et communautaire
d'exploration et extraction automatiques de données dérivées de Wikipédia. → Text classification → Traduction → Query expansion DBpedia data set describes 6.0 million entities, including 1.5M persons, 810k places, 135k music albums, 106k films, 20k video games, 275k organizations, 301k species and 5k diseases.[

https://neo4j.het.io/browser/ Exemples neo4j https://neo4j.com/labs/nsmtx-rdf/ https://www.youtube.com/watch?v=eKB2jreJ5VA&t=

Importance de se connecter à l’utilisateur : - Visualisation !
- Trésor ! Importance des graphes (sémantique, graphe DB) dans la gestion des connaissances ! Conclusion

DataTalk #42 Comment rendre accessible et utili...

DataTalk #42 Comment rendre accessible et utilisable le savoir existant

Toulouse Data Science

More Decks by Toulouse Data Science

Other Decks in Programming

Featured

Transcript

Comment rendre accessible et utilisable le savoir existant ? 25

Once upon a time... https://en.wikipedia.org/wiki/DIKW_pyramid (Multiple authors, 1975 to 1990)

Agenda • Définitions • Mise à l’épreuve du modèle vs

This is (presque) me : MSX (1985) ADN au µscope

Définitions KNOWLEDGE INFORMATION DATA Anything Discret facts The product of

Exemple 0 : le thermostat Sensor : The temp is

Exemple 1 : la structure activité Structure chimique Test d’activité

Exemple 2 : Aladdin (blackrock) Règles financières et aspect légal

Exemple 2’ : Machine learning DATA WISDOM ?

Exemple 3 : Datawheel Transport data Technologie : Proprietaire “Bamboo

Exemple 4 : Inquiro Publications scientifiques Occurrence des termes dans

Remarques sur le modèle Les domaines scientifiques ne questionnent pas

Généralisation KNOWLEDGE INFORMATION DATA 1) Curation, Indexation, Résolution 2) Visualisation,

Outillage Excel Excel Excel Tableau Spotfire SAS/R RDF Knime/Talend SGBD

• Permets de répondre à une question - Permettre l’action

Outils pour stocker du savoir Réponds à une question Flexible

Exemple triple store DBpedia est un projet universitaire et communautaire

https://neo4j.het.io/browser/ Exemples neo4j https://neo4j.com/labs/nsmtx-rdf/ https://www.youtube.com/watch?v=eKB2jreJ5VA&t=

Importance de se connecter à l’utilisateur : - Visualisation !