Base de données : distribuée orientée document avec ou sans schema non-relationnelle Multi-couches : Lucene système de distribution API de requête interface REST en JSON elasticsearch
Recherche "full-text" indexation et recherche correction orthographique mise en évidence des résultats analyse/tokenisation avancées elasticsearch 1. indexation d'enregistrement ou document externe 2. recherche dans Elasticsearch 3. récupération de l'original à son emplacement … mais encore ?
Fouille de données Quand : • awk, grep, cut, … sont inadaptés • Excel est une mouette malade • R est trop scientifique • on ne sait pas quoi chercher • on ne sait pas comment le chercher
1. injecter les données dans Elasticsearch (sans trop de design) 2. brancher Kibana et un histogramme simple 3. observer les tendances et affiner les graphs 4. re-indexer les données avec un schéma plus précis 5. rincer 6. recommencer dans la pratique
Indexation éphémère et recherche en flux tendu 1. index commun : données génériques 2. copie pour une recherche spécifique 3. ajout des données de dispo/prix 4. beaucoup de données créées en peu de temps 5. disponibilité immédiate (< 1 sec) 6. recherche intensive pendant quelques minutes 7. données quasi inutiles 24h plus tard
Conclusion des outils très performants et économes en resources beaucoup de fonctionnalités mais pas de lourdeur robustesse et facilité de prise en main grande ouverture technique et d'esprit