La mia prima data pipeline

La mia prima data pipeline

Torino Coding Society 20/09/16

61ba6f6b1fb82707b9344259f74a81b3?s=128

Riccardo Magliocchetti

September 21, 2016
Tweet

Transcript

  1. La mia prima data pipeline Torino Coding Society Riccardo Magliocchetti

  2. whoami Sw developer @ Maieutical Labs / Consultant @rmistaken

  3. Menu della serata Creare una data pipeline che: consumi una

    api salvi i dati in db ci permetta di fare delle analisi
  4. Cos'è una data pipeline?

  5. Perchè questo talk? Cliente: Dobbiamo mostrare ai nostri clienti statistiche

    dell'uso del nostro prodotto da parte degli utenti
  6. Criticità auth dati ltrati per cliente gli utenti devono potersi

    fare le proprio visualizzazioni in autonomia
  7. OTOH Un progetto senza legacy \o/

  8. Come lo implemento? Web app fatta in casa Elasticsearch /

    Kibana / Logstash / Beats Time-series db + Grafana
  9. Web app fatta in casa un'altra app da scrivere e

    da mantere
  10. Elastic Stack altri due servizi complessi da mantenere auth a

    pagamento pacchetti distro non aggiornati java :P
  11. Time-series db + Grafana permessi ne-grained non disponibili visualizzazioni Grafana

    troppo semplici
  12. KISS! aka Boring Tech

  13. Punti saldi storage: db relazionale (Postgres) API lato applicazione per

    esportare i dati Luigi per il plumbing per il frontend prendiamo tempo :)
  14. Luigi creato in Spotify scritto in Python usato da molti

    secondo miglior idraulico al mondo!
  15. Mi evita di scriptare

  16. Concetti principali Task: run(), output(), requires() Target: un le su

    disco / S3 / HDFS, una riga in un database
  17. Batch vs Realtime fallisce, guardo i log e rifaccio ripartire

    voglio cambiare il formato dati? rifaccio le query alle api e mi ricostruisco il db granularità richiesta una settimana se non mese
  18. 30 marzo 2016 : @mistercrunch annuncia As a vector for

    data exploration, discovery, and collaborative analytics, we have built and are now open sourcing, a data exploration and dashboarding platform named Caravel.
  19. None
  20. Caravel creato e mantenuto da un team di airbnb permette

    di creare visualizzazioni e dashboard in autonomia
  21. Caravel Tech hackable! ~8 KLOC di python vs ES 1.6

    MLOC java ask + ask app builder gra ci d3.js / nvd3.js , frontend passaggio a react in corso legge dati da dialetto sqlalchemy (hive / impala) o druid.io
  22. DEMO

  23. Thanks! @rmistaken github Contatti