Upgrade to Pro — share decks privately, control downloads, hide ads and more …

La mia prima data pipeline

La mia prima data pipeline

Come creare una semplice data pipeline: dal consumo delle api, alla trasformazione e alla visualizzazione dei dati.
Talk tenuto a pyData @ Pycon Otto

Riccardo Magliocchetti

April 09, 2017
Tweet

More Decks by Riccardo Magliocchetti

Other Decks in Programming

Transcript

  1. La mia prima data pipeline La mia prima data pipeline

    Pycon 8 Pycon 8 Riccardo Magliocchetti Riccardo Magliocchetti
  2. Menu Menu Una data pipeline che: consuma una api salva

    i da� in db ci perme�e di fare delle analisi
  3. Perchè questo talk? Perchè questo talk? Dobbiamo mostrare ai nostri

    partner sta�s�che dell'uso dei loro prodo� da parte degli uten�
  4. Come lo implemento? Come lo implemento? Web app fa�a in

    casa Elas�csearch e Kibana Time-series db e Grafana Bokeh
  5. Boring tech! Boring tech! storage: PostgreSQL nuova API per esportare

    i da� pipeline batch, Luigi per il plumbing per il frontend? prendiamo tempo :)
  6. Perchè batch? Perchè batch? fallisce, guardo i log e rifaccio

    ripar�re devo cambiare il formato da�? rifaccio le query alle api e ricreo il db non mi servono da� in real �me
  7. : un framework : un framework Luigi Luigi risoluzione dipendenze

    e workflow cli errori e no�fiche scheduler web ui integrazioni, vedi luigi.contrib PostgreSQL, MySQL, MongoDB, redis s3 ssh Hadoop, Hive, HDFS
  8. 30 marzo 2016 30 marzo 2016 : @mistercrunch annuncia As

    a vector for data explora�on, discovery, and collabora�ve analy�cs, we have built and are now open sourcing, a data explora�on and dashboarding pla�orm named Superset.
  9. Superset Superset mantenuto da un team di airbnb perme�e di

    creare visualizzazioni e dashboard in autonomia
  10. Superset: tech Superset: tech hackable! ~13 KLOC di python Flask

    + Flask-App-Builder frontend: react, d3.js / nvd3.js da�: pandas + sqlalchemy / druid
  11. Conclusioni Conclusioni Creare data pipelines con Luigi è semplice e

    conveniente Superset ci perme�e di fare analisi senza scrivere codice