Upgrade to Pro — share decks privately, control downloads, hide ads and more …

La mia prima data pipeline

La mia prima data pipeline

Come creare una semplice data pipeline: dal consumo delle api, alla trasformazione e alla visualizzazione dei dati.
Talk tenuto a pyData @ Pycon Otto

Avatar for Riccardo Magliocchetti

Riccardo Magliocchetti

April 09, 2017
Tweet

More Decks by Riccardo Magliocchetti

Other Decks in Programming

Transcript

  1. La mia prima data pipeline La mia prima data pipeline

    Pycon 8 Pycon 8 Riccardo Magliocchetti Riccardo Magliocchetti
  2. Menu Menu Una data pipeline che: consuma una api salva

    i da� in db ci perme�e di fare delle analisi
  3. Perchè questo talk? Perchè questo talk? Dobbiamo mostrare ai nostri

    partner sta�s�che dell'uso dei loro prodo� da parte degli uten�
  4. Come lo implemento? Come lo implemento? Web app fa�a in

    casa Elas�csearch e Kibana Time-series db e Grafana Bokeh
  5. Boring tech! Boring tech! storage: PostgreSQL nuova API per esportare

    i da� pipeline batch, Luigi per il plumbing per il frontend? prendiamo tempo :)
  6. Perchè batch? Perchè batch? fallisce, guardo i log e rifaccio

    ripar�re devo cambiare il formato da�? rifaccio le query alle api e ricreo il db non mi servono da� in real �me
  7. : un framework : un framework Luigi Luigi risoluzione dipendenze

    e workflow cli errori e no�fiche scheduler web ui integrazioni, vedi luigi.contrib PostgreSQL, MySQL, MongoDB, redis s3 ssh Hadoop, Hive, HDFS
  8. 30 marzo 2016 30 marzo 2016 : @mistercrunch annuncia As

    a vector for data explora�on, discovery, and collabora�ve analy�cs, we have built and are now open sourcing, a data explora�on and dashboarding pla�orm named Superset.
  9. Superset Superset mantenuto da un team di airbnb perme�e di

    creare visualizzazioni e dashboard in autonomia
  10. Superset: tech Superset: tech hackable! ~13 KLOC di python Flask

    + Flask-App-Builder frontend: react, d3.js / nvd3.js da�: pandas + sqlalchemy / druid
  11. Conclusioni Conclusioni Creare data pipelines con Luigi è semplice e

    conveniente Superset ci perme�e di fare analisi senza scrivere codice