Upgrade to Pro — share decks privately, control downloads, hide ads and more …

TDC Porto Alegre: Com As Mãos Sujas de Dados

TDC Porto Alegre: Com As Mãos Sujas de Dados

Julio Faerman

October 17, 2014
Tweet

More Decks by Julio Faerman

Other Decks in Technology

Transcript

  1. Com  as  Mãos  Sujas  de  Dados Julio  M.  Faerman  

    @jmfaerman   TDC  Porto  Alegre  2014 http://jfaerman.com.br
  2. 16  Anos   2000+  Funcionários   40M  Usuários http://aws.amazon.com/solutions/case-­‐studies/netflix/  

    http://techblog.netflix.com/2013/12/netflix-­‐presentation-­‐videos-­‐from-­‐aws.html Amazon  Web   Services  para  100%   do  Streaming 34.2%  de  toda   largura  de  banda*   em  horário  nobre  
  3. Amazon   Simple   Storage   Service • Armazenamento durável

    e escalável • 99.999999999% Durabilidade • 2+ Trilhões (1012) de objetos • 1.1+ M RPS • HTTP/S Nativos • E mais: Permissions, Static Hosting, Logging, Versionamento, Archival and Expiration Lifecycle, Torrent, Tags, Redundancy, Requester Pays, Criptography, Reduced Redundancy and more http://aws.amazon.com/s3/
  4.  “Qualquer  dado  que  valha  ser  mantido  é   armazenado  no

     S3.  Isso  inclui  dados  de  bilhões  de   eventos  de  streaming  de  televisões,  laptops  e   dispositivos  móveis.”   http://techblog.netflix.com/2013/01/hadoop-­‐platform-­‐as-­‐service-­‐in-­‐cloud.html    “Redução  de  custo  de  87%  por  video  iniciado.”   http://youtu.be/XBgkZxAljbs “Em  termos  de  escala,  temos  um  Data  Warehouse  de  10   petabytes  no  S3.”   http://techblog.netflix.com/2014/10/using-­‐presto-­‐in-­‐our-­‐big-­‐data-­‐platform.html
  5. Estruturado   Relacional   On-­‐Line   GB-­‐TB-­‐PB Semi  ou  não

      estruturado   Distribuído   Lotes   TB-­‐PB-­‐EB Era  uma  vez…  
  6. Amazon   Elastic   MapReduce • Processamento distribuído com Apache

    Hadoop • Escalabilidade ~linear~ • Clusters redimensionáveis e descartáveis • Ecossistema: Hive, Pig, Impala, Spark, ..., …, … • Provisionamento automático e instantâneo • Administração Simplificada • 5.5M+ Clusters http://aws.amazon.com/elasticmapreduce/
  7. • Data Warehousing • Econômico • Escalável aos petabytes •

    OnLine Analytic Processing Massivamente Paralelo • Redimensionável sem parada • Provisionamento e administração gerenciados • Compatível com PostgreSQL Amazon   Redshift http://aws.amazon.com/redshift/
  8. Arquitetura do   Amazon Redshift Leader Node   • SQL

    endpoint   • Stores metadata   • Coordinates query execution   ! Compute Nodes   • Local, columnar storage   • Execute queries in parallel   • Load, backup, restore via 
 Amazon S3; load from 
 Amazon DynamoDB or SSH   ! Two hardware platforms   • DW1:  HDD;  scale  from  2TB  to  1.6PB   • DW2:  SSD;  scale  from  160GB  to  256TB   10 GigE   (HPC) Ingestion   Backup   Restore SQL Clients/BI Tools 128GB RAM 16TB disk 16 cores Amazon S3 / DynamoDB / SSH JDBC/ODBC 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node Leader
 Node
  9. ETL  do  EMR  para  o     Redshift  através  do

     Amazon  S3 EMR S3 Redshift Extract  &  Transform Load ! Unstructured   Unclean   ! ! Structured   Clean   ! Columnar   Compressed  
  10. Mas  hoje  em  dia… Structured On-­‐Line GB TB PB EB

    Semi-­‐structured Unstructured Distributed  Cache In-­‐Memory  Data  Grid Map  Reduce ETL Extract-­‐Transfer-­‐Load Graph  Database Document  Database Columnar  Database Batch Real  Time Machine  Learning Relational  Database http://nathanmarz.com/ Data  Structure  Server Stream  Processing Rule  Engine NoSQL
  11. April  2013:   ! 400+  Web  Engines   400+  API

     Engines   70x2+  MySQL  DBs   100+  Redis  Instances   230+  Memcache  Instances   10  Redis  Task  Manager   500  Redis  Task  Processors   80  Sharded  Solr   20  HBase   12  Kafka  +  Azkabhan   8  Zookeeper  Instances     12  Varnish http://www.infoq.com/presentations/ scaling-­‐pinterest
  12. Amazon   Relational   Database   Service • MySQL, Postgres,

    Oracle or SQL Server • Alta Disponibilidade (Multi-AZ) • Réplicas de Leitura • Backup, Atualização e Redimensionamento Automáticos http://aws.amazon.com/rds/
  13. Amazon   ElastiCache • Cache em Memória • Memcached and

    Redis • Replicação • Backup e Restore • Atualizações e Gerencimento • Elástico e Confiável http://aws.amazon.com/elasticache/
  14. Amazon  Redshift  no  Pinterest • Cluster  de  256TB   •

    16  nós   • 2TB  por  dia   • 100+  usuários   • 500+  queries  por  dia   75%  <=  35  segundos,  90%  <=  2  minutos   • Esforço  operacional  <=  5  horas/semana
  15. • NoSQL Database • Provisioned Throughput • Unlimited Volume •

    Seamless Scalability • Single digit millisecond latency Amazon   DynamoDB http://aws.amazon.com/dynamodb/
  16. ~5TB  em  Base  de  Dados 1  Bilhão  de  Requests/Mês 67.000

     Requests/Minuto 34  milhões  de  Recomendações/Dia 4  milhões  de  produtos 27  Milhões  de  usuário "A  gente  não  pode     se  dar  ao  luxo   de  jogar  fora   informação" http://aws.amazon.com/solutions/case-­‐studies/chaordic-­‐systems/
  17. 2a  Etapa Availability Zone Tomcat  6   EhCache   NewRelic

    MySQL  Primário Availability Zone MySQL  Secundário EBS  RAID0 EBS  RAID0 Replicação
  18. Availability Zone Availability Zone 3a  Etapa Availability Zone Tomcat  6

     +  EhCache Nginx HAProxy Availability Zone Availability Zone MySQL  1 EBS  RAID0 MySQL  2 EBS  RAID0 Replicação Memcached Elastic   Load   Balancer
  19. 4a  Etapa Auto Scaling group Nginx   HAProxy   Jetty

      EhCache Availability Zone Memcached Availability Zone Availability Zone region region
  20. Amazon   Kinesis   Amazon   Data   Pipeline Cenas

     dos  próximos  capítulos… http://aws.amazon.com/datapipeline/ http://aws.amazon.com/kinesis/
  21. Videos  e  Palestras:   https://www.youtube.com/user/AmazonWebServices   ! Blogs,  Forum  e

     Comunidade:   http://awshub.com.br   http://aws.amazon.com/blogs/aws/   https://twitter.com/AWSBrasil   https://www.facebook.com/amazonwebservices.pt   https://www.facebook.com/groups/amazon.aws/   ! Cursos:   https://aws.amazon.com/training/course-­‐descriptions/bigdata-­‐fundamentals/   https://www.coursera.org/specialization/jhudatascience/1?utm_medium=catalogSpec   https://www.coursera.org/course/datasci   https://www.coursera.org/course/bigdata   http://bigdatauniversity.com/   ! Livros:   http://www.amazon.com/Doing-­‐Data-­‐Science-­‐Straight-­‐Frontline/dp/1449358659   http://www.amazon.com/Programming-­‐Elastic-­‐MapReduce-­‐End-­‐-­‐-­‐End-­‐ebook/dp/B00H8B64DQ   ! Podcast:   http://aws.amazon.com/podcasts/aws-­‐podcast/