Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Big Data - Google+, Python e MapReduce

Big Data - Google+, Python e MapReduce

Presentation by @RobertoBrandini

GDG Aracaju

June 25, 2014
Tweet

More Decks by GDG Aracaju

Other Decks in Programming

Transcript

  1. Python • Python é uma linguagem de programação de alto

    nível , interpretada, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte
  2. Twitter • Twitter é uma rede social e um servidor

    para microblogging, que permite aos usuários enviar e receber atualizações pessoais de outros contatos, por meio do website do serviço, por SMS e por softwares específicos de gerenciamento
  3. MapReduce • MapReduce é um modelo de programação desenhado para

    processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes.
  4. BigData • Além de lidar com volumes extremamente grandes de

    dados dos mais variados tipos, soluções de Big Data também precisam trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo. Fonte: http://www.infowester.com/big-data.php
  5. Download posts do Twitter • Criar uma APP no twitter

    (https://dev.twitter.com/) • Instalar no pytho as bibliotecas – Oauth2 – Urllib2 • Desenvolver script em Python para consumir as API
  6. Download posts Google+ • Criar uma APP no Google+ (https://console.developers.google.com)

    • Instalar no python as bibliotecas – oauth2client – Apiclient • Desenvolver script em Python para consumir as API
  7. Json • JSON (JavaScript Object Notation - Notação de Objetos

    JavaScript) é uma formatação leve de troca de dados. • Praticamente todas as respostas das APIs serão em formato Json
  8. Baixando Informação • Criado o script para Twitter e Google+,

    basta executar: – Python twit.py – Python gplus.py
  9. Base de Dados • Cada rede social retorna sua informação

    de uma maneira diferente; • Cabe a você analisar a resposta e escolher o que deseja extrair destas informações.
  10. Statisticas vs MapReduce • A grande diferença da tecnologia MapReduce

    e uma rotina normal de calculo é que com esta tecnologia as informações podem ser processadas em partes, paralelo e em tarefas separadas. • Com pequeno volume de dados a diferença de processamento é quase nula, contudo com grande volume de dados a diferença é significativa. • Exemplo: Processar 400TB de dados, num computador comum só a leitura 4 meses
  11. BigData • O mais importante na implementação do BigData, não

    é a tecnologia nem os dados, o mais importante é saber/conseguir dar sentido aos dados. • Exemplo: – Onde as pessoas estão felizes? – Que horas as pessoas mais postam sobre comida?