Slide 1

Slide 1 text

BigData Python, Google Plus, Twitter e MapReduce Roberto Proviniciali Brandini [email protected]

Slide 2

Slide 2 text

Python • Python é uma linguagem de programação de alto nível , interpretada, imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte

Slide 3

Slide 3 text

Google Plus • Rede social criada pelo Google

Slide 4

Slide 4 text

Twitter • Twitter é uma rede social e um servidor para microblogging, que permite aos usuários enviar e receber atualizações pessoais de outros contatos, por meio do website do serviço, por SMS e por softwares específicos de gerenciamento

Slide 5

Slide 5 text

MapReduce • MapReduce é um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes.

Slide 6

Slide 6 text

BigData • Além de lidar com volumes extremamente grandes de dados dos mais variados tipos, soluções de Big Data também precisam trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo. Fonte: http://www.infowester.com/big-data.php

Slide 7

Slide 7 text

Download posts do Twitter • Criar uma APP no twitter (https://dev.twitter.com/) • Instalar no pytho as bibliotecas – Oauth2 – Urllib2 • Desenvolver script em Python para consumir as API

Slide 8

Slide 8 text

Download posts Google+ • Criar uma APP no Google+ (https://console.developers.google.com) • Instalar no python as bibliotecas – oauth2client – Apiclient • Desenvolver script em Python para consumir as API

Slide 9

Slide 9 text

Json • JSON (JavaScript Object Notation - Notação de Objetos JavaScript) é uma formatação leve de troca de dados. • Praticamente todas as respostas das APIs serão em formato Json

Slide 10

Slide 10 text

Baixando Informação • Criado o script para Twitter e Google+, basta executar: – Python twit.py – Python gplus.py

Slide 11

Slide 11 text

Base de Dados • Cada rede social retorna sua informação de uma maneira diferente; • Cabe a você analisar a resposta e escolher o que deseja extrair destas informações.

Slide 12

Slide 12 text

Statisticas vs MapReduce • A grande diferença da tecnologia MapReduce e uma rotina normal de calculo é que com esta tecnologia as informações podem ser processadas em partes, paralelo e em tarefas separadas. • Com pequeno volume de dados a diferença de processamento é quase nula, contudo com grande volume de dados a diferença é significativa. • Exemplo: Processar 400TB de dados, num computador comum só a leitura 4 meses

Slide 13

Slide 13 text

BigData • O mais importante na implementação do BigData, não é a tecnologia nem os dados, o mais importante é saber/conseguir dar sentido aos dados. • Exemplo: – Onde as pessoas estão felizes? – Que horas as pessoas mais postam sobre comida?

Slide 14

Slide 14 text

Código em Ação

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

• Duvidas ??