BigData
Python, Google Plus, Twitter e MapReduce
Roberto Proviniciali Brandini
[email protected]
Slide 2
Slide 2 text
Python
• Python é uma linguagem de programação de
alto nível , interpretada, imperativa, orientada
a objetos, funcional, de tipagem dinâmica e
forte
Slide 3
Slide 3 text
Google Plus
• Rede social criada pelo Google
Slide 4
Slide 4 text
Twitter
• Twitter é uma rede social e um servidor para
microblogging, que permite aos usuários
enviar e receber atualizações pessoais de
outros contatos, por meio do website do
serviço, por SMS e por softwares específicos
de gerenciamento
Slide 5
Slide 5 text
MapReduce
• MapReduce é um modelo de programação
desenhado para processar grandes volumes
de dados em paralelo, dividindo o trabalho
em um conjunto de tarefas independentes.
Slide 6
Slide 6 text
BigData
• Além de lidar com volumes extremamente
grandes de dados dos mais variados tipos,
soluções de Big Data também precisam
trabalhar com distribuição de processamento
e elasticidade, isto é, suportar aplicações com
volumes de dados que crescem
substancialmente em pouco tempo.
Fonte: http://www.infowester.com/big-data.php
Slide 7
Slide 7 text
Download posts do Twitter
• Criar uma APP no twitter
(https://dev.twitter.com/)
• Instalar no pytho as bibliotecas
– Oauth2
– Urllib2
• Desenvolver script em Python para consumir as API
Slide 8
Slide 8 text
Download posts Google+
• Criar uma APP no Google+
(https://console.developers.google.com)
• Instalar no python as bibliotecas
– oauth2client
– Apiclient
• Desenvolver script em Python para consumir
as API
Slide 9
Slide 9 text
Json
• JSON (JavaScript Object Notation - Notação
de Objetos JavaScript) é uma formatação leve
de troca de dados.
• Praticamente todas as respostas das APIs
serão em formato Json
Slide 10
Slide 10 text
Baixando Informação
• Criado o script para Twitter e Google+, basta
executar:
– Python twit.py
– Python gplus.py
Slide 11
Slide 11 text
Base de Dados
• Cada rede social retorna sua informação de
uma maneira diferente;
• Cabe a você analisar a resposta e escolher o
que deseja extrair destas informações.
Slide 12
Slide 12 text
Statisticas vs MapReduce
• A grande diferença da tecnologia MapReduce e
uma rotina normal de calculo é que com esta
tecnologia as informações podem ser
processadas em partes, paralelo e em tarefas
separadas.
• Com pequeno volume de dados a diferença de
processamento é quase nula, contudo com
grande volume de dados a diferença é
significativa.
• Exemplo: Processar 400TB de dados, num
computador comum só a leitura 4 meses
Slide 13
Slide 13 text
BigData
• O mais importante na implementação do
BigData, não é a tecnologia nem os dados, o
mais importante é saber/conseguir dar
sentido aos dados.
• Exemplo:
– Onde as pessoas estão felizes?
– Que horas as pessoas mais postam sobre comida?