Web Scraping com Python - Talk WoMakersCode

Web Scraping com Python Ana Carolina Lopes de Souza

Ana Carolina Software Developer - Love Mondays Formada em Análise
e Desenvolvimento de Sistemas anacls Contato: https://about.me/anacls

Data Scraping

▹ Raspagem de dados ▹ Técnica de extração ▹ Facilita
a análise de dados Data Scraping

Web Scraping

▹ Técnica de raspagem para websites ▹ Permite alcançar informação
mais limpa ▹ Percorrer páginas com mais rapidez Web Scraping

▹ Criar fontes de dados estruturadas ▹ Agiliza e facilita
a manipulação e análise das informações ▹ Exemplo Love Mondays: ￭ Raspa vagas de diversas fontes ￭ Realiza tratamento dos dados ￭ Disponibiliza todas as vagas num único site Para o que serve?

Como fazer?

▹ É possível fazer scraping usando várias linguagens ▹ Python
é a linguagem mais utilizada para esse ﬁm ▹ BeautifulSoup e Scrapy são as ferramentas mais conhecidas Como fazer?

Beautiful Soup? É de comer?

▹ Biblioteca Python (https://www.crummy.com/software/BeautifulSoup/bs4/doc/) ▹ Possui métodos que permitem fazer
extração de forma simples ▹ Mais voltada para extração de conteúdos html e xml Beautiful Soup

Scrapy

▹ Framework Python (https://docs.scrapy.org/en/latest/) ▹ Voltado especiﬁcamente para scraping e
crawling ▹ Possui funções mais complexas ▹ Preparado para resolver problemas maiores sem exigir muito esforço Scrapy

SHOW ME THE CODE!

Entendendo o HTML

<html> <head> <title>Exemplo</title> </head> <body> <div> <p class="first-item" id="first"> “Se
sentir medo, vai com medo mesmo” </p> </div> </body> </html>

Raspagem de dados com BeautifulSoup Quantidade de mulheres parlamentares no
mundo em 2017. Fonte: http://wdi.worldbank.org/table/WV.5 Código disponível no GitHub

import urllib from bs4 import BeautifulSoup url = "http://wdi.worldbank.org/table/WV.5" html
= urllib.urlopen(url) soup = BeautifulSoup(html.read(), 'html.parser') tabela = soup.findAll('table', { 'class': 'indicators-table' })[1]

linhas = tabela.findAll('tr') for linha in linhas: pais = linha.find('td',
{ 'class': 'country' }).text

linhas = tabela.findAll('tr') for linha in linhas: pais = linha.find('td',
{ 'class': 'country' }).text quantidade = linha.findAll('td')[7].text print(pais + ' = ' + quantidade)

Raspagem de dados com Scrapy Previsão do Tempo Fonte: "https://www.climatempo.com.br/previsao-do-tempo/15-dia
s/cidade/558/saopaulo-sp" Código scrapy disponível no GitHub

import scrapy class Previsao(scrapy.Spider): name = "previsao" start_urls = [
"https://www.climatempo.com.br/previsao-do-tempo/15-dias/cidade/5 58/saopaulo-sp" ]

def parse(self, response): dias = response.xpath('//div[contains(@id, "resumeDay")]')

def parse(self, response): dias = response.xpath('//div[contains(@id, "resumeDay")]') for dia in
dias: dia_semana = dia.xpath('.//div[contains(@class, "title")]//p/text()[1]').extract_first().strip() data = dia.xpath('.//div[contains(@class, "title")]//p/text()[2]').extract_first().strip()

dias: dia_semana = dia.xpath('.//div[contains(@class, "title")]//p/text()[1]').extract_first().strip() data = dia.xpath('.//div[contains(@class, "title")]//p/text()[2]').extract_first().strip() max_temp = dia.xpath('.//p[contains(@id, "tempMax")]/text()').extract_first() min_temp = dia.xpath('.//p[contains(@id, "tempMin")]/text()').extract_first()

dias: dia_semana = dia.xpath('.//div[contains(@class, "title")]//p/text()[1]').extract_first().strip() data = dia.xpath('.//div[contains(@class, "title")]//p/text()[2]').extract_first().strip() max_temp = dia.xpath('.//p[contains(@id, "tempMax")]/text()').extract_first() min_temp = dia.xpath('.//p[contains(@id, "tempMin")]/text()').extract_first() desc = dia.xpath('.//div[contains(@class, "description-block")]//span/text()').extract_first()

print("Dia: " + dia_semana + data) print("Máxima: " + max_temp)
print("Mínima: " + min_temp) print("Descrição: " + desc) yield{ 'dia_sem': dia_semana, 'data': data, 'max_temp': max_temp, 'min_temp': min_temp, 'desc': desc, }

▹ Love Mondays ▹ Operação Serenata de Amor ▹ Brasil
IO Projetos que usam scraping

▹ Github do Marco Tulio Pires ▹ Repositório de treinamento
do Masanori ▹ Livro Web Scraping com Python ▹ Site Oﬁcial Scrapy ▹ Documentação Scrapy ▹ Learn Scrapy Referências de Estudo

Dúvidas?

Web Scraping com Python - Talk WoMakersCode

Web Scraping com Python - Talk WoMakersCode

Ana Carolina

More Decks by Ana Carolina

Featured

Transcript

Web Scraping com Python Ana Carolina Lopes de Souza

Ana Carolina Software Developer - Love Mondays Formada em Análise

Data Scraping

▹ Raspagem de dados ▹ Técnica de extração ▹ Facilita

Web Scraping

▹ Técnica de raspagem para websites ▹ Permite alcançar informação

▹ Criar fontes de dados estruturadas ▹ Agiliza e facilita

Como fazer?

▹ É possível fazer scraping usando várias linguagens ▹ Python

Beautiful Soup? É de comer?

▹ Biblioteca Python (https://www.crummy.com/software/BeautifulSoup/bs4/doc/) ▹ Possui métodos que permitem fazer

Scrapy

▹ Framework Python (https://docs.scrapy.org/en/latest/) ▹ Voltado especiﬁcamente para scraping e

SHOW ME THE CODE!

Entendendo o HTML

<html> <head> <title>Exemplo</title> </head> <body> <div> <p class="first-item" id="first"> “Se

Raspagem de dados com BeautifulSoup Quantidade de mulheres parlamentares no

import urllib from bs4 import BeautifulSoup url = "http://wdi.worldbank.org/table/WV.5" html

linhas = tabela.findAll('tr') for linha in linhas: pais = linha.find('td',

linhas = tabela.findAll('tr') for linha in linhas: pais = linha.find('td',

Raspagem de dados com Scrapy Previsão do Tempo Fonte: "https://www.climatempo.com.br/previsao-do-tempo/15-dia

import scrapy class Previsao(scrapy.Spider): name = "previsao" start_urls = [

def parse(self, response): dias = response.xpath('//div[contains(@id, "resumeDay")]')

def parse(self, response): dias = response.xpath('//div[contains(@id, "resumeDay")]') for dia in

def parse(self, response): dias = response.xpath('//div[contains(@id, "resumeDay")]') for dia in

def parse(self, response): dias = response.xpath('//div[contains(@id, "resumeDay")]') for dia in

print("Dia: " + dia_semana + data) print("Máxima: " + max_temp)

▹ Love Mondays ▹ Operação Serenata de Amor ▹ Brasil

▹ Github do Marco Tulio Pires ▹ Repositório de treinamento

Dúvidas?