Python Weekend - 2015 - Raspando a web com Scrapy

Raspando a web com Scrapy “Para fazer raspagem de dados
não precisa de lixa e nem espátula”

Diego de Jesus Leite Estudante de Engenharia de Computação -
UEFS

Sobre o Scrapy Lançamento: 26 de junho de 2008 Última
versão estável: 0.24.4 Linguagem: Python Sistemas Operacionais: Mac/Windows/Linux Licença: BSD Site: scrapy.org

Conceitos importantes

O que é o DOM?

O que é o XPath? //body

XPath table nodename Selects all nodes with the name "nodename"
/ Selects from the root node // Selects nodes in the document from the current node that match the selection no matter where they are . Selects the current node .. Selects the parent of the current node @ Selects attributes

O que é um crawler? “É um programa que navega
na estrutura de arquivos do site em busca de dados” - Eu

Como fazer um crawler? 1 - Entender a lógica do
site alvo 2 - Localizar os dados de interesse 3 - Escolher uma ferramenta de Scraping, ou não 4 - Desenvolvimento do algoritmo planejamento execução --------------------------------------------------------------------------------------------------------------------------------------------

O Básico sobre o Scrapy

$ scrapy startproject buzu

Estrutura de diretórios

scrapy.item.Item ❏ Objeto Python ❏ Herda da classe scrapy.item.Item ❏
É dict-like

scrapy.http.Request ❏ Classe que abstrai a requisição ❏ Request (url,
callback=func)

Spider ❏ Herda de scrapy.spider.Spider ❏ Atributos chaves: ❏ name
❏ allowed_domains ❏ start_urls ❏ Método chave: ❏ parse (self, response)

Selectors ❏ response.xpath (query) ❏ Métodos chaves: ❏ extract (
) ❏ re (regex)

Talk is cheap. Show me the code.

if questions == True: print ‘Perguntas?’ else: print ‘Obrigado!’

id = ‘di3goleite’ if contato == ‘facebook’: print ‘fb.com/’ +
id elif contato == ‘twitter’: print ‘twitter.com/’ + id else: print ‘github.com/’ + id

# Referências from bernardo_fontes import github. com/berinhard/scrapy-pybr8 from scrapy_org import
doc.scrapy.org/en/0.24/

Python Weekend - 2015 - Raspando a web com Scrapy

Python Weekend - 2015 - Raspando a web com Scrapy

Diego Leite

More Decks by Diego Leite

Other Decks in Technology

Featured

Transcript

Raspando a web com Scrapy “Para fazer raspagem de dados

Diego de Jesus Leite Estudante de Engenharia de Computação -

Sobre o Scrapy Lançamento: 26 de junho de 2008 Última

Conceitos importantes

O que é o DOM?

O que é o XPath? //body

XPath table nodename Selects all nodes with the name "nodename"

O que é um crawler? “É um programa que navega

Como fazer um crawler? 1 - Entender a lógica do

O Básico sobre o Scrapy

$ scrapy startproject buzu

Estrutura de diretórios

scrapy.item.Item ❏ Objeto Python ❏ Herda da classe scrapy.item.Item ❏

scrapy.http.Request ❏ Classe que abstrai a requisição ❏ Request (url,

Spider ❏ Herda de scrapy.spider.Spider ❏ Atributos chaves: ❏ name

Selectors ❏ response.xpath (query) ❏ Métodos chaves: ❏ extract (

Talk is cheap. Show me the code.

if questions == True: print ‘Perguntas?’ else: print ‘Obrigado!’

id = ‘di3goleite’ if contato == ‘facebook’: print ‘fb.com/’ +

# Referências from bernardo_fontes import github. com/berinhard/scrapy-pybr8 from scrapy_org import