Introdução ao Web Scraping

Introdução ao Web Scraping SESCOMP 2016 UFC: Campus Russas

Quem sou eu? • Aluno do 8º semestre de Ciência
da Computação pela Universidade Fortaleza (Unifor) • Desenvolvedor desde 2006 (quando tinha 12 anos) • Membro do PUG-CE (Python User Groups) e organizador/fundador do Unidev • Entusiasta de software livre e segurança da informação Jon Maddog Hall

“ Web Scraping é uma técnica de ciência da computação
baseada na extração de informação de websites. ” Wikipedia

Fonte: http://bit.ly/2c3v0Pe

É hora de revisar!

Estrutura do HTML (DOM Tree)

Parsing

Sobre o Scrapy Lançamento: 26 de junho de 2008 Última
versão estável: 1.1 (visto em 2016) Linguagem: Python Sistemas Operacionais: Linux/Mac/Windows Licença: BSD Site: scrapy.org

$ sudo -H pip install scrapy $ scrapy startproject mycrawler

Spiders Spiders sãos as classes que definem como o site
será “raspado”

Items • Representação de uma informação estruturada • É uma
estrutura dict-like • Equivale ao Model de arquiteturas MVC

Pipelines • Processamento pós-coleta • Utilidades mais comuns: ◦ Validação
◦ Filtragem ◦ Storage

Scrapy Shell

Tá! Mas e quanto ao parsing?

XPATH Query Language voltada para uso em XMLs. Apesar disso,
funciona muito bem em documentos HTML.

XPATH - Getting Started nodename Seleciona todos aqueles nodenames /
Seleciona à partir do nó raiz // Seleciona todos os nós no documento que casem com a seleção, independente de onde estejam localizados . Seleciona o nó corrente .. Seleciona o nó pai @ Seleciona atributos Expressão Descrição

XPATH - Getting Started /bookstore/book[1] Seleciona o primeiro elemento book
filho do elemento bookstore /bookstore/book[last()] Seleciona o último elemento book filho do elemento bookstore /bookstore/book[position()<3] Seleciona os 2 primeiros elementos “book” filho do elemento bookstore //title[@lang] Seleciona qualquer elemento title que possui atributo lang //title[@lang='en'] Seleciona qualquer elemento title que possui atributo “lang” com valor “en” /bookstore/book[price>35.00] Seleciona todos os elementos book com atributo price com valor maior a 35 Expressão Descrição

Disfarce seu bot de navegador settings.py

Limite o número de requisições Lembre-se: realizar requisições demais por
segundo pode levantar a suspeita por parte do sites. Inúmeros sites usam dessa informação para bloquear o crawlers.

Respeite (sempre) o robots.txt

Se necessário: use Proxy!

Achou muito complicado?

Projeto PORTIA GUI para scraping

Fábio Theophilo Ziggoto @Ziggoto Fábio Theophilo Obrigado!

Introdução ao Web Scraping

Introdução ao Web Scraping

Fábio M. Theophilo

More Decks by Fábio M. Theophilo

Other Decks in Programming

Featured

Transcript