Web Crawling e Scraping - TDC

pen4education Trilha Python – Web crawling e scraping com Scrapy
e Scrapy Cloud Ana Carolina Lopes de Souza Back-end Developer Love Mondays Lidiane Mayra Taquehara Back-end Developer Love Mondays

pen4education Ana Carolina • Estudante de Análise e Desenvolvimento de
Sistemas – FATEC Jundiaí. • Back-end Developer na Love Mondays. • Contato: https://about.me/anacls

pen4education Lidiane Taquehara • Tecnóloga em Análise e Desenvolvimento de
Sistemas pela FATEC Jundiaí. • Back-end Developer na Love Mondays. • Contato: about.me/lidimayra

pen4education VAMOS LÁ!

pen4education Entendendo conceitos • Crawlers "Robôs" (bots ou spiders) usados
para encontrar e indexar páginas de um site. Ex: Googlebot

pen4education Entendendo conceitos • Scraping Técnica de extração de dados
usada para coletar dados de sites.

pen4education Scrapy • Framework escrito em Python voltado para web
scraping e web crawling. • Usado para acessar sites e extrair dados estruturados das páginas.

pen4education Scrapy • Para iniciar um projeto scrapy: scrapy startproject
<nome_do_projeto> • Escrever spider • Executar spider: scrapy crawl <nome_da_spider>

pen4education DISSECANDO UMA SPIDER

pen4education

pen4education Dissecando uma Spider Importa o Scrapy Cria uma classe
usando Spider default como padrão

pen4education Dissecando uma Spider Define um nome para a spider
Define a(s) URL de início Método parse, onde extraímos

pen4education Trilhas TDC • O que vamos extrair? • Dia
• Título da trilha • Subtítulo da trilha • Descrição da trilha • Link da trilha http://www.thedevelopersconference.com.br/tdc/2018/saopaulo/trilhas Disponível no GitHub:

pen4education GERENCIAMENTO DOS DADOS NA NUVEM

pen4education Scrapinghub • Criação e manutenção do Scrapy. • Data
on Demand • Scrapy Cloud

pen4education Scrapy Cloud • Execução de web crawling em nuvem
• Os dados são armazenados em um banco de dados em alta disponibilidade

pen4education Tecnologias

pen4education Deploy • Pode ser feito com uma única linha
de comando (ou o clique de um botão, no caso do Portia) • Sem preocupação com servidores!!

pen4education Dashboard

pen4education Utilização dos dados • Possibilidades: • Download (CSV, JSON,
JSON Lines, XML) • Publicação como um dataset público no Scrapinghub • Consumo dos dados através da Scrapy Cloud API

pen4education Scrapy Cloud API • Permite interagir com as spiders
e os dados coletados. • Endpoints: • app.scrapinghub.com • storage.scrapinghub.com

pen4education python-scrapinghub • Client Python: python-scrapinghub • Exemplo simples: https://github.com/lidimayra/scra
pinghub-api-demo

pen4education Para saber mais (Scrapy) • Site oficial - https://scrapy.org
• Github - https://github.com/scrapy/scrapy • Documentação -https://doc.scrapy.org/en/latest/intro/tutorial.html

pen4education Para saber mais (Scrapinghub) • Site oficial - https://scrapinghub.com/
• Github - https://github.com/scrapinghub/ • Blog - https://blog.scrapinghub.com

pen4education DÚVIDAS?

MUITO OBRIGADA!

Web Crawling e Scraping - TDC

Web Crawling e Scraping - TDC

Ana Carolina

More Decks by Ana Carolina

Featured

Transcript

pen4education Trilha Python – Web crawling e scraping com Scrapy

pen4education Ana Carolina • Estudante de Análise e Desenvolvimento de

pen4education Lidiane Taquehara • Tecnóloga em Análise e Desenvolvimento de

pen4education VAMOS LÁ!

pen4education Entendendo conceitos • Crawlers "Robôs" (bots ou spiders) usados

pen4education Entendendo conceitos • Scraping Técnica de extração de dados

pen4education Scrapy • Framework escrito em Python voltado para web

pen4education Scrapy • Para iniciar um projeto scrapy: scrapy startproject

pen4education DISSECANDO UMA SPIDER

pen4education

pen4education Dissecando uma Spider Importa o Scrapy Cria uma classe

pen4education Dissecando uma Spider Define um nome para a spider

pen4education Trilhas TDC • O que vamos extrair? • Dia

pen4education GERENCIAMENTO DOS DADOS NA NUVEM

pen4education Scrapinghub • Criação e manutenção do Scrapy. • Data

pen4education Scrapy Cloud • Execução de web crawling em nuvem

pen4education Tecnologias

pen4education Deploy • Pode ser feito com uma única linha

pen4education Dashboard

pen4education Utilização dos dados • Possibilidades: • Download (CSV, JSON,

pen4education Scrapy Cloud API • Permite interagir com as spiders

pen4education python-scrapinghub • Client Python: python-scrapinghub • Exemplo simples: https://github.com/lidimayra/scra

pen4education Para saber mais (Scrapy) • Site oficial - https://scrapy.org

pen4education Para saber mais (Scrapinghub) • Site oficial - https://scrapinghub.com/

pen4education DÚVIDAS?

MUITO OBRIGADA!