Maintaining 200+ spiders and still having time to sleep

sleep and still having time to Maintaining 200+ by Victor
"Frodo" Martinez crawlers

vcrmartinez twitte r email blog Victor Frodo Martinez Software Developer
[email protected] victormartinez.github.io

Informação Pessoas Advogados

JUSTICE GAP ?

A Jusbrasil tem revolucionado o acesso a informação jurídica

Páginas de D.O. Jurisprudências Notícias Leis 128 mi 23 mi
7 mi 975 K 160 mi documentos

Crawler Team

Jurisprudências Diários Oficiais Legislações Notícias ~200 3 ~180 ~105

notícias extraídas/ mês 200K 17K notícias persistidas/ mês

notícias extraídas/ dia 7K 700 notícias persistidas/ dia

sleep and still having time to Maintaining 200+ crawlers

2 Testes e Integração 1 Spiders 3 Execução 4 Persistência

2 Testes e Integração 1 Spiders 3 Execução 4 Persistência
Métricas Monitorament o

NewsPipeline Scrapinghub item 1 item 2 item 4 item 5
item 3 item n Jusbrasil Network tests build Spiders 1 2 3 4 5 Monitoramento Métricas

1Spiders

Framework Open Source e colaborativo para extração de dados de
websites de forma rápida, simples e extensível. scrapy.or g

Spiders Itens Downloader Item Pipeline

semcomp/ ├── scrapy.cfg └── semcomp/ ├── __init__.py ├── items.py ├──
pipelines.py ├── settings.py └── spiders/ └── __init__.py $ scrapy startproject <project_name> $ scrapy startproject semcomp

Pipelines are AWESOME

Verifique Duplicidade

Salve no MongoDB

Concurrent Requests Enable/Disable Cookie Default Request Headers Autothrottle Spider Middlewares
Downloader Middlewares …

2Testes e Integração

Como enviar esse código para produção?

$ git push origin master Build and Push $ docker-compose
-f docker-compose-test.yml rm 1 2 $ git pull 3 unit regression 4 $ docker-compose -f docker-compose-deploy up

Unit and Regression Tests

3Execução

Scrapinghub Command Line Client $ shub login $ shub deploy
projects: default: 12345 prod: 33333 apikeys: default: 0bbf4f0f691e0d9378ae00ca7bcf7f0c scrapinghub.yml https://doc.scrapinghub.com/shub.htm l

scrapinghub/python-s crapinghub

>>> from scrapinghub import Connection >>> conn = Connection('1q2w3e4r54t56ydy87u89u8') >>>
conn Connection('1q2w3e4r54t56ydy87u89u8')

conn Connection('1q2w3e4r54t56ydy87u89u8') >>> conn.project_ids() [123, 456]

conn Connection('1q2w3e4r54t56ydy87u89u8') >>> conn.project_ids() [123, 456] >>> project = conn[123] >>> job = project.job(u'123/1/2')

conn Connection('1q2w3e4r54t56ydy87u89u8') >>> conn.project_ids() [123, 456] >>> for item in job.items(): ... # do something with item (it's just a dict) >>> for logitem in job.log(): ... # logitem is a dict with logLevel, message, time >>> project = conn[123] >>> job = project.job(u'123/1/2')

https://doc.scrapinghub.com/api/over view.html Scrapinghub API

$ curl -u APIKEY: https://storage.scrapinghub.com/items/53/34/7 $ curl -u APIKEY: https://storage.scrapinghub.com/items/53
Todos os itens de um Job Todos os itens de um Projeto

unlimited team members unlimited projects unlimited requests 24 hour max
job run time 1 concurrent crawl 7 day data retention no credit card required 0 CLOUD-BASED CRAWLING. FREE $

4Persistência

item 3 item n Jusbrasil Network

Extração Consumo Consulta Persistência

http://docs.celeryproject.org/en/latest/index.ht ml

Tasks! Consumo Consulta Persistência

Celery RabbitMQ Envia Mensagem (Task) Worker s Pegam Tasks Envia
resultado Obtém Resultado Message Broker Backend

item 3 item n Jusbrasil Network

Primitivas : chain group chord map & startmap chunks

Métricas

SÉRIE TEMPORAL ?

time measurement field (key-value string) tag(s) 2015-10-21T19:28:07.580664347 Z cpu region=us_west
value=0.64

TEMP O

Monitoramento

Status dos Crawlers

Frequência de publicação

O que aprendemos até aqui

Adote a tecnologia que atende ao seu problema. 1

Métricas são importantes! 2

Monitore! Sempre! 3

Estabeleça prioridades 4

Entenda os impactos 5

DRY Don’t Repeat Yourself 6

Pense em mudanças de layout 7

Crie um processo de validação 8

Seja realista! Seu crawler vai quebrar em algum momento 9

10 Have Fun!

Obrigado! Victor Frodo Martinez Software Developer vcrmartinez [email protected] victormartinez.github.io

Maintaining 200+ spiders and still having time ...

Maintaining 200+ spiders and still having time to sleep

More Decks by Victor Martinez

Other Decks in Programming

Featured

Transcript