Explorando Scrapy além do tutorial

Explorando Python Brasil - 2014 além do tutorial

Web Scraping WAT?

Existe muito conteúdo na Web

Mas a gente quer dados

Web Scraping em uma casca de noz

POR QUÊ?

POR QUÊ? Descobrir o que as pessoas gostam Monitorar o
que estão dizendo sobre seu produto Rastrear ofertas de emprego, preços, etc Acompanhar tendências de assuntos e produtos Backup de conteúdo histórico (notícias, blogs)

Obter informações quentes é um superpoder

OK, vamos falar de Python!

stdlib: urllib2, re, xml Para os puristas de verdade Para
os puristas de verdade

requests BeautifulSoup lxml Para os pragmáticos de plantão Para os
pragmáticos de plantão

http://scrapy.org pip install scrapy Para os pragmáticos que querem baterias
inclusas =) Para os pragmáticos que querem baterias inclusas =)

Rápido, poderoso, extensível e customizável

SpiDERS! SCRAPING && CRAWLing Um Spider, abstração central do Scrapy,
se dedica a 2 coisas: crawling (seguir os links para as páginas que se queira) & scraping (extrair os dados da página)

Synchronous requests suck! Synchronous requests suck! No Scrapy você trata
requisições de forma assíncrona: melhor desempenho para crawlings grandes.

Twisted Matrix Event-driven networking engine https://twistedmatrix.com “molho secreto” do Scrapy
“molho secreto” do Scrapy

# arquivo.py from scrapy import Spider, Request class Aranha(Spider): name
= 'aranha' def start_requests(self): yield Request( url='http://www.python.org', callback=self.parse) def parse(self, response): self.log('Oi: %s' % response.url) SPIDERS PRECISAM DE UM NOME Eis o código dum Spider mínimo

Requisições são tratadas em callbacks

= 'aranha' def start_requests(self): yield Request( url='http://www.python.org', callback=self.parse) def parse(self, response): self.log('Oi: %s' % response.url) ACIONA AS PRIMEIRAS REQUISIÇÕES

= 'aranha' def start_requests(self): yield Request( url='http://www.python.org', callback=self.parse) def parse(self, response): self.log('Oi: %s' % response.url) DEFAULT CALLBACK PARA TRATAR RESPOSTAS

$ scrapy runspider arquivo.py

$ scrapy runspider arquivo.py ... 2014-08-24 17:45:58-0300 [aranha] INFO: Spider
opened 2014-08-24 17:45:58-0300 [aranha] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min) 2014-08-24 17:45:59-0300 [aranha] DEBUG: Redirecting (301) to <GET https://www.python.org/> from <GET http://www.python.org> 2014-08-24 17:46:00-0300 [aranha] DEBUG: Crawled (200) <GET https://www.python.org/> (referer: None) 2014-08-24 17:46:00-0300 [aranha] DEBUG: Oi: https://www.python.org/ 2014-08-24 17:46:00-0300 [aranha] INFO: Closing spider (finished) 2014-08-24 17:46:00-0300 [aranha] INFO: Dumping Scrapy stats: ...

Callbacks retornam um iterable de: itens com dados coletados (scrapy.Item)
outras requisições (scrapy.Request) com possivelmente outros callbacks

def parse(self, response): article_links = response.xpath( "//header//h1/a/@href" ).extract() for link
in article_links: article_url = urlparse.urljoin( response.url, link) yield scrapy.Request( article_url, self.extract_article) EXTRAI LINKS Callback gerando requisições

in article_links: article_url = urlparse.urljoin( response.url, link) yield scrapy.Request( article_url, self.extract_article) MONTA URL ABSOLUTA Callback gerando requisições

in article_links: article_url = urlparse.urljoin( response.url, link) yield scrapy.Request( article_url, self.extract_article) GERA REQUESTS COM OUTRO CALLBACK PARA EXTRAIR DADOS Callback gerando requisições

class Article(scrapy.Item): author = scrapy.Field() ... def extract_article(self, response): article
= Article() article['author'] = response.css( 'div#posted-by::text' ).re(r'Posted by: (.*)') ... yield article DEFINE DADO QUE VAI EXTRAIR Callback extraindo item

= Article() article['author'] = response.css( 'div#posted-by::text' ).re(r'Posted by: (.*)') ... yield article EXTRAI TEXTO FILTRANDO COM REGEX Callback extraindo item

= Article() article['author'] = response.css( 'div#posted-by::text' ).re(r'Posted by: (.*)') ... yield article COLETA ITEM Callback extraindo item

$ scrapy runspider arquivo.py \ -o saida.json $ scrapy runspider
arquivo.py \ -o saida.csv E você também pode escrever um pipeline para armazenar num banco de dados

That's it!

Abstrações úteis

from scrapy.contrib.linkextractors \ import LinkExtractor le = LinkExtractor( allow=["/artigos/.+"], deny=[
"/artigos/galeria-fotos" ], ) print le.extract_links(response) [ Link(url='http://site.com/artigos/noticia-001', text=u'Lançado Py4k', fragment='', nofollow=False), Link(url='http://site.com/artigos/opiniao-002', text=u'Carta a Guido', fragment='', nofollow=False), ] LinkExtractor extraindo links baseado em padrão nas URLs Saída:

from scrapy.contrib.linkextractors \ import LinkExtractor le = LinkExtractor( restrict_xpaths=[ "//ul[@id='navlist']"
] ) print le.extract_links(response) [ Link(url='http://example.com/link01.html', text='Link 01', fragment='', nofollow=False), Link(url='http://example.com/link02.html', text='Link 02', fragment='', nofollow=False), ] LinkExtractor extraindo links dentro de um elemento HTML Saída:

CrawlSpider Estende scrapy.Spider para seguir links usando regras definidas na
classe no callback default

from scrapy.contrib.spiders.crawl \ import CrawlSpider, Rule class MySpider(CrawlSpider): name =
'myspider' rules = [ Rule(LinkExtractor(...), callback='extrai_artigo'), Rule(LinkExtractor(...), callback='extrai_video'), ] def extrai_artigo(self, response): ... def extrai_video(self, response): ... REGRAS DE CRAWLING Veja como o crawling fica como algo declarativo: você define as regras de extração de links e como tratar cada tipo de link

from scrapy.contrib.spiders.crawl \ import CrawlSpider, Rule class MySpider(CrawlSpider): name =
'myspider' rules = [ Rule(LinkExtractor(...), callback='parse'), Rule(LinkExtractor(...), callback='extrai_video'), ] def extrai_video(self, response): ... ACIONA REGRAS NOVAMENTE Não sobrescreva o método parse()!

Configurações e outros truques

$ scrapy runspider arquivo.py \ -s CONFIG=VALUE Num projeto Scrapy,
podem ser definidas no módulo settings.py $ CONFIG=VALUE scrapy \ runspider arquivo.py Scrapy Settings

DOWNLOAD_DELAY=0.5 Seja gentil com os sites = máximo de 2
reqs/s = máximo de 2 reqs/s

Só porque você pode não significa que você deva!

REDIRECT_MAX_TIMES=5 Evite loops de redirecionamento

TELNETCONSOLE_ENABLED=False Livre-se de bisbillhoteiros

Mais configurações de crawling: DOWNLOAD_TIMEOUT COOKIES_ENABLED RETRY_ENABLED DEPTH_LIMIT DEFAULT_REQUEST_HEADERS CONCURRENT_REQUESTS_PER_{DOMAIN,IP}
consulte a documentação para mais... http://scrapy.readthedocs.org/en/latest/topics/settings.html

Aprenda XPath! O domínio de XPath diferencia os gurus dos
gafanhotos! =D

Expressões XPath são apenas condições encadeadas //li/a[contains(., 'Next page')]/@href //div[re:test(@id,
'head(er)?') and ./h1] //li[a[contains(., 'Next page')]] /preceding-sibling::li[1]

'head(er)?') and ./h1] //li[a[contains(., 'Next page')]] /preceding-sibling::li[1] XPath Axis (eixo) – existem vários!

'head(er)?') and ./h1] //li[a[contains(., 'Next page')]] /preceding-sibling::li[1] Extensões EXSLT (regex, conjuntos)

Converter CSS para XPath? from scrapy.selector.csstranslator import ScrapyHTMLTranslator translator =
ScrapyHTMLTranslator() def css2xpath(css): return translator.css_to_xpath(css) print css2xpath('ul.nav') NOT BAD! u"descendant-or-self::ul[@class and contains(concat(' ', normalize- space(@class), ' '), ' nav ')]" response.css() é só um atalho pra isso! ;) response.css() é só um atalho pra isso! ;)

$ scrapy shell http://example.com >>> response.url 'http://example.com' >>> response.xpath('//h1/text()') [<Selector
xpath='//h1/text()' data=u'Example Domain'>] >>> view(response) # abre no browser >>> fetch('http://www.google.com') # vai para outra URL Use o shell para explorar sites

Código boilerplate: w3lib & scrapylib https://github.com/scrapy/w3lib pip install w3lib https://github.com/scrapinghub/scrapylib
pip install scrapylib Use em seu próximo projeto =) Use em seu próximo projeto =)

Cool tools, bro!

E o deploy?

Opções de deploy • Shell-scripts no cron de um host
• Scrapyd - https://github.com/scrapy/scrapyd – permite agendar jobs Scrapy via API, interface Web mínima • Heroku - https://github.com/dmclain/scrapy-heroku • Scrapy Cloud - http://scrapinghub.com/scrapy-cloud – solução PaaS da ScrapingHub*, fornece API & interface Web para jobs, dados coletados, settings, stats e mais. * Full-disclosure: ScrapingHub é a empresa em que o palestrante trabalha!

Scrapy Cloud - Dashboard

Recapitulando... 1) Obter dados quentes com Web Scraping é um
superpoder 1) Obter dados quentes com Web Scraping é um superpoder

superpoder 1) Obter dados quentes com Web Scraping é um superpoder 2) Scrapy resolve scraping & crawling, é rápido, extensível e vem com baterias inclusas 2) Scrapy resolve scraping & crawling, é rápido, extensível e vem com baterias inclusas

superpoder 1) Obter dados quentes com Web Scraping é um superpoder 2) Scrapy resolve scraping & crawling, é rápido, extensível e vem com baterias inclusas 2) Scrapy resolve scraping & crawling, é rápido, extensível e vem com baterias inclusas 3) Para aproveitar o Scrapy ao máximo, vasculhe os docs & aprenda XPath 3) Para aproveitar o Scrapy ao máximo, vasculhe os docs & aprenda XPath

superpoder 1) Obter dados quentes com Web Scraping é um superpoder 2) Scrapy resolve scraping & crawling, é rápido, extensível e vem com baterias inclusas 2) Scrapy resolve scraping & crawling, é rápido, extensível e vem com baterias inclusas 3) Para aproveitar o Scrapy ao máximo, vasculhe os docs & aprenda XPath 3) Para aproveitar o Scrapy ao máximo, vasculhe os docs & aprenda XPath 4) Crie algum projeto com Scrapy, publique nas interwebs e depois me conte! =) 4) Crie algum projeto com Scrapy, publique nas interwebs e depois me conte! =)

Elias Dorneles @eliasdorneles @ScrapingHub Q&A

Explorando Scrapy além do tutorial

Explorando Scrapy além do tutorial

More Decks by Elias Dorneles

Other Decks in Programming

Featured

Transcript