Scrapy Overview

Scrapy an overview

/skræpi/

Web Crawler vs. Web Scraper

Scrapy Framework Scraping / Crawling / Monitoring / Testing

Stable Active Large community

~200 pages of docs

Commercial support

Framework?

Twisted event loop (reactor)

Your code goes here

The scraping logic

HttpErrorMiddleware UrlLengthMiddleware DepthMiddleware

HttpProxyMiddleware HttpCacheMiddleware RedirectMiddleware

Media download Persistence Post-processing

Data flow control

Queuing

Talk is cheap, show me the code.

$ pip install Scrapy $ scrapy startproject home_news

home_news/ scrapy.cfg home_news/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...

Project root

Project config

Project module

Your items

Your pipelines

Your settings

Your spiders...

//*[@id="glbcorpo"]/div/div[1]/div[1]/div[2]/div[1]/div[1]/div/div/a/@href

//*[@id="glbmateria"]/div[2]/h1/text()

//*[@id="materialetra"]/div/div/p[1]/text()

$ pwd /home/caco/studies/scrapy_news/home_news

$ pwd /home/caco/studies/scrapy_news/home_news (project root)

$ pwd /home/caco/studies/scrapy_news/home_news $ scrapy crawl g1 -o scraped_data.json -t
json

$ pwd /home/caco/studies/scrapy_news/home_news $ scrapy crawl g1 -o scraped_data.json -t
json (feed exporters: json,csv,xml)

Other nice features • scrapyd: run as a service •
Webservice (issue commands via http requests) • Signals • Stats module • Contribs (CrawlSpider etc)

Obrigado! @cacovsky Thanks! @cacovsky

Images Spatula http://www.duebuoi.it/x/uk_usd/catalog/p/spatulas~805-16x10.html Spiderman http://tincan21.deviantart.com/art/muro-spidey-307810412

Other Decks in Programming