Scrapy - un framework para el desarrollo ágil de arañas web

Scrapy Un framework para el desarrollo ágil de arañas web

Web crawlers Robots que recorren sitios web, partiendo de una
lista de urls (seed urls), siguiendo los links encontrados y descargado las páginas para su posterior procesamiento

Web crawlers - Tipos •Genéricos ◦gran escala ◦motores de búsqueda
•Enfocados ◦agregadores ◦comparación de productos

Web crawlers - Componentes •Downloader ◦politeness/parallelization policies ◦coordinación para evitar
sobrecargar sitios ◦Extractor de links ◦DNS cache •Scheduler ◦que páginas visitar a continuación ◦que páginas re-visitar para descubrir cambios ◦Filtro de duplicados • Storage ◦donde se almacen las páginas crawleadas ◦eficiente para procesamiento bulk secuencial

Web crawlers - Ejemplos •Genéricos ◦Apache Nutch ▪precursor de Hadoop
◦Heritrix ▪usado por Internet Archive ◦wget ▪simple •Enfocados ◦Mechanize ▪single-thread ◦Scrapy ▪concurrente

Web scrapers Utilizados para extraer datos estructurados (ej: diccionarios) a
partir de contenido no estructurado, o semi-estructurado (HTML)

Web scrapers - Tecnologías •Regular expressions ◦<h1>(.*?)</h1> •XPath ◦//h1 •Generar
un objeto del HTML (tipo DOM) ◦page.h1

Web scrapers - Ejemplos •lxml (XPath) •BeautifulSoup (objetos) •Scrapy (XPath)

Scrapy = Crawler + Scraper

Scrapy - Orígenes •Cuando: ◦2007 •Donde: ◦Mydeco (agregador de sitios
de decoración de interior) •Requisitos: ◦poder escrapear 1000 sitios de forma eficiente ◦poder mantener el código de 1000 scrapers de forma productiva ◦Python •Alternativas evaluadas: ◦BeautifulSoup - muy verboso (demasiado código) ◦lxml - muy verde aún ◦mechanize - lento

Scrapy - Características generales •Simple, conciso •Extensible ◦Señales, middlewares •Rápido
◦IO asíncrona (twisted), parseo en C (libxml2) •Portable ◦Linux, Windows, Mac •Bien testeado ◦778 unit-tests, 80% de cobertura •Bien hackeable ◦Pure Python ◦Código limpio (PEP-8) y desacoplado •Zen-friendly •Divertido!

Scrapy - Arquitectura

Scrapy - Spiders •Definen como escrapear un sitio puntual •Reglas
de crawleo ◦que links seguir •Reglas de extracción ◦cómo extraer los datos del HTML ◦selectores y loaders

Scrapy - Selectores y loaders •Selectores ◦para indicar regiones del
HTML ◦Ejemplo: ▪//div[@class='price'] •Loaders ◦politicas de como procesar las regiones extraidas del HTML, según el campo que se vaya a popular ◦Ejemplo: ▪"List Price: $200" -> 200.0

Scrapy - Pipelines y exports •Exports: generan feeds de los
datos escrapeados ◦JSON, XML, CSV, etc •Pipelines: procesan los datos escrapeados ◦validación, almacenamiento en DB

Scrapy - Línea de comando •Interfaz de control: línea de
comando •Listar, correr y editar spiders ◦scrapy list ◦scrapy crawl spider1 ◦scrapy edit spider1 •Probar, bajar y ver URLs ◦scrapy shell http://insophia.com ◦scrapy fetch http://insophia.com ◦scrapy view http://insophia.com

Scrapy - Shell $ scrapy shell http://insophia.com/ >>> hxs.select("//h2/text()").extract() [u'Who
we are?']

Scrapy - Otros servicios •Logging •Stats •Consola telnet •Descarga de
estáticos (media pipeline) •Scrapyd

Scrapy - Servicios online •Repositorios APT para Ubuntu ◦provistos por
Insophia •Plataforma (PaaS) para correr spiders en la nube ◦provisto por Scraping Hub ◦simil Heroku / App engine

Caso de ejemplo - PyDay speakers

Caso de ejemplo - PyDay speakers https://github.com/insophia/pydaybot

Scrapy - Algunas estadísticas •4 años de activo desarrollo •3
años como proyecto open source •2700 commits •25 desarrolladores •X usuarios?

Scrapy - Comunidad hoy •Google groups ◦900 threads, 2000+ mensajes,150
mensajes por mes •Sitio web y documentación ◦500 visitas únicas diarias •Sala IRC ◦30-40 personas promedio (90% de la comunidad) •Twitter ◦ 310 seguidores (10% de Django) •Github ◦192 watchers, 28 forks •Bitbucket ◦19 watchers, 7 forks •StackOverflow ◦160 preguntas con tag "scrapy"

Scrapy - Links principales Home http://scrapy.org Documentación http://doc.scrapy.org/ Código https://github.com/insophia/scrapy
Twitter http://twitter.com/scrapyproject Blog http://blog.scrapy.org

Scrapy - Obteniendo ayuda Google group: https://groups.google.com/group/scrapy-users IRC #scrapy @
freenode Scrapy snippets http://snippets.scrapy.org/ StackOverflow http://stackoverflow.com/tags/scrapy

¿Preguntas? ¿Te gustaría trabajar con Scrapy? [email protected]

Scrapy - un framework para el desarrollo ágil d...

Scrapy - un framework para el desarrollo ágil de arañas web

Pablo Hoffman

More Decks by Pablo Hoffman

Other Decks in Programming

Featured

Transcript