Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Web scraping con Scrapy

alertot
December 13, 2017

Web scraping con Scrapy

Spanish talk about scraping with Scrapy given in local meetup in Santiago, Chile.

alertot

December 13, 2017
Tweet

More Decks by alertot

Other Decks in Technology

Transcript

  1. Sobre mí ★ CEO @ alertot ★ Ingeniero de Software

    @ Scrapinghub (2012-2017) ★ Background en seguridad y desarrollo
  2. Solución actual • Suficiente para casos simples • jq no

    parece la mejor opción para sanitizar datos • Procesamiento a nivel de shell (awk,sed) podría quebrar el formato JSON • Un lenguaje de programación daría mayor flexibilidad
  3. Lista de requerimientos 1. Generar output fácil de manejar 2.

    Posibilitar limpieza de datos 3. Crear un proyecto mantenible
  4. Solución actual • Combinación de extracción, sanitización y resultado •

    No hay relación entre los datos y cómo procesarlos • No es escalable • Querer mejorar estas falencias nos haría reinventar la rueda
  5. Lista de requerimientos 1. Generar output fácil de manejar 2.

    Posibilitar limpieza de datos 3. Crear un software mantenible 4. Proveer facilidad para recorrer el sitio
  6. Solución actual • Suficiente para sitios pequeños • Falta de

    control sobre requests repetidas • Falta de adaptación a condiciones de red
  7. Lista de requerimientos 1. Generar output fácil de manejar 2.

    Posibilitar limpieza de datos 3. Crear un software mantenible 4. Proveer facilidad para recorrer el sitio 5. Proveer herramientas para acelerar el desarrollo
  8. Lista de requerimientos 1. Generar output fácil de manejar 2.

    Posibilitar limpieza de datos 3. Crear un software mantenible 4. Proveer facilidad para recorrer el sitio 5. Proveer herramientas para acelerar el desarrollo 6. Contar con documentación y comunidad de calidad
  9. Características • Framework especializado en web scraping • Funcionamiento asíncrono

    • 25k estrellas en Github • Fuerte comunidad y soporte