Sobre mí
★ CEO @ alertot
★ Ingeniero de Software @ Scrapinghub (2012-2017)
★ Background en seguridad y desarrollo
Slide 3
Slide 3 text
Lista de requerimientos
1. Generar output fácil de manipular (JSON Lines)
Slide 4
Slide 4 text
Consumiendo una API
Slide 5
Slide 5 text
Consumiendo una API
Slide 6
Slide 6 text
Consumiendo una API
Slide 7
Slide 7 text
Lista de requerimientos
1. Generar output fácil de manejar
2. Posibilitar limpieza de datos
Slide 8
Slide 8 text
Solución actual
● Suficiente para casos simples
● jq no parece la mejor opción para sanitizar datos
● Procesamiento a nivel de shell (awk,sed) podría quebrar el formato JSON
● Un lenguaje de programación daría mayor flexibilidad
Slide 9
Slide 9 text
Bienvenida al World Wild Web
Slide 10
Slide 10 text
Bienvenida al World Wild Web
Slide 11
Slide 11 text
Bienvenida al World Wild Web
Slide 12
Slide 12 text
Bienvenida al World Wild Web
Slide 13
Slide 13 text
Lista de requerimientos
1. Generar output fácil de manejar
2. Posibilitar limpieza de datos
3. Crear un proyecto mantenible
Slide 14
Slide 14 text
Solución actual
● Combinación de extracción, sanitización y resultado
● No hay relación entre los datos y cómo procesarlos
● No es escalable
● Querer mejorar estas falencias nos haría reinventar la rueda
Slide 15
Slide 15 text
Lista de requerimientos
1. Generar output fácil de manejar
2. Posibilitar limpieza de datos
3. Crear un software mantenible
4. Proveer facilidad para recorrer el sitio
Slide 16
Slide 16 text
Solución actual
● Suficiente para sitios pequeños
● Falta de control sobre requests repetidas
● Falta de adaptación a condiciones de red
Slide 17
Slide 17 text
Lista de requerimientos
1. Generar output fácil de manejar
2. Posibilitar limpieza de datos
3. Crear un software mantenible
4. Proveer facilidad para recorrer el sitio
5. Proveer herramientas para acelerar el desarrollo
Slide 18
Slide 18 text
Lista de requerimientos
1. Generar output fácil de manejar
2. Posibilitar limpieza de datos
3. Crear un software mantenible
4. Proveer facilidad para recorrer el sitio
5. Proveer herramientas para acelerar el desarrollo
6. Contar con documentación y comunidad de calidad
Slide 19
Slide 19 text
No content
Slide 20
Slide 20 text
Características
● Framework especializado en web scraping
● Funcionamiento asíncrono
● 25k estrellas en Github
● Fuerte comunidad y soporte