Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Cómo liberar datos oficiales de ciudades brasileñas con Python

Cómo liberar datos oficiales de ciudades brasileñas con Python

Charla presentada en PyCon Charlas en 29 de abril de 2022 durante PyConUS 2022 en Salt Lake City.

Renne Rocha

May 05, 2022
Tweet

More Decks by Renne Rocha

Other Decks in Technology

Transcript

  1. Renne Rocha @rennerocha Team Lead en Zyte Carpintero y cervecero

    casero Fundador del Laboratório Hacker de Campinas 2
  2. Uno de los documentos más antiguos de Brasil (1862) Donde

    se comunica los actos oficiales del gobierno Normalmente tenemos acceso a través de formatos cerrados como PDF Dificultad para consultar y analizar datos de forma automatizada 4
  3. ¿Qué problema queremos resolver? Hay 5570 ciudades en Brasil No

    existe un estándar para la publicación de los diarios Formato cerrado (PDF) que no permite búsqueda automática en su contenido ¿Cómo hacer el control social de los actos de gobierno? 5
  4. 6

  5. 7

  6. 8

  7. Querido Diario Respaldado por la Open Knowledge Brasil (https://ok.org.br/)... ...con

    la ayuda de la comunidad de desarrolladores de Brasil Primer commit en 1 de abril de 2018 Primera versión en 20 de julio de 2021 9
  8. 10

  9. Extracción de datos https://github.com/okfn-brasil/querido-diario Scrapy (https://scrapy.org/) - Framework Python para

    extracción de datos Cientos de spiders (un para cada ciudad o grupo de ciudades) Monitoreo constante Ejecución diaria en Scrapy Cloud (https://www.zyte.com/scrapy- cloud/) - Plataforma de ejecución de spiders Scrapy 11
  10. 12

  11. Indexación https://github.com/okfn-brasil/querido-diario-data-processing Metadatos almacenados en PostgreSQL (https://www.postgresql.org/) Apache Tika™ (https://tika.apache.org/)

    - Extrae metadatos y contenido de texto en diferentes tipos de archivos Elasticsearch (https://www.elastic.co/) - motor de búsqueda y análisis de datos distribuidos 13
  12. Acceso a los datos https://github.com/okfn-brasil/querido-diario-api Sítio público (https://queridodiario.ok.org.br/) API pública

    (https://queridodiario.ok.org.br/api/docs) Permite búsquedas por palabras clave, rango de fechas y ciudades Desarrollada con FastAPI (https://fastapi.tiangolo.com/) Wrapper en Python (https://github.com/okfn-brasil/querido-diario- api-wrapper) para ayudar con la integración con otros sistemas 14
  13. 15

  14. 17

  15. 19

  16. 21

  17. 22

  18. 23

  19. 24

  20. Desafíos Agregar más ciudades disponibles (sólo 21 hoy) Mejorar la

    capacidad de búsqueda Facilitar la integración con otros proyectos Mantener financieramente el proyecto 26