Extraindo dados estruturados da web com Python usando Scrapy

Extraindo dados estruturados da web com Python usando Scrapy

2dc7b3ae3738019e66123e6cb5d3897e?s=128

Victor Torres

December 07, 2018
Tweet

Transcript

  1. Extraindo dados estruturados da web com Python usando Scrapy Victor

    Torres
  2. Sobre Victor Torres é desenvolvedor full stack com mais de

    5 anos de experiência liderando equipes ágeis e construindo aplicações web. Ex-integrante da Evolux, atualmente trabalha com web scraping utilizando Python e Scrapy na Scrapinghub.
  3. Web Scraping Extrair dados estruturados de fontes de dados não

    estruturados. - páginas web - dados governamentais - ofertas de emprego - imóveis - bens de consumo - redes sociais - concorrentes
  4. Python É uma linguagem de programação que permite trabalhar mais

    rápido e integrar sistemas de maneira mais eficiente. Tem sido muito usada na Ciência de Dados em conjunto com diversas bibliotecas como Pandas e Numpy, principalmente devido a sua facilidade e poder.
  5. Scrapy É um framework open source e colaborativo que facilita

    a extração dos dados que você precisa de páginas web e outras fontes. Tudo isso de maneira rápida, simples e extensível. - sessões/cookies - redirecionamentos - pipelines e middlewares
  6. Linux e Mac OS $ pip install scrapy Windows (utilizando

    Anaconda ou Mini-Conda) conda install -c conda-forge scrapy Instalando o Scrapy
  7. Criando um Spider quotes.toscrape.com

  8. Criando um Spider

  9. $ scrapy runspider quotes.py (...) [INFO] Parsing https://quotes.toscrape.com/ (...) Executando

    um Spider
  10. Extraindo Dados

  11. Extraindo Dados

  12. Inspecionar Elementos

  13. Visualizar Código Fonte

  14. $ scrapy runspider quotes.py (...) [DEBUG] Scraped from <200: https://quotes…>

    {'quote': '“The world as we hav (...)', 'author': 'Albert Einstein'} (...) Extraindo Dados
  15. $ scrapy runspider quotes.py -o quotes.json (...) [INFO] Stored json

    feed (10 items) in: quotes.json (...) Salvando Dados JSON, JSON Lines, CSV, XML...
  16. Navegando em Páginas

  17. $ scrapy runspider quotes.py -o quotes.json (...) [DEBUG] Scraped from

    <200: https://quotes…> [DEBUG] Scraped from <200: https://quotes…> (...) [INFO] Stored json feed (100 items) in: quotes.json (...) Salvando Dados
  18. Scrapinghub - criou e mantém o scrapy - oferece o

    scrapy cloud - começa de graça! - crawlera e outros serviços
  19. Links Importantes scapy.org scrapinghub.com

  20. Obrigado! Victor Torres victortorres.net.br github.com/victor-torres linkedin.com/in/victorpaivatorres vpaivatorres@gmail.com