Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Extraindo dados estruturados da web com Python usando Scrapy

Victor Torres
December 07, 2018

Extraindo dados estruturados da web com Python usando Scrapy

Victor Torres

December 07, 2018
Tweet

More Decks by Victor Torres

Other Decks in Technology

Transcript

  1. Sobre Victor Torres é desenvolvedor full stack com mais de

    5 anos de experiência liderando equipes ágeis e construindo aplicações web. Ex-integrante da Evolux, atualmente trabalha com web scraping utilizando Python e Scrapy na Scrapinghub.
  2. Web Scraping Extrair dados estruturados de fontes de dados não

    estruturados. - páginas web - dados governamentais - ofertas de emprego - imóveis - bens de consumo - redes sociais - concorrentes
  3. Python É uma linguagem de programação que permite trabalhar mais

    rápido e integrar sistemas de maneira mais eficiente. Tem sido muito usada na Ciência de Dados em conjunto com diversas bibliotecas como Pandas e Numpy, principalmente devido a sua facilidade e poder.
  4. Scrapy É um framework open source e colaborativo que facilita

    a extração dos dados que você precisa de páginas web e outras fontes. Tudo isso de maneira rápida, simples e extensível. - sessões/cookies - redirecionamentos - pipelines e middlewares
  5. Linux e Mac OS $ pip install scrapy Windows (utilizando

    Anaconda ou Mini-Conda) conda install -c conda-forge scrapy Instalando o Scrapy
  6. $ scrapy runspider quotes.py (...) [DEBUG] Scraped from <200: https://quotes…>

    {'quote': '“The world as we hav (...)', 'author': 'Albert Einstein'} (...) Extraindo Dados
  7. $ scrapy runspider quotes.py -o quotes.json (...) [INFO] Stored json

    feed (10 items) in: quotes.json (...) Salvando Dados JSON, JSON Lines, CSV, XML...
  8. $ scrapy runspider quotes.py -o quotes.json (...) [DEBUG] Scraped from

    <200: https://quotes…> [DEBUG] Scraped from <200: https://quotes…> (...) [INFO] Stored json feed (100 items) in: quotes.json (...) Salvando Dados
  9. Scrapinghub - criou e mantém o scrapy - oferece o

    scrapy cloud - começa de graça! - crawlera e outros serviços