Extraindo dados estruturados da web com Python usando Scrapy

Extraindo dados estruturados da web com Python usando Scrapy

2dc7b3ae3738019e66123e6cb5d3897e?s=128

Victor Torres

December 07, 2018
Tweet

Transcript

  1. 2.

    Sobre Victor Torres é desenvolvedor full stack com mais de

    5 anos de experiência liderando equipes ágeis e construindo aplicações web. Ex-integrante da Evolux, atualmente trabalha com web scraping utilizando Python e Scrapy na Scrapinghub.
  2. 3.

    Web Scraping Extrair dados estruturados de fontes de dados não

    estruturados. - páginas web - dados governamentais - ofertas de emprego - imóveis - bens de consumo - redes sociais - concorrentes
  3. 4.

    Python É uma linguagem de programação que permite trabalhar mais

    rápido e integrar sistemas de maneira mais eficiente. Tem sido muito usada na Ciência de Dados em conjunto com diversas bibliotecas como Pandas e Numpy, principalmente devido a sua facilidade e poder.
  4. 5.

    Scrapy É um framework open source e colaborativo que facilita

    a extração dos dados que você precisa de páginas web e outras fontes. Tudo isso de maneira rápida, simples e extensível. - sessões/cookies - redirecionamentos - pipelines e middlewares
  5. 6.

    Linux e Mac OS $ pip install scrapy Windows (utilizando

    Anaconda ou Mini-Conda) conda install -c conda-forge scrapy Instalando o Scrapy
  6. 14.

    $ scrapy runspider quotes.py (...) [DEBUG] Scraped from <200: https://quotes…>

    {'quote': '“The world as we hav (...)', 'author': 'Albert Einstein'} (...) Extraindo Dados
  7. 15.

    $ scrapy runspider quotes.py -o quotes.json (...) [INFO] Stored json

    feed (10 items) in: quotes.json (...) Salvando Dados JSON, JSON Lines, CSV, XML...
  8. 17.

    $ scrapy runspider quotes.py -o quotes.json (...) [DEBUG] Scraped from

    <200: https://quotes…> [DEBUG] Scraped from <200: https://quotes…> (...) [INFO] Stored json feed (100 items) in: quotes.json (...) Salvando Dados
  9. 18.

    Scrapinghub - criou e mantém o scrapy - oferece o

    scrapy cloud - começa de graça! - crawlera e outros serviços