Extraindo dados estruturados da web com Python usando Scrapy

Extraindo dados estruturados da web com Python usando Scrapy Victor
Torres

Sobre Victor Torres é desenvolvedor full stack com mais de
5 anos de experiência liderando equipes ágeis e construindo aplicações web. Ex-integrante da Evolux, atualmente trabalha com web scraping utilizando Python e Scrapy na Scrapinghub.

Web Scraping Extrair dados estruturados de fontes de dados não
estruturados. - páginas web - dados governamentais - ofertas de emprego - imóveis - bens de consumo - redes sociais - concorrentes

Python É uma linguagem de programação que permite trabalhar mais
rápido e integrar sistemas de maneira mais eficiente. Tem sido muito usada na Ciência de Dados em conjunto com diversas bibliotecas como Pandas e Numpy, principalmente devido a sua facilidade e poder.

Scrapy É um framework open source e colaborativo que facilita
a extração dos dados que você precisa de páginas web e outras fontes. Tudo isso de maneira rápida, simples e extensível. - sessões/cookies - redirecionamentos - pipelines e middlewares

Linux e Mac OS $ pip install scrapy Windows (utilizando
Anaconda ou Mini-Conda) conda install -c conda-forge scrapy Instalando o Scrapy

Criando um Spider quotes.toscrape.com

Criando um Spider

$ scrapy runspider quotes.py (...) [INFO] Parsing https://quotes.toscrape.com/ (...) Executando
um Spider

Extraindo Dados

Inspecionar Elementos

Visualizar Código Fonte

$ scrapy runspider quotes.py (...) [DEBUG] Scraped from <200: https://quotes…>
{'quote': '“The world as we hav (...)', 'author': 'Albert Einstein'} (...) Extraindo Dados

$ scrapy runspider quotes.py -o quotes.json (...) [INFO] Stored json
feed (10 items) in: quotes.json (...) Salvando Dados JSON, JSON Lines, CSV, XML...

Navegando em Páginas

$ scrapy runspider quotes.py -o quotes.json (...) [DEBUG] Scraped from
<200: https://quotes…> [DEBUG] Scraped from <200: https://quotes…> (...) [INFO] Stored json feed (100 items) in: quotes.json (...) Salvando Dados

Scrapinghub - criou e mantém o scrapy - oferece o
scrapy cloud - começa de graça! - crawlera e outros serviços

Links Importantes scapy.org scrapinghub.com

Obrigado! Victor Torres victortorres.net.br github.com/victor-torres linkedin.com/in/victorpaivatorres [email protected]

Extraindo dados estruturados da web com Python ...

Extraindo dados estruturados da web com Python usando Scrapy

Victor Torres

More Decks by Victor Torres

Other Decks in Technology

Featured

Transcript