Web Scraping com Chrome Headless, Puppeteer e Ramda

Marcel Gonçalves dos Santos @marcelgsantos web scraping e Ramda chrome
headless com Puppeteer ,

pensandonaweb.com.br desenvolvedor web full-stack Marcel Gonçalves dos Santos @marcelgsantos

@femugsp sp.femug.com #dfmcz18 #gdgmaceio #puppeteer

@phpsp phpsp.org.br

Quem nunca precisou obter informações de sites na web?

E como resolver este problema?

Hmmm… O que acharam dessa solução?

copiar e colar informações de um site manualmente em um
documento de texto ou planilha não parece ser a melhor solução!

a não ser que a tarefa seja realmente simples e
que diﬁcilmente será repetida

essa abordagem pode gerar um trabalho excessivo e erros no
processo de coleta de dados

E como resolver este problema de uma forma melhor?

fazer a automação da coleta de dados

Web scraping

técnica que permite extrair dados de um site ou aplicação
web de forma automatizada

os dados são organizados e armazenados em um banco de
dados ou em arquivos CSV, XML ou JSON

o conceito também é conhecido como raspagem de dados

é utilizado em aplicações legadas ou que não possuem uma
API

a extração de dados é feita por robôs que podem
ser implementados em qualquer tecnologia

a técnica deve ser utilizada com cautela de modo a
evitar qualquer comportamento indesejado no serviço terceiro

o conceito difere do termo web crawling

Chrome Headless

é uma maneira de rodar o Chrome em um ambiente
headless, ou seja, sem a interface de usuário

permite a utilização de funcionalidades modernas da plataforma web na
linha de comando

recomendado para automação de testes e automações em geral

pode ser executado através de comandos simples

chrome !--headless https:!//!!www.google.com.br

não funcionou?!

o comando deve ser apontado para a instalação do Chrome
no computador

alias chrome="/Applications/Google\ Chrome.app/ Contents/MacOS/Google\ Chrome"

chrome !--headless https:!//!!www.google.com.br

não viu nada?!

é porque é headless…

ahhh… deve-se utilizar a ﬂag no Windows devido um bug
!--disable-gpu

o Chrome Headless pode ser utilizado para diversas tarefas

chrome !--headless !--dump-dom https:!//!!www.google.com.br Imprimir o DOM

chrome !--headless !--print-to-pdf https:!//!!www.google.com.br Gerar PDF

chrome !--headless !--screenshot https:!//!!www.google.com.br Tirar screenshot

chrome \  !--headless \   !--screenshot \  !--window-size=1280,1696 \  https:!//!!www.google.com.br
Tirar screenshot (2)

chrome \  !--headless \   !--screenshot \  !--window-size=412,732 \  https:!//!!www.google.com.br
Tirar screenshot (3)

é possível realizar o debug remoto de uma instância headless
utilizando o DevTools Protocol a partir de outro navegador

chrome \  !--headless \  !--remote-debugging-port=9222 \  http:!//!!www.google.com.br Debug remoto

é possível também utilizar o Selenium junto com o Chrome
Headless

o uso via linha de comando é bastante ﬂexível mas,
para casos mais elaborados, recomenda-se um biblioteca de alto nível

Puppeteer

é uma biblioteca para Node que fornece uma API de
alto nível para controlar o Chrome ou Chromium através do DevTools Protocol

o Puppeteer roda de forma headless por padrão, mas pode
ser conﬁgurado para ser executado de forma non-headless

a instalação pode ser feita de forma bem simples

npm install puppeteer

ao instalar o Puppeteer é feito o download da versão
mais recente do Chromium para garantir o funcionamento com a API

npm install puppeteer-core

o puppeteer-core é uma versão do Puppeteer que não faz
o download do Chromium por padrão

o puppeteer-core é uma versão leve para executar um browser
já instalado ou para se conectar em um browser remoto

o Puppeteer requer o Node versão 6.4.0 ou superior e,
para utilizar async/await, a versão 7.6.0 ou superior

o Puppeteer é apoiado sobre o Chrome Headless e o
Chrome DevTools Protocol

Pirâmide do Puppeteer Chrome Headless Chrome DevTools Protocol Puppeteer seu
script

ele permite realizar inúmeros tipos de tarefas

const puppeteer = require('puppeteer'); !// 01 - launch headless chrome
instance !// and get browser's version (async () !=> { const browser = await puppeteer.launch(); console.log(await browser.version()); await browser.close(); })();

const puppeteer = require('puppeteer'); !// 02 - launch headless chrome
instance, create new page, !// navigate to google.com.br and get pages' title (async () !=> { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https:!//google.com.br/'); console.log(await page.title()); await browser.close(); })();

const puppeteer = require('puppeteer'); !// 03 - navigate to google.com.br,
type a search term, !// wait for the result and take a screenshot (async () !=> { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https:!//!!www.google.com.br/'); await page.focus('[name="q"]'); await page.keyboard.type('devfest maceió'); await page.waitFor(2000); await page.screenshot({ path: 'devfest-maceio-search.png' }); await browser.close(); })();

Biblioteca Ramda

uma biblioteca construída para o estilo de programação funcional que
facilita a utilização de pipelines e dados imutáveis

possui foco no estilo puramente funcional

todas as funções do Ramda são auto-curried

os argumentos das funções do Ramda são organizados de forma
a facilitar a utilização de currying

Caso de Uso Rápido somar os preços dos produtos de
um carrinho de compras

!// shopping cart const cart = [ {id: 1, product:
'iPhone', price: 499}, {id: 2, product: 'Kindle', price: 179}, {id: 3, product: 'Macbook Pro', price: 1199}, ]; !// get prices from shopping cart and sum them  !// using intermediate values const cartPrices = R.map(item !=> item.price, cart); const cartSum = R.sum(cartPrices); console.log(cartSum); !// 1877 realiza o mapeamento da lista de produtos (objetos) para uma lista de preços (números) faz a somatória da lista de números e retorna o total Passo 1

'iPhone', price: 499}, {id: 2, product: 'Kindle', price: 179}, {id: 3, product: 'Macbook Pro', price: 1199}, ]; !// get prices from shopping cart and sum them  !// using function composition const totalCart = R.compose( R.sum, R.map(item !=> item.price), ); console.log(totalCart(cart)); !// 1877 cria uma nova função a partir da composição de funções e elimina valores intermediários Passo 2 aplicação parcial da função map a composição é feita da direita para a esquerda

'iPhone', price: 499}, {id: 2, product: 'Kindle', price: 179}, {id: 3, product: 'Macbook Pro', price: 1199}, ]; !// get prices from shopping cart and sum them !// using function composition with pipe const totalCart = R.pipe( R.map(item !=> item.price), R.sum, ); console.log(totalCart(cart)); !// 1877 Passo 3 o pipe de funções é feito da esquerda para a direita e facilita a leitura do código

Caso de uso Scraper das palestras do DevFest Maceió 2018

é uma single page application feita em Angular com a
lista de palestras do evento

const puppeteer = require('puppeteer'); (async () !=> { !// 1.
open a headless chrome instance const browser = await puppeteer.launch({ headless: false, devtools: true }); !// !!... })();

const puppeteer = require('puppeteer'); (async () !=> { !// 1.
open a headless chrome instance !// !!... !// 2. create a new page and navigate to devfest schedule const page = await browser.newPage(); await page.goto('https:!//devfest.gdgmaceio.org/programacao'); await page.waitFor(5000); !// !!... })();

!// 3. get the number of stores from the report
const list = await page.evaluate(() !=> { !// 3.1. list of time slots let listOfSlots = document.querySelectorAll('.turn-list > .item’); let talks = []; !// 3.2. iterate over each time slot listOfSlots.forEach(slot !=> { let time = slot.querySelector('.hour').innerText; !// 3.3. list of talks let listOfTalks = slot.querySelectorAll('.events-list > .item'); !// 3.4. iterate over each talk listOfTalks.forEach(talk !=> { let location = talk.querySelector('.location').innerText; let title = talk.querySelector('.title').innerText; let speaker = talk.querySelector('.speaker .name').innerText; let position = talk.querySelector('.speaker .description').innerText; let category = talk.querySelector('.category').innerText; talks.push({location, time, title, speaker, position, category}); }); }); return talks; });

(async () !=> { !// 1. open a headless chrome
instance const browser = await puppeteer.launch({ headless: false, devtools: true }); !// 2. create a new page and navigate to devfest schedule const page = await browser.newPage(); await page.goto('https:!//devfest.gdgmaceio.org/programacao'); await page.waitFor(5000); !// !!... !// 4. show scraped data console.log(list); !// 5. close browser instance await browser.close(); })();

Conclusão

automatize o máximo de tarefas que puder!

Referências

bit.ly/palestra-puppeteer-referencias

Avalie!

bit.ly/palestra-puppeteer-avalie

@marcelgsantos speakerdeck.com/marcelgsantos Obrigado. Perguntas?

Web Scraping com Chrome Headless, Puppeteer e R...

Web Scraping com Chrome Headless, Puppeteer e Ramda

More Decks by Marcel dos Santos

Other Decks in Programming

Featured

Transcript