Crawler e automações com NodeJS

Crawler e automações com NodeJS

5b6ee6fc4089c6f2e5f8403d9bf9ef08?s=128

Guilherme Farias

October 21, 2016
Tweet

Transcript

  1. 3.
  2. 4.

    O que é esse NodeJS que todo mundo fala? É

    uma plataforma de execução de javascript
  3. 5.

    E o que ele tem de diferente? Leve e eficiente

    Não bloqueante I/O Intenso É Javascript —
  4. 6.

    O que posso fazer com ele? WEB DESKTOP MOBILE LINHA

    DE COMANDO ROBÔS INTERNET DAS COISAS
  5. 7.

    Automação (do latim Automatus, que significa mover-se por si) é

    a aplicação de técnicas computadorizadas ou mecânicas para diminuir o uso de mão-de-obra em qualquer processo
  6. 8.

    Crawler (também chamado de bot, robot, robô, web crawler, spider,

    etc) É um software desenvolvido para realizar uma varredura na internet EM BUSCA de informação relevante a sua função.
  7. 9.

    No seu ela pode ser um DIFERENCIAL No setor industrial

    a automação é fundamental vantagem competitiva
  8. 13.
  9. 14.

    Entenda o algoritmo do que você vai usar seja ele

    CPF, CNPJ, CEP, ou qualquer lá outra coisa Gerando as possibilidades No CNPJ a regra é XX.XXX.XXX/FFFF-DD Possibilidades de 00.000.000 até 99.999.999 O CNPJ 00.000.000 é do BANCO DO BRASIL Calcule os dígitos verificadores 00.000.000/0001-91 = BANCO DO BRASIL S.A.
  10. 16.

    FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA

    FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA FILA
  11. 17.
  12. 18.
  13. 19.
  14. 25.

    type insert click wait pdf exists scrollTo select check uncheck

    screenshot evaluate Ações do Nightmare Mais infos em: npmjs.com/package/nightmare
  15. 26.

    1) Ir no site: https://nfse.recife.pe.gov.br/senhaweb/login.aspx 2) Digitar no input#ctl00_cphCabMenu_tbCpfCnpj 3)

    Digitar no input#ctl00_cphCabMenu_tbSenha 4) Digitar no input ctl00$cphCabMenu$ccCodigo$ccCodigo o CAPTCHA 5) Esperar aparecer a div#ctl00_pnConteudo 6) Clica no link .ctl00_Vcab_mnuRotinas_3 7) Digitar o CNPJ no input#ctl00_cphCabMenu_tbCPFCNPJTomador 8) Esperar a div#ctl00_cphCabMenu_pnDados 9) Digitar nota no textarea#ctl00_cphCabMenu_tbDiscriminacao 10)… 11) Clicar no botão #ctl00_cphCabMenu_btEmitir
  16. 28.

    Se você cuida de um sistema que já tem as

    infos, cuidado que crawlers podem tá consumindo seu sistema
  17. 30.

    PROTEÇÕES QUE JÁ VI, DIFICULTOU, MAS DEU PRA BURLAR user-agent

    iP ip simultaneo proteção cloudflare CAPTCHA DE TEXTO CAPTCHA DE IMAGEM