Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Google Play Store Scrapper – Web Scraping Colaborativo

Google Play Store Scrapper – Web Scraping Colaborativo

Breno Riba e Erick Rocha
Developers @Big Data Corp

Big Data Week São Paulo

November 23, 2015
Tweet

More Decks by Big Data Week São Paulo

Other Decks in Technology

Transcript

  1. MOTIVAÇÃO •  Já existem Apps similares com o que pretendo

    lançar? •  Qual o posicionamento de um App em relação a seus concorrentes? •  Quais são as características de um App de sucesso? •  Qual o App mais baixado de um determinado segmento? Porque extrair essas informações?
  2. ETAPAS DO CRAWLER •  Bootstrapper •  Processo responsável por gerar

    um banco de sementes que irá reunir uma pequena base de URL’s •  Worker •  Processo responsável por extrair informações de apps e retroalimentar a base de URL’s
  3. INFORMAÇÕES RELEVANTES •  Mais de um milhão de Apps capturados

    •  Média de 2 mil URL’s processadas por minuto