Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PyBR12

 PyBR12

Avatar for Patty Vader

Patty Vader

October 12, 2016
Tweet

More Decks by Patty Vader

Other Decks in Programming

Transcript

  1. Busca de documentos views.py Acessar o método “search” Acessar o

    método “search_term” Servidor de aplicação com Django
  2. Indexação O processo de indexação utiliza a lib Elasticsearch-py para

    conectar o Python com o Elasticsearch. indexer.py https://pypi.python.org/pypi/elasticsearch https://elasticsearch-py.readthedocs.io/en/master/ https://github.com/elastic/elasticsearch-py Cria um índice Adiciona uma nova página ao índice
  3. Indexação scraper.py O scraper extrai os dados, do arquivo html,

    utilizando a lib BeautifulSoup. https://www.crummy.com/software/BeautifulSoup/
  4. Percorrendo a web - Web crawler 1 3 2 4

    5 Acessa arquivo robot.txt Download do html Extraí novos links Extraí os dados Insere dados no elasticsearch indexer.py scraper.py crawler.py
  5. Percorrendo a web - Web crawler Antes de “crawlear” uma

    página sempre verifique o arquivo “robot.txt”. É uma boa prática. crawler.py
  6. Percorrendo a web- Web crawler crawler.py A extração de novos

    links é realizada somente no domínio da url seed.
  7. Percorrendo a web- Web crawler Método que realiza a extração

    dos dados presentes no html. scraper.py crawler.py
  8. Percorrendo a web- Web crawler Método que realiza a indexação

    das páginas no Elasticsearch. indexer.py crawler.py