Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PyBR12

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

 PyBR12

Avatar for Patty Vader

Patty Vader

October 12, 2016
Tweet

More Decks by Patty Vader

Other Decks in Programming

Transcript

  1. Busca de documentos views.py Acessar o método “search” Acessar o

    método “search_term” Servidor de aplicação com Django
  2. Indexação O processo de indexação utiliza a lib Elasticsearch-py para

    conectar o Python com o Elasticsearch. indexer.py https://pypi.python.org/pypi/elasticsearch https://elasticsearch-py.readthedocs.io/en/master/ https://github.com/elastic/elasticsearch-py Cria um índice Adiciona uma nova página ao índice
  3. Indexação scraper.py O scraper extrai os dados, do arquivo html,

    utilizando a lib BeautifulSoup. https://www.crummy.com/software/BeautifulSoup/
  4. Percorrendo a web - Web crawler 1 3 2 4

    5 Acessa arquivo robot.txt Download do html Extraí novos links Extraí os dados Insere dados no elasticsearch indexer.py scraper.py crawler.py
  5. Percorrendo a web - Web crawler Antes de “crawlear” uma

    página sempre verifique o arquivo “robot.txt”. É uma boa prática. crawler.py
  6. Percorrendo a web- Web crawler crawler.py A extração de novos

    links é realizada somente no domínio da url seed.
  7. Percorrendo a web- Web crawler Método que realiza a extração

    dos dados presentes no html. scraper.py crawler.py
  8. Percorrendo a web- Web crawler Método que realiza a indexação

    das páginas no Elasticsearch. indexer.py crawler.py