Indexação
O processo de indexação utiliza a
lib Elasticsearch-py para conectar
o Python com o Elasticsearch.
indexer.py
https://pypi.python.org/pypi/elasticsearch
https://elasticsearch-py.readthedocs.io/en/master/
https://github.com/elastic/elasticsearch-py
Cria um índice
Adiciona uma nova página ao índice
Slide 17
Slide 17 text
Indexação
scraper.py
O scraper extrai os dados, do
arquivo html, utilizando a lib
BeautifulSoup.
https://www.crummy.com/software/BeautifulSoup/
Slide 18
Slide 18 text
scraper.py
Indexação Metatags do html
Slide 19
Slide 19 text
Percorrendo a web - Web crawler
crawler.py
Slide 20
Slide 20 text
Percorrendo a web - Web crawler
1
3
2
4
5
Acessa arquivo robot.txt
Download do html
Extraí novos links
Extraí os dados
Insere dados no elasticsearch
indexer.py
scraper.py
crawler.py
Slide 21
Slide 21 text
Percorrendo a web - Web crawler
Antes de “crawlear” uma página
sempre verifique o arquivo “robot.txt”.
É uma boa prática.
crawler.py
Slide 22
Slide 22 text
Percorrendo a web - Web crawler
A “urllib2” retorna o html da página.
crawler.py
Slide 23
Slide 23 text
Percorrendo a web- Web crawler
crawler.py
A extração de novos links é realizada
somente no domínio da url seed.
Slide 24
Slide 24 text
Percorrendo a web- Web crawler
Método que realiza a extração dos
dados presentes no html.
scraper.py
crawler.py
Slide 25
Slide 25 text
Percorrendo a web- Web crawler
Método que realiza a indexação das
páginas no Elasticsearch.
indexer.py
crawler.py
Slide 26
Slide 26 text
Finalizando...
Browser
(HTML)
GET
Servidor de
aplicação com
Django
scraper.py
crawler.py
indexer.py
GET
internet
Slide 27
Slide 27 text
https://github.com/pattyvader
https://br.linkedin.com/in/patricia-regina-18790040
Contato
*Designed by Freepik from www.flaticon.com*
[email protected]