PyBR12

Search Engines utilizando Python e Elasticsearch

Apresentação https://spekerdeck.com/pattyvader/pybr12

Projeto Athena https://github.com/pattyvader/athena

Roadmap 1. Busca de documentos 2. Indexação 3. Percorrendo a
web

Busca de documentos

Busca de documentos Resultado armazenado no Elasticsearch Termo de busca

Busca de documentos Servidor de aplicação com Django GET Browser
(HTML)

Servidor de aplicação com Django Busca de documentos GET Browser
(HTML)

Busca de documentos . Servidor de aplicação com Django

Busca de documentos views.py Acessar o método “search” Servidor de
aplicação com Django

Busca de documentos views.py Acessar o método “search” Acessar o
método “search_term” Servidor de aplicação com Django

Indexação https://www.elastic.co/downloads/elasticsearch Relevancy score Protocolo Restful Mensagens Json

Indexação Relevance score

Indexação Restful/Json PUT GET

Indexação https://www.elastic.co/use-cases

Indexação O processo de indexação utiliza a lib Elasticsearch-py para
conectar o Python com o Elasticsearch. indexer.py https://pypi.python.org/pypi/elasticsearch https://elasticsearch-py.readthedocs.io/en/master/ https://github.com/elastic/elasticsearch-py Cria um índice Adiciona uma nova página ao índice

Indexação scraper.py O scraper extrai os dados, do arquivo html,
utilizando a lib BeautifulSoup. https://www.crummy.com/software/BeautifulSoup/

scraper.py Indexação Metatags do html

Percorrendo a web - Web crawler crawler.py

Percorrendo a web - Web crawler 1 3 2 4
5 Acessa arquivo robot.txt Download do html Extraí novos links Extraí os dados Insere dados no elasticsearch indexer.py scraper.py crawler.py

Percorrendo a web - Web crawler Antes de “crawlear” uma
página sempre verifique o arquivo “robot.txt”. É uma boa prática. crawler.py

Percorrendo a web - Web crawler A “urllib2” retorna o
html da página. crawler.py

Percorrendo a web- Web crawler crawler.py A extração de novos
links é realizada somente no domínio da url seed.

Percorrendo a web- Web crawler Método que realiza a extração
dos dados presentes no html. scraper.py crawler.py

Percorrendo a web- Web crawler Método que realiza a indexação
das páginas no Elasticsearch. indexer.py crawler.py

Finalizando... Browser (HTML) GET Servidor de aplicação com Django scraper.py
crawler.py indexer.py GET internet

https://github.com/pattyvader https://br.linkedin.com/in/patricia-regina-18790040 Contato *Designed by Freepik from www.flaticon.com* pattyvaderbr@gmail.com

PyBR12

PyBR12

Patty Vader

More Decks by Patty Vader

Other Decks in Programming

Featured

Transcript

Search Engines utilizando Python e Elasticsearch

Apresentação https://spekerdeck.com/pattyvader/pybr12

Projeto Athena https://github.com/pattyvader/athena

Roadmap 1. Busca de documentos 2. Indexação 3. Percorrendo a

Busca de documentos

Busca de documentos Resultado armazenado no Elasticsearch Termo de busca

Busca de documentos Servidor de aplicação com Django GET Browser

Servidor de aplicação com Django Busca de documentos GET Browser

Busca de documentos . Servidor de aplicação com Django

Busca de documentos views.py Acessar o método “search” Servidor de

Busca de documentos views.py Acessar o método “search” Acessar o

Indexação https://www.elastic.co/downloads/elasticsearch Relevancy score Protocolo Restful Mensagens Json

Indexação Relevance score

Indexação Restful/Json PUT GET

Indexação https://www.elastic.co/use-cases

Indexação O processo de indexação utiliza a lib Elasticsearch-py para

Indexação scraper.py O scraper extrai os dados, do arquivo html,

scraper.py Indexação Metatags do html

Percorrendo a web - Web crawler crawler.py

Percorrendo a web - Web crawler 1 3 2 4

Percorrendo a web - Web crawler Antes de “crawlear” uma

Percorrendo a web - Web crawler A “urllib2” retorna o

Percorrendo a web- Web crawler crawler.py A extração de novos

Percorrendo a web- Web crawler Método que realiza a extração

Percorrendo a web- Web crawler Método que realiza a indexação

Finalizando... Browser (HTML) GET Servidor de aplicação com Django scraper.py

https://github.com/pattyvader https://br.linkedin.com/in/patricia-regina-18790040 Contato Designed by Freepik from www.flaticon.com pattyvaderbr@gmail.com