Upgrade to Pro — share decks privately, control downloads, hide ads and more …

又一个爬虫

medcl
September 24, 2017

 又一个爬虫

OSC 重庆的放码过来分享环节(闪电分享)。

medcl

September 24, 2017
Tweet

More Decks by medcl

Other Decks in Technology

Transcript

  1. 2 什什么是爬⾍虫 •  ⼜又叫 Robot、Bot 或 Crawler •  简单来说 ‒ 

    ⾃自动探索⽹网站 ‒  帮你访问整个站点 ‒  ⾃自动为你收集⽹网站信息 ‒  ⾃自动更更新 ‒  抽取处理理⽹网⻚页内容 ‒  存储索引和快照 ‒  。。。
  2. 3 为什什么造这个轮⼦子? 现在已经有很多开源的爬⾍虫了了: Scrapy,Nutch, Heritrix 等等 . [1,2,3] 但是! • 

    ⼤大多仅仅是⼀一个爬⾍虫框架!ES 与 Lucene •  需要熟悉各种与爬取任务本身⽆无关的知识! •  开发和部署的环境复杂,痛苦! •  太重了了! •  分布式、管理理、监控、扩展复杂! •  结果就是⼀一⼤大堆凌乱⽆无法维护的脚本,或是⼀一 ⼤大堆技术拼凑的⼤大杂烩。 1.http://bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ 2.https://github.com/BruceDone/awesome-crawler 3.https://gitee.com/explore/starred/spider
  3. 7 Pending Check, Pending Fetch, Pending Index Checker Crawler Pipeline

    Framework Database Storage Filter Index Persistence Layer API UI Dispatcher Communication Message Queue Network Internet Dynamic pipeline based on configuration GOPA overview
  4. 9 Elastic Integration Overview DISTRIBUTED CRAWLING Elasticsearch Clustering not ready

    yet Transform Store ingest node data node Logstash 3rd Applications Optional processing Web Content Kibana Raft