Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ES衍生系统介绍以及索引技术在数据部门的应用#祝威廉#ESCC#3

medcl
October 25, 2014

 ES衍生系统介绍以及索引技术在数据部门的应用#祝威廉#ESCC#3

2011年 范凯Robin 推荐ES让我参考下,一接触便被其众多理念所折服。后来模仿ES我们完全重新开发了一个新的系统CS(不要笑,其实是CSearch的简称),目标是简化ES,并且和现有的基础架构想融合,但接口API等和ES保持一致。演讲中会重点介绍我们删减了那些特性,新添加了那些特性,如何与现有基础架构融合。对于数据部门而言,产生的成果主要是CS接口的方式提供出去,整个数据部门对存储的原则是精简,目前只用HBase,CS,文件,Redis四个便囊括了所有系统功能,我们会详细介绍CS在各个应用场景中是如何被使用的。

medcl

October 25, 2014
Tweet

More Decks by medcl

Other Decks in Technology

Transcript

  1. CS简化了什么   Netty Socket /HTTP => AKKA/HTTP   集群状态维护 =>

    zookeeper   引⼊入新的MVC框架(ServiceFramework),⽽而不是自⼰己开发   Plugins => Strategies   剥离其他功能,只提供索引 增删改查功能。
  2. CS 延续了什么   ES的 JSON IN JSON OUT 以及 RESTFull

    风 格   是 ES API集合 ⼀一个⼦子集   集群形态,数据分片
  3. Strategies介绍   组件化   链路化   配置化   取代插件机制  

    独立组件,⼴广泛应用在数据平台其他服务中
  4. CS用途 - 站内搜索 页面部署上报 代码 MQ 队列 CS索引   新建:用户预览或者有其他用户访问也可

      更新:ETL 负责更新周期   删除:用户访问404 或者更新周期发现内 容已经删除 ETL MQ 队列
  5. CS用途 - 标签系统   内容/用户 都会被打上标签   传统使用数据库存储   1000w内容*平均5个tag*

    = 5000w   数据挖掘会从各个维度给内容/⼈人 打标签,所以 标签数目 >>> 5   分表分库。。。。很麻烦。。。。
  6. CS用途 - HBase 辅助查询   数据团队内部只使用: 索引,HBase,⽂文件, Redis   HBase

    各种过滤条件查询繁琐且慢   使用索引可以很好解决类似问题