Upgrade to Pro — share decks privately, control downloads, hide ads and more …

laiwei #adc2013# #taobao adc#

laiwei
July 16, 2013

laiwei #adc2013# #taobao adc#

xiaomi @ taobao adc 2013

laiwei

July 16, 2013
Tweet

More Decks by laiwei

Other Decks in Technology

Transcript

  1. 服务管理 - 服务树 筛选  想知道某个服务部署在那些机器上  “定位”  Api接口和命令行工具

    反筛选  想知道某个机器上有哪些模块(标签)  “自省”  Api接口和命令行工具 权限管理  哪些人对那些机器有什么样的权限 筛选上地机房offline机器 idc.sd, status.offline 筛选米聊产品线第一个分组 pdl.miliao, grp.1
  2. 服务管理–服务树设计 标签的定义  一个有特定意义的属性,所有的标签都可以显示在树上  比如:  机房、位置、在线状态、产品线、模块„„ 标签的运用 

    机器的“状态”发生变化的时候,伴随着标签的变更  “状态”什么时候会发生变更?  人工操作  周边系统 机器到货 上架 交付线上 部署服务 机器故障 idc.sd pdl.miliao mod.nginx staus.problem
  3. 服务管理–服务树设计 公司 部门 产品线 服务 模块 分组 机房 状态 #

    组合标签  cop.xiaomi  owt.miliao  pdl.account  mod.fe  grp.online # 全局标签  idc.sd  loc.bj  status.problem
  4. 部署结构 Zabbix-server mysql中间层 Zabbix-web host-1 Zabbix-agent host-2 Zabbix-agent host-3 Zabbix-agent

    host-4 Zabbix-agent Zabbix-proxy Agent主劢上报数据 Server定期拉取数据 proxy定期拉取数据 用户配置 告警策略 数据采集项等 1.数据插入 2.判断是否告警 机房2 db partition 1 db partition 2 db partition 3 Zabbix-api redis dashboard
  5. 告警合并 告警去重  服务器维度  策略维度  多维度 滑劢时间窗口 计算同策略两次连续告警时间间隔+1

    最大等待时间小于61秒 监控策略A 监控策略B 监控策略C 监控策略D 服务器A 告警1 服务器B 告警2 告警5 服务器C 告警3 告警4 告警6 服务器D 告警7 服务器E 告警8