Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Chaos Mesh紹介[中国語]

Chaos Mesh紹介[中国語]

Chaos Engineering 2021/06/10 勉強会で発表資料
https://cnt.connpass.com/event/215331/

成臣 Chengchen

June 14, 2021
Tweet

More Decks by 成臣 Chengchen

Other Decks in Education

Transcript

  1. 关于我 • 殷成文 • GitHub: cwen0 / Twiitter: @CWenYin •

    Infrastructure Engineer • Tech leader of PingCAP Chaos Engineering Team • Founder and Maintainer of Chaos Mesh® • Program Committee Member: KubeCon + CloudNativeCon Europe 2021
  2. 一点历史 • 2018~2019:Schrodinger 项目 • 2019.09.04:Chaos Mesh 第一个 Commit •

    2019.12.31:开源 • 2020.07.15:正式成为 CNCF Sandbox 项目 • 2020.09.25:1.0 GA 版本 • 2021.06.30:2.0 GA 版本 (待定)
  3. Chaos Mesh:背景 $ kubectl get ns tidb-cluster-1 tidb-cluster-2 tidb-cluster-3 nginx-ns-1

    nginx-ns-2 app-ns-1 app-ns-2 ... $crontab -l 0 */2 * * * /usr/local/podkill -n tidb-cluster-1 -n tikv-1 0 */1 * * * /usr/local/podkill -n tidb-cluster-1 -n pd-1 0 */2 * * * /usr/local/network delay -v 20ms -n app-ns-1 -n app-name 0 */2 * * * /usr/local/network delay -v 20ms -n app-ns-2 -n app-name … Kubernetes 环境下 • 一个 Kubernetes 运行多个应用集群 (10+) • 每个 Kubernets 集群包含更多的物理 节 点 • 更多的可能出现异常的对象,例如:容 器 / Pod / 网络 / 磁盘 / 系统时钟 / 内核 所以,我们需要更多的混沌实验!管理和调度 这么多的混沌实验是非常困难的!并且做到 混沌工程闭环就更加困难!
  4. Chaos Mesh:背景 容器环境 • 容器环境是和物理环境存在很大差异 • 很多工具没办法直接使用 ◦ 例如 tc

    / iptables / fuse / bcc 没 办法直接在容器中使用 • 同一个 Node 上容器之间的故障不能相 互影响 故障的范围必须是可控的!
  5. 核心优势 • 核心能力稳固:Chaos Mesh 起源于 TiDB 的核心测试平台,发布初期即继承了大量 TiDB 已有的 测试经验。

    • 被充分验证:Chaos Mesh 被众多公司以及组织所使用,例如腾讯和美团等;同时被用于众多知名 分布式系统的测试体系中,例如 Apache APISIX 和 RabbitMQ 等。 • 系统易用性强:图形化操作和基于 Kubernetes 的使用方式,充分利用了自 动化能力。 • 云原生:Chaos Mesh 原生支持 Kubernetes 环境,提供了强悍的自动化能力。 • 丰富的故障模拟场景:Chaos Mesh 几乎涵盖了分布式测试体系中基础故障模拟的绝大多数场 景。 • 灵活的实验编排能力:用户可以通过平台设计自己的混沌实验场景,场景可包含多个混沌实验编 排,以及应用状态检查等。 • 安全性高:Chaos Mesh 具有多层次安全控制设计,提供高安全性。 • 活跃的社区:Chaos Mesh 为全球知名开源混沌测试平台,CNCF 开源基金会孵化项目。 • 强大的扩展能力:Chaos Mesh 为故障测试类型扩展和功能扩展提供了充分的扩展能力。
  6. • CRD (Custom Resources) 拓展 Kubernetes API 定义 ◦ PodChaos

    ◦ NetworkChaos ◦ IOChaos ◦ TimeChaos ◦ StressChaos ◦ DNSChaos ◦ KernelChaos ◦ JVMChaos ◦ AWSChaos ◦ GCPChaos ◦ Workflow ◦ ... 声明式 API 定义简化混沌实验管理 apiVersion: pingcap.com/v1alpha1 kind: PodChaos metadata: name: telemetry-failure-example namespace: istio-system spec: action: pod-failure mode: one selector: labelSelectors: "app": "tikv"
  7. • 监听 PodChaos, NetworkChaos… 等资 源的 创建/更新/删除 • 决定当前该 注入

    / 恢复 / 等待 • 进行简单的注入,比如 PodKill • 向 Chaos Daemon / Sidecar 发送请求 监听资源的变化
  8. • Container 的实体: ◦ 进程 ◦ Namespace 控制可见性 ◦ Cgroup

    限制资源 • 注入的实质 ◦ 侵入 Namespace / Cgroup ◦ 进行干扰、注入 隔离 Chaos Daemon 注入原理