Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Chaos Engineering 紹介[中国語]

Chaos Engineering 紹介[中国語]

Chaos Engineering 2021/06/10 勉強会で発表資料
https://cnt.connpass.com/event/215331/

837580c386a6a49b9e248effc4367ff4?s=128

成臣 Chengchen

June 14, 2021
Tweet

Transcript

  1. 混沌工程介绍及其重要性 Presented By Zhouzhiqiang@pingcap.com

  2. 关于我 周志强 GitHub: STRRL PingCAP R&D Chaos Mesh 的核心开发成员, 拥有多年在云原生领域

    的开发经验. 开源爱好者, Chaos Mesh Committer. 目前专注于 Chaos Engineering, 致力于构建一站式的 Chaos Engineering Platform.
  3. 概览 1. 混沌工程是什么 2. 混沌工程要做什么 3. 云原生下的混沌工程

  4. 混沌工程是什么

  5. 故障随时随地都可能发生!

  6. 分布式系统 - 越来越复杂

  7. 混沌工程的演进史

  8. “混沌工程”成为近年来海内外的技术热点 2010 年,Netflix 发布了关于 Chaos Monkey 的文章 https://netflixtechblog.com/5-lessons-weve-learned-using-aws-1f2a28588e4c

  9. 对“混沌工程”理解上的分歧

  10. 混沌工程的目的 混沌工程是在分布式系统上进行实验的学科, 目的是建 立对系统抵御生产环境中失控条件的能力以及信心。 韧性 自愈 引用自混沌工程原则:https://principlesofchaos.org/zh/

  11. 混沌工程要做什么

  12. 混沌工程的原理 通过失败来避免失败

  13. 云原生时代 故障的特征模式

  14. 稳态的定义 • 关注系统的可测量的输出,而不是系统内部的属性 • 对这些输出在短时间内的度量构成了系统稳定状态 • 整个系统的吞吐量、错误率、延迟百分点等都可能是表示稳态行为的指标 • 在对照组和实验组中持续关注稳态的差异

  15. 受控的混沌实验 • 爆炸半径 ◦ 环境隔离 ◦ 资源限制 ◦ 流量控制 ◦

    自动停止 • 安全管控 ◦ 权限的控制
  16. 生产环境中的混沌工程 引用自:https://netflixtechblog.com/chap-chaos-automation-platform-53e6d528371f Variable metric from a FIT(fault injection testing) experiment.

    Event was introduced around 19:07.
  17. 生产环境中的混沌工程 引用自:https://netflixtechblog.com/chap-chaos-automation-platform-53e6d528371f

  18. 云原生下的混沌工程

  19. 云原生下的混沌工程 • 容器化 • Kubernetes • 弹性 ◦ 快速伸缩 ◦

    为失败设计 ◦ 优雅降级
  20. 容器技术 • 容器为应用提供了良好的隔离环境 • 容器的隔离也能被用于实验的隔离 • 可以通过特权容器注入故障

  21. 声明式 API • 明确地声明预期的状态 • 控制器可靠的实施预期状态 • 方便用户的控制与观测

  22. 总结

  23. 总结 1. 混沌工程是什么 验证系统的韧性与自愈能力 2. 混沌工程要做什么 循环:假设稳态 - 混沌实验 -

    验证 - 改进 3. 云原生下的混沌工程 云原生为混沌工程的实施带来便利
  24. Thanks