Slide 1

Slide 1 text

Chaos Conf 18’ 19’ recap Akihisa Wada Chaos Conf 18’ to 19’ 2019 11/11 @AWS Loft Tokyo

Slide 2

Slide 2 text

Who am I Akihisa Wada Software Engineer / Infrastructure Division Cygames, Inc Frontend(2y) → Backend(2y) → Infra Health comes first Tofu Lover Sub 3 Runner

Slide 3

Slide 3 text

Agenda ● Chaos Conf 18' , 19' ● Chaos Journey along with Chaos Conf ○ Motivation ○ Negotiation ○ Observability ○ Experiment ○ Post-mortem ● Prediction: Next Chaos Topics

Slide 4

Slide 4 text

Chaosconf 18’ 19’

Slide 5

Slide 5 text

2019 The Regency Ballroom 収容人数 600 2018 Alamo Drafthouse Cinema 収容人数 400 http://cinematreasures.org/theaters/708/photos/151873

Slide 6

Slide 6 text

Session list 9 Sessions 4 LTs 1 Bootcamp 10 Sessions - LTs - Bootcamp 2018 2019

Slide 7

Slide 7 text

https://tech.cygames.co.jp/archives/3323/ ブートキャンプについては、、、 ↓

Slide 8

Slide 8 text

Session Contents 2018 2019 WHY HOW

Slide 9

Slide 9 text

https://www.youtube.com/watch?v=06yMXBAgiZg&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=3 2018 "How to Convince Your Boss and Make Them Say "Yes!" to Chaos Engineering" -Kriss Rochefolle, Rail Europe- ● 上司から承認を取る方法を3STEPで紹介 ● 「合理的に説得する方法」がROIが高い

Slide 10

Slide 10 text

2018 "Patterns for Failure Management from the Bottom of the Ocean" -Ronnie Chen, Twitter- ● ダイビングにおけるリスク管理の話 ● 1つの判断ミスが生死に関わる https://www.youtube.com/watch?v=E6HkZb6hAuc&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=6

Slide 11

Slide 11 text

"think big: chaos testing a monolith" -Caroline Dickey, Mailchimp- ● Monolithな構成に対するChaosアプローチ ● LB Failover / Make Database read-only 実験 2019 https://www.youtube.com/watch?v=w_IeMAidgpI&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=6

Slide 12

Slide 12 text

"incident repro & playbook validation with chaos engineering" -Robert Ross, Fire Hydrant / Tammy Butow, Gremlin- ● 2017年に発生したS3の障害をgremlinで再現実験 ● S3 replication で耐障害性を高める方法を紹介 2019 https://www.youtube.com/watch?v=2bRUSapnQ8A&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=11

Slide 13

Slide 13 text

登壇者の業界

Slide 14

Slide 14 text

Meal 2018 2019

Slide 15

Slide 15 text

??

Slide 16

Slide 16 text

Motivation なんのためにやるのか なぜやるのか Negotiation 周りを巻き込むには 説得時の心得 Observability ログ メトリックス トレーシング 実験前に準備すること Post-mortem 実験の振返り Pre mortem Experiment 実験の流れ 実験対象 Chaos Journey along with Chaos Conf

Slide 17

Slide 17 text

Motivation Negotiation Observability Post-mortem Experiment 複雑な分散アーキテクチャの信頼性向上 - Mark McBride, Turbine Labs 18’ - システムは人間が作る、人間は間違いを犯しやすい生き物、 即ち、システムは壊れやすい - Niran Fajemisin, 19’ - 突発的イシューを気にすることなくぐっすりと眠りたい - Kriss Rochefolle 18’- ユーザーペインの低減 - Kolton Andrus, Gremlin 18’ -

Slide 18

Slide 18 text

Motivation Negotiation Observability Post-mortem Experiment どうやって上司をYESと言わせるか? - Kriss Rochefolle, Rail Europe 18’ - ● Step1 なじみを持ってもらう ○ 未知の事柄に対して人間は、戦うか、固まるか、逃げるの選択肢 ○ SNSなどのコミュニケーションツールで伝搬する ● Step2 どのようなプレイヤーがいるか把握する ○ 敵・仲間・障壁となる人 ○ CEO・CFO・CMO・CHO・CTO ● Step3 プレイヤー毎のストーリーを作る 説得を行う上でROIが最も高い方法は「合理的な説得」 “Leadership in Organizations” engagement 率 23%

Slide 19

Slide 19 text

Motivation Negotiation Observability Post-mortem Experiment マネージャーにどう提案するか? - Mikolaj Pawlikowski, Bloomberg 18’- ● Q: なぜ動いているのに壊すのか? ○ 障害は “Not if, but when” ○ 障害を予め検知・修正できる方が、事後に発覚するより良い ● Q: 既に多くの問題を抱えているではないか? ○ すでにある問題も含めた検証をする ○ オフィスアワーで実験を行うので、不足の場合は即対応する ● Q: 我々には専門知識がないではないか ○ 壊すこと自体は簡単である ○ ツールは既にたくさんある

Slide 20

Slide 20 text

Motivation Negotiation Observability Post-mortem Experiment Observability がない chaos engineering はただのchaosだ - Charity Majors, Honeycomb 18’ - Wikiによると、 外部の出力結果からシステム内部の状態をどれくらい推測できるかの指標 Monitoring と Observability - Charity Majors, Honeycomb 18’ - ● Monitoring: 3人称視点でシステムもしくはコンポーネント全体を説明する。 ● Observability : 1人称視点でソフトウェア自身が内側と外側から説明する。 (私の解釈では、、、) システム出力に対してアクションをする・しないかが明確になっていて、 自動・手動限らずアクションを取るまでのリードタイムが短ければ短いほど Observability が高い

Slide 21

Slide 21 text

Motivation Negotiation Observability Post-mortem Experiment 4 ways to achieve observability - Jose Esquivel, Backcountry 19’- ● LOGGING ● 見るべきログを選別してからツールを選ぶ ● APM < 意図的に埋め込んだログ ● TRAICING ● システム間の関係 ● トレースID / オブジェクトID ● システム間での一貫したIDにする ● METRIC & REPORTS ● Metricを見た人が何が起きているかを理解できるか ● 何が良く、何が悪いのか ● ALERTING ● WarningとCritical ● Criticalが出たら誰かを呼び出す

Slide 22

Slide 22 text

Motivation Negotiation Observability Post-mortem Experiment Crystal Hirschorn, Conde Nast

Slide 23

Slide 23 text

Motivation Negotiation Observability Post-mortem Experiment 実験のユースケースは、本番システムの信頼性向上だけではなく、 ● オンコール対応の訓練 - Tammy Butow & Ana Medina, Gremlin 18’ - ● ツールと手順書の有効性を検証 - Ronnie Chen 18’ - ● インシデントの再現確認とPlaybookの検証 - Robert Ross 19’ - ● 人間組織のマネジメント - Dave Rensin 19’ -

Slide 24

Slide 24 text

Motivation Negotiation Observability Post-mortem Experiment Latency > 150 ms Fix Retry cnt Fix Timeout Amazon.com Amazon Cloud Watch Latency < 100 ms Latency > 5000ms Packet loss to Payment Svc Payment svc delay 1% user 10 mins tc Example

Slide 25

Slide 25 text

Motivation Negotiation Observability Post-mortem Experiment Pre-mortems Ronnie Chen, 18’ ● 安全なシステムを構築するには障害を先取りする ● 潜在的に発生する障害を事前に定義してプランを立てる ● 頻繁に起こる軽微な障害・時折発生する大規模障害 Focusing on problems, not individuals Niran Fajemisin, 19’

Slide 26

Slide 26 text

オススメセッション ● SRE・オンコール ○ 18’ "Chaos Conf Keynote" -Adrian Cockcroft, AWS- ● Container・Kubernetes ○ 18’ "Chaos Tuning Envoy Proxy" - Mark McBride, Turbine Labs- ○ 18’ "Breaking Containers - Chaos Engineering and Kubernetes" - Jessie Frazelle, MS - ● Monolith ○ 19’ “Think big: chaos testing a monolith” - Caroline Dickey, Mailchimp - ● マネジメント ○ 19’ "Chaos engineering for people systems" - Dave Rensin, Google -

Slide 27

Slide 27 text

Release It! (18’) https://www.amazon.co.jp/dp/1680502395 The Safety Anarchist (17’) https://www.amazon.co.jp/dp/1138300462 Drift into Failure (11’) https://www.amazon.co.jp/dp/B01FGJA6RQ 推薦されていた書籍

Slide 28

Slide 28 text

資料 ● Movie ○ Chaosconf 2018 https://www.youtube.com/watch?v=cefJd2v037U&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN ○ Chaosconf 2019 https://www.youtube.com/watch?v=SM4em_Ei6iE&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE ● Slides ○ 2019 のみ https://speakerdeck.com/chaosconf ● Slack ○ https://slofile.com/slack/chaosengineering ● Gremlin ○ https://www.gremlin.com/product/

Slide 29

Slide 29 text

Prediction: Next chaos topic https://ccsearch.creativecommons.org/photos/6e5853ba-6cdf-4da6-b497-58b2a5cc720d

Slide 30

Slide 30 text

● Resilience Driven Development (RDD) ● Chaos Driven Development (CDD) ● (VM → Container →) Serverless への適用事例 ● Application Layer での Chaos Engineering ● マネジメント領域への応用事例 ● ML と 融合したオートメーション

Slide 31

Slide 31 text

Thank you !!