Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Chaos Conf 18’ to 19’

Cygames
November 11, 2019

Chaos Conf 18’ to 19’

2019/11/11 ChaosConf2019 recap

Cygames

November 11, 2019
Tweet

More Decks by Cygames

Other Decks in Technology

Transcript

  1. Chaos Conf 18’ 19’ recap
    Akihisa Wada
    Chaos Conf 18’ to 19’
    2019 11/11 @AWS Loft Tokyo

    View full-size slide

  2. Who am I
    Akihisa Wada
    Software Engineer / Infrastructure Division
    Cygames, Inc
    Frontend(2y) → Backend(2y) → Infra
    Health comes first
    Tofu Lover
    Sub 3 Runner

    View full-size slide

  3. Agenda
    ● Chaos Conf 18' , 19'
    ● Chaos Journey along with Chaos Conf
    ○ Motivation
    ○ Negotiation
    ○ Observability
    ○ Experiment
    ○ Post-mortem
    ● Prediction: Next Chaos Topics

    View full-size slide

  4. Chaosconf 18’ 19’

    View full-size slide

  5. 2019 The Regency Ballroom
    収容人数
    600
    2018 Alamo Drafthouse Cinema
    収容人数
    400
    http://cinematreasures.org/theaters/708/photos/151873

    View full-size slide

  6. Session list
    9
    Sessions
    4
    LTs
    1
    Bootcamp
    10
    Sessions
    -
    LTs
    -
    Bootcamp
    2018 2019

    View full-size slide

  7. https://tech.cygames.co.jp/archives/3323/
    ブートキャンプについては、、、 ↓

    View full-size slide

  8. Session Contents
    2018 2019
    WHY HOW

    View full-size slide

  9. https://www.youtube.com/watch?v=06yMXBAgiZg&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=3
    2018
    "How to Convince Your Boss and Make Them Say "Yes!" to Chaos Engineering"
    -Kriss Rochefolle, Rail Europe-
    ● 上司から承認を取る方法を3STEPで紹介
    ● 「合理的に説得する方法」がROIが高い

    View full-size slide

  10. 2018
    "Patterns for Failure Management from the Bottom of the Ocean"
    -Ronnie Chen, Twitter-
    ● ダイビングにおけるリスク管理の話
    ● 1つの判断ミスが生死に関わる
    https://www.youtube.com/watch?v=E6HkZb6hAuc&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=6

    View full-size slide

  11. "think big: chaos testing a monolith"
    -Caroline Dickey, Mailchimp-
    ● Monolithな構成に対するChaosアプローチ
    ● LB Failover / Make Database read-only 実験
    2019
    https://www.youtube.com/watch?v=w_IeMAidgpI&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=6

    View full-size slide

  12. "incident repro & playbook validation with chaos engineering"
    -Robert Ross, Fire Hydrant / Tammy Butow, Gremlin-
    ● 2017年に発生したS3の障害をgremlinで再現実験
    ● S3 replication で耐障害性を高める方法を紹介
    2019
    https://www.youtube.com/watch?v=2bRUSapnQ8A&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=11

    View full-size slide

  13. 登壇者の業界

    View full-size slide

  14. Meal
    2018 2019

    View full-size slide

  15. Motivation
    なんのためにやるのか
    なぜやるのか
    Negotiation
    周りを巻き込むには
    説得時の心得
    Observability
    ログ
    メトリックス
    トレーシング
    実験前に準備すること
    Post-mortem
    実験の振返り
    Pre mortem
    Experiment
    実験の流れ
    実験対象
    Chaos Journey along with Chaos Conf

    View full-size slide

  16. Motivation Negotiation Observability Post-mortem
    Experiment
    複雑な分散アーキテクチャの信頼性向上 - Mark McBride, Turbine Labs 18’ -
    システムは人間が作る、人間は間違いを犯しやすい生き物、
    即ち、システムは壊れやすい - Niran Fajemisin, 19’ -
    突発的イシューを気にすることなくぐっすりと眠りたい - Kriss Rochefolle 18’-
    ユーザーペインの低減 - Kolton Andrus, Gremlin 18’ -

    View full-size slide

  17. Motivation Negotiation Observability Post-mortem
    Experiment
    どうやって上司をYESと言わせるか? - Kriss Rochefolle, Rail Europe 18’ -
    ● Step1 なじみを持ってもらう
    ○ 未知の事柄に対して人間は、戦うか、固まるか、逃げるの選択肢
    ○ SNSなどのコミュニケーションツールで伝搬する
    ● Step2 どのようなプレイヤーがいるか把握する
    ○ 敵・仲間・障壁となる人
    ○ CEO・CFO・CMO・CHO・CTO
    ● Step3 プレイヤー毎のストーリーを作る
    説得を行う上でROIが最も高い方法は「合理的な説得」
    “Leadership in Organizations” engagement 率 23%

    View full-size slide

  18. Motivation Negotiation Observability Post-mortem
    Experiment
    マネージャーにどう提案するか? - Mikolaj Pawlikowski, Bloomberg 18’-
    ● Q: なぜ動いているのに壊すのか?
    ○ 障害は “Not if, but when”
    ○ 障害を予め検知・修正できる方が、事後に発覚するより良い
    ● Q: 既に多くの問題を抱えているではないか?
    ○ すでにある問題も含めた検証をする
    ○ オフィスアワーで実験を行うので、不足の場合は即対応する
    ● Q: 我々には専門知識がないではないか
    ○ 壊すこと自体は簡単である
    ○ ツールは既にたくさんある

    View full-size slide

  19. Motivation Negotiation Observability Post-mortem
    Experiment
    Observability がない chaos engineering はただのchaosだ - Charity Majors, Honeycomb 18’ -
    Wikiによると、
    外部の出力結果からシステム内部の状態をどれくらい推測できるかの指標
    Monitoring と Observability - Charity Majors, Honeycomb 18’ -
    ● Monitoring: 3人称視点でシステムもしくはコンポーネント全体を説明する。
    ● Observability : 1人称視点でソフトウェア自身が内側と外側から説明する。
    (私の解釈では、、、)
    システム出力に対してアクションをする・しないかが明確になっていて、
    自動・手動限らずアクションを取るまでのリードタイムが短ければ短いほど Observability が高い

    View full-size slide

  20. Motivation Negotiation Observability Post-mortem
    Experiment
    4 ways to achieve observability - Jose Esquivel, Backcountry 19’-
    ● LOGGING
    ● 見るべきログを選別してからツールを選ぶ
    ● APM < 意図的に埋め込んだログ
    ● TRAICING
    ● システム間の関係
    ● トレースID / オブジェクトID
    ● システム間での一貫したIDにする
    ● METRIC & REPORTS
    ● Metricを見た人が何が起きているかを理解できるか
    ● 何が良く、何が悪いのか
    ● ALERTING
    ● WarningとCritical
    ● Criticalが出たら誰かを呼び出す

    View full-size slide

  21. Motivation Negotiation Observability Post-mortem
    Experiment
    Crystal Hirschorn, Conde Nast

    View full-size slide

  22. Motivation Negotiation Observability Post-mortem
    Experiment
    実験のユースケースは、本番システムの信頼性向上だけではなく、
    ● オンコール対応の訓練 - Tammy Butow & Ana Medina, Gremlin 18’ -
    ● ツールと手順書の有効性を検証 - Ronnie Chen 18’ -
    ● インシデントの再現確認とPlaybookの検証 - Robert Ross 19’ -
    ● 人間組織のマネジメント - Dave Rensin 19’ -

    View full-size slide

  23. Motivation Negotiation Observability Post-mortem
    Experiment
    Latency
    > 150 ms
    Fix Retry cnt
    Fix Timeout
    Amazon.com Amazon Cloud Watch
    Latency
    < 100 ms
    Latency
    > 5000ms
    Packet loss to
    Payment Svc
    Payment svc delay
    1% user
    10 mins
    tc
    Example

    View full-size slide

  24. Motivation Negotiation Observability Post-mortem
    Experiment
    Pre-mortems Ronnie Chen, 18’
    ● 安全なシステムを構築するには障害を先取りする
    ● 潜在的に発生する障害を事前に定義してプランを立てる
    ● 頻繁に起こる軽微な障害・時折発生する大規模障害
    Focusing on problems, not individuals Niran Fajemisin, 19’

    View full-size slide

  25. オススメセッション
    ● SRE・オンコール
    ○ 18’ "Chaos Conf Keynote" -Adrian Cockcroft, AWS-
    ● Container・Kubernetes
    ○ 18’ "Chaos Tuning Envoy Proxy" - Mark McBride, Turbine Labs-
    ○ 18’ "Breaking Containers - Chaos Engineering and Kubernetes" - Jessie Frazelle, MS -
    ● Monolith
    ○ 19’ “Think big: chaos testing a monolith” - Caroline Dickey, Mailchimp -
    ● マネジメント
    ○ 19’ "Chaos engineering for people systems" - Dave Rensin, Google -

    View full-size slide

  26. Release It! (18’)
    https://www.amazon.co.jp/dp/1680502395
    The Safety Anarchist (17’)
    https://www.amazon.co.jp/dp/1138300462
    Drift into Failure (11’)
    https://www.amazon.co.jp/dp/B01FGJA6RQ
    推薦されていた書籍

    View full-size slide

  27. 資料
    ● Movie
    ○ Chaosconf 2018 https://www.youtube.com/watch?v=cefJd2v037U&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN
    ○ Chaosconf 2019 https://www.youtube.com/watch?v=SM4em_Ei6iE&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE
    ● Slides
    ○ 2019 のみ https://speakerdeck.com/chaosconf
    ● Slack
    ○ https://slofile.com/slack/chaosengineering
    ● Gremlin
    ○ https://www.gremlin.com/product/

    View full-size slide

  28. Prediction: Next chaos topic
    https://ccsearch.creativecommons.org/photos/6e5853ba-6cdf-4da6-b497-58b2a5cc720d

    View full-size slide

  29. ● Resilience Driven Development (RDD)
    ● Chaos Driven Development (CDD)
    ● (VM → Container →) Serverless への適用事例
    ● Application Layer での Chaos Engineering
    ● マネジメント領域への応用事例
    ● ML と 融合したオートメーション

    View full-size slide

  30. Thank you !!

    View full-size slide