Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chaos Conf 18’ to 19’
Search
Cygames
November 11, 2019
Technology
1
3.3k
Chaos Conf 18’ to 19’
2019/11/11 ChaosConf2019 recap
Cygames
November 11, 2019
Tweet
Share
More Decks by Cygames
See All by Cygames
最高のアートワークを発信する『Cygames展 Artworks』企画制作事例
cygames
0
47
社内にバーチャルスタッフ!?「スイちゃん」のキャラクターデザインと施策の広げ方の秘訣
cygames
1
120
全高3m超のバハムート像がスマホを通して躍動する! ~『Cygames展 Artworks』ARコンテンツの開発プロセスと実装~
cygames
0
37
最高の資料を目指すために!社内フリーイラスト制作チームの取り組みについて
cygames
1
130
「生きているモーション」を作り出すCygamesのモーションキャプチャー
cygames
0
93
『Cygames展 Artworks』におけるShadowverseデジタルサイネージ制作事例
cygames
0
40
『GRANBLUE FANTASY: Relink』 原作の世界観に没入するステージの絵作り
cygames
0
840
『GRANBLUE FANTASY: Relink』イラストを再現する為のキャラクターモデル制作事例
cygames
0
150
『GRANBLUE FANTASY: Relink』キャラクターの魅力を支えるリグ制作事例
cygames
0
91
Other Decks in Technology
See All in Technology
株式会社EventHub・エンジニア採用資料
eventhub
0
4.3k
転生CISOサバイバル・ガイド / CISO Career Transition Survival Guide
kanny
3
1.1k
システム・ML活用を広げるdbtのデータモデリング / Expanding System & ML Use with dbt Modeling
i125
1
270
Apache Iceberg Case Study in LY Corporation
lycorptech_jp
PRO
0
140
OSS構成管理ツールCMDBuildを使ったAWSリソース管理の自動化
satorufunai
0
370
一度 Expo の採用を断念したけど、 再度 Expo の導入を検討している話
ichiki1023
1
240
The Future of SEO: The Impact of AI on Search
badams
0
240
2/18/25: Java meets AI: Build LLM-Powered Apps with LangChain4j
edeandrea
PRO
0
150
エンジニアが加速させるプロダクトディスカバリー 〜最速で価値ある機能を見つける方法〜 / product discovery accelerated by engineers
rince
4
490
抽象化をするということ - 具体と抽象の往復を身につける / Abstraction and concretization
soudai
27
14k
脳波を用いた嗜好マッチングシステム
hokkey621
0
180
RSNA2024振り返り
nanachi
0
630
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Become a Pro
speakerdeck
PRO
26
5.1k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
9
500
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
33
2.8k
Transcript
Chaos Conf 18’ 19’ recap Akihisa Wada Chaos Conf 18’
to 19’ 2019 11/11 @AWS Loft Tokyo
Who am I Akihisa Wada Software Engineer / Infrastructure Division
Cygames, Inc Frontend(2y) → Backend(2y) → Infra Health comes first Tofu Lover Sub 3 Runner
Agenda • Chaos Conf 18' , 19' • Chaos Journey
along with Chaos Conf ◦ Motivation ◦ Negotiation ◦ Observability ◦ Experiment ◦ Post-mortem • Prediction: Next Chaos Topics
Chaosconf 18’ 19’
2019 The Regency Ballroom 収容人数 600 2018 Alamo Drafthouse Cinema
収容人数 400 http://cinematreasures.org/theaters/708/photos/151873
Session list 9 Sessions 4 LTs 1 Bootcamp 10 Sessions
- LTs - Bootcamp 2018 2019
https://tech.cygames.co.jp/archives/3323/ ブートキャンプについては、、、 ↓
Session Contents 2018 2019 WHY HOW
https://www.youtube.com/watch?v=06yMXBAgiZg&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=3 2018 "How to Convince Your Boss and Make Them
Say "Yes!" to Chaos Engineering" -Kriss Rochefolle, Rail Europe- • 上司から承認を取る方法を3STEPで紹介 • 「合理的に説得する方法」がROIが高い
2018 "Patterns for Failure Management from the Bottom of the
Ocean" -Ronnie Chen, Twitter- • ダイビングにおけるリスク管理の話 • 1つの判断ミスが生死に関わる https://www.youtube.com/watch?v=E6HkZb6hAuc&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=6
"think big: chaos testing a monolith" -Caroline Dickey, Mailchimp- •
Monolithな構成に対するChaosアプローチ • LB Failover / Make Database read-only 実験 2019 https://www.youtube.com/watch?v=w_IeMAidgpI&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=6
"incident repro & playbook validation with chaos engineering" -Robert Ross,
Fire Hydrant / Tammy Butow, Gremlin- • 2017年に発生したS3の障害をgremlinで再現実験 • S3 replication で耐障害性を高める方法を紹介 2019 https://www.youtube.com/watch?v=2bRUSapnQ8A&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=11
登壇者の業界
Meal 2018 2019
??
Motivation なんのためにやるのか なぜやるのか Negotiation 周りを巻き込むには 説得時の心得 Observability ログ メトリックス トレーシング
実験前に準備すること Post-mortem 実験の振返り Pre mortem Experiment 実験の流れ 実験対象 Chaos Journey along with Chaos Conf
Motivation Negotiation Observability Post-mortem Experiment 複雑な分散アーキテクチャの信頼性向上 - Mark McBride, Turbine
Labs 18’ - システムは人間が作る、人間は間違いを犯しやすい生き物、 即ち、システムは壊れやすい - Niran Fajemisin, 19’ - 突発的イシューを気にすることなくぐっすりと眠りたい - Kriss Rochefolle 18’- ユーザーペインの低減 - Kolton Andrus, Gremlin 18’ -
Motivation Negotiation Observability Post-mortem Experiment どうやって上司をYESと言わせるか? - Kriss Rochefolle, Rail
Europe 18’ - • Step1 なじみを持ってもらう ◦ 未知の事柄に対して人間は、戦うか、固まるか、逃げるの選択肢 ◦ SNSなどのコミュニケーションツールで伝搬する • Step2 どのようなプレイヤーがいるか把握する ◦ 敵・仲間・障壁となる人 ◦ CEO・CFO・CMO・CHO・CTO • Step3 プレイヤー毎のストーリーを作る 説得を行う上でROIが最も高い方法は「合理的な説得」 “Leadership in Organizations” engagement 率 23%
Motivation Negotiation Observability Post-mortem Experiment マネージャーにどう提案するか? - Mikolaj Pawlikowski, Bloomberg
18’- • Q: なぜ動いているのに壊すのか? ◦ 障害は “Not if, but when” ◦ 障害を予め検知・修正できる方が、事後に発覚するより良い • Q: 既に多くの問題を抱えているではないか? ◦ すでにある問題も含めた検証をする ◦ オフィスアワーで実験を行うので、不足の場合は即対応する • Q: 我々には専門知識がないではないか ◦ 壊すこと自体は簡単である ◦ ツールは既にたくさんある
Motivation Negotiation Observability Post-mortem Experiment Observability がない chaos engineering はただのchaosだ
- Charity Majors, Honeycomb 18’ - Wikiによると、 外部の出力結果からシステム内部の状態をどれくらい推測できるかの指標 Monitoring と Observability - Charity Majors, Honeycomb 18’ - • Monitoring: 3人称視点でシステムもしくはコンポーネント全体を説明する。 • Observability : 1人称視点でソフトウェア自身が内側と外側から説明する。 (私の解釈では、、、) システム出力に対してアクションをする・しないかが明確になっていて、 自動・手動限らずアクションを取るまでのリードタイムが短ければ短いほど Observability が高い
Motivation Negotiation Observability Post-mortem Experiment 4 ways to achieve observability
- Jose Esquivel, Backcountry 19’- • LOGGING • 見るべきログを選別してからツールを選ぶ • APM < 意図的に埋め込んだログ • TRAICING • システム間の関係 • トレースID / オブジェクトID • システム間での一貫したIDにする • METRIC & REPORTS • Metricを見た人が何が起きているかを理解できるか • 何が良く、何が悪いのか • ALERTING • WarningとCritical • Criticalが出たら誰かを呼び出す
Motivation Negotiation Observability Post-mortem Experiment Crystal Hirschorn, Conde Nast
Motivation Negotiation Observability Post-mortem Experiment 実験のユースケースは、本番システムの信頼性向上だけではなく、 • オンコール対応の訓練 - Tammy
Butow & Ana Medina, Gremlin 18’ - • ツールと手順書の有効性を検証 - Ronnie Chen 18’ - • インシデントの再現確認とPlaybookの検証 - Robert Ross 19’ - • 人間組織のマネジメント - Dave Rensin 19’ -
Motivation Negotiation Observability Post-mortem Experiment Latency > 150 ms Fix
Retry cnt Fix Timeout Amazon.com Amazon Cloud Watch Latency < 100 ms Latency > 5000ms Packet loss to Payment Svc Payment svc delay 1% user 10 mins tc Example
Motivation Negotiation Observability Post-mortem Experiment Pre-mortems Ronnie Chen, 18’ •
安全なシステムを構築するには障害を先取りする • 潜在的に発生する障害を事前に定義してプランを立てる • 頻繁に起こる軽微な障害・時折発生する大規模障害 Focusing on problems, not individuals Niran Fajemisin, 19’
オススメセッション • SRE・オンコール ◦ 18’ "Chaos Conf Keynote" -Adrian Cockcroft,
AWS- • Container・Kubernetes ◦ 18’ "Chaos Tuning Envoy Proxy" - Mark McBride, Turbine Labs- ◦ 18’ "Breaking Containers - Chaos Engineering and Kubernetes" - Jessie Frazelle, MS - • Monolith ◦ 19’ “Think big: chaos testing a monolith” - Caroline Dickey, Mailchimp - • マネジメント ◦ 19’ "Chaos engineering for people systems" - Dave Rensin, Google -
Release It! (18’) https://www.amazon.co.jp/dp/1680502395 The Safety Anarchist (17’) https://www.amazon.co.jp/dp/1138300462 Drift
into Failure (11’) https://www.amazon.co.jp/dp/B01FGJA6RQ 推薦されていた書籍
資料 • Movie ◦ Chaosconf 2018 https://www.youtube.com/watch?v=cefJd2v037U&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN ◦ Chaosconf 2019
https://www.youtube.com/watch?v=SM4em_Ei6iE&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE • Slides ◦ 2019 のみ https://speakerdeck.com/chaosconf • Slack ◦ https://slofile.com/slack/chaosengineering • Gremlin ◦ https://www.gremlin.com/product/
Prediction: Next chaos topic https://ccsearch.creativecommons.org/photos/6e5853ba-6cdf-4da6-b497-58b2a5cc720d
• Resilience Driven Development (RDD) • Chaos Driven Development (CDD)
• (VM → Container →) Serverless への適用事例 • Application Layer での Chaos Engineering • マネジメント領域への応用事例 • ML と 融合したオートメーション
Thank you !!