Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chaos Conf 18’ to 19’
Search
Cygames
November 11, 2019
Technology
1
3.3k
Chaos Conf 18’ to 19’
2019/11/11 ChaosConf2019 recap
Cygames
November 11, 2019
Tweet
Share
More Decks by Cygames
See All by Cygames
最高のアートワークを発信する『Cygames展 Artworks』企画制作事例
cygames
0
51
社内にバーチャルスタッフ!?「スイちゃん」のキャラクターデザインと施策の広げ方の秘訣
cygames
1
130
全高3m超のバハムート像がスマホを通して躍動する! ~『Cygames展 Artworks』ARコンテンツの開発プロセスと実装~
cygames
0
44
最高の資料を目指すために!社内フリーイラスト制作チームの取り組みについて
cygames
1
140
「生きているモーション」を作り出すCygamesのモーションキャプチャー
cygames
0
99
『Cygames展 Artworks』におけるShadowverseデジタルサイネージ制作事例
cygames
0
42
『GRANBLUE FANTASY: Relink』 原作の世界観に没入するステージの絵作り
cygames
0
890
『GRANBLUE FANTASY: Relink』イラストを再現する為のキャラクターモデル制作事例
cygames
0
160
『GRANBLUE FANTASY: Relink』キャラクターの魅力を支えるリグ制作事例
cygames
0
97
Other Decks in Technology
See All in Technology
システム・ML活用を広げるdbtのデータモデリング / Expanding System & ML Use with dbt Modeling
i125
1
320
AIエージェント元年@日本生成AIユーザ会
shukob
1
210
What's new in Go 1.24?
ciarana
1
110
実は強い 非ViTな画像認識モデル
tattaka
3
1.3k
データベースの負荷を紐解く/untangle-the-database-load
emiki
2
520
株式会社Awarefy(アウェアファイ)会社説明資料 / Awarefy-Company-Deck
awarefy
3
11k
Potential EM 制度を始めた理由、そして2年後にやめた理由 - EMConf JP 2025
hoyo
2
2.7k
コンピュータビジョンの社会実装について考えていたらゲームを作っていた話
takmin
1
610
Change Managerを活用して本番環境へのセキュアなGUIアクセスを統制する / Control Secure GUI Access to the Production Environment with Change Manager
yuj1osm
0
100
4th place solution Eedi - Mining Misconceptions in Mathematics
rist
0
150
PHPで印刷所に入稿できる名札データを作る / Generating Print-Ready Name Tag Data with PHP
tomzoh
0
190
クラウド食堂とは?
hiyanger
0
120
Featured
See All Featured
The Language of Interfaces
destraynor
156
24k
Faster Mobile Websites
deanohume
306
31k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
640
A designer walks into a library…
pauljervisheath
205
24k
How to Ace a Technical Interview
jacobian
276
23k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
Docker and Python
trallard
44
3.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
175
52k
Building Your Own Lightsaber
phodgson
104
6.2k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
4
430
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Transcript
Chaos Conf 18’ 19’ recap Akihisa Wada Chaos Conf 18’
to 19’ 2019 11/11 @AWS Loft Tokyo
Who am I Akihisa Wada Software Engineer / Infrastructure Division
Cygames, Inc Frontend(2y) → Backend(2y) → Infra Health comes first Tofu Lover Sub 3 Runner
Agenda • Chaos Conf 18' , 19' • Chaos Journey
along with Chaos Conf ◦ Motivation ◦ Negotiation ◦ Observability ◦ Experiment ◦ Post-mortem • Prediction: Next Chaos Topics
Chaosconf 18’ 19’
2019 The Regency Ballroom 収容人数 600 2018 Alamo Drafthouse Cinema
収容人数 400 http://cinematreasures.org/theaters/708/photos/151873
Session list 9 Sessions 4 LTs 1 Bootcamp 10 Sessions
- LTs - Bootcamp 2018 2019
https://tech.cygames.co.jp/archives/3323/ ブートキャンプについては、、、 ↓
Session Contents 2018 2019 WHY HOW
https://www.youtube.com/watch?v=06yMXBAgiZg&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=3 2018 "How to Convince Your Boss and Make Them
Say "Yes!" to Chaos Engineering" -Kriss Rochefolle, Rail Europe- • 上司から承認を取る方法を3STEPで紹介 • 「合理的に説得する方法」がROIが高い
2018 "Patterns for Failure Management from the Bottom of the
Ocean" -Ronnie Chen, Twitter- • ダイビングにおけるリスク管理の話 • 1つの判断ミスが生死に関わる https://www.youtube.com/watch?v=E6HkZb6hAuc&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=6
"think big: chaos testing a monolith" -Caroline Dickey, Mailchimp- •
Monolithな構成に対するChaosアプローチ • LB Failover / Make Database read-only 実験 2019 https://www.youtube.com/watch?v=w_IeMAidgpI&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=6
"incident repro & playbook validation with chaos engineering" -Robert Ross,
Fire Hydrant / Tammy Butow, Gremlin- • 2017年に発生したS3の障害をgremlinで再現実験 • S3 replication で耐障害性を高める方法を紹介 2019 https://www.youtube.com/watch?v=2bRUSapnQ8A&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=11
登壇者の業界
Meal 2018 2019
??
Motivation なんのためにやるのか なぜやるのか Negotiation 周りを巻き込むには 説得時の心得 Observability ログ メトリックス トレーシング
実験前に準備すること Post-mortem 実験の振返り Pre mortem Experiment 実験の流れ 実験対象 Chaos Journey along with Chaos Conf
Motivation Negotiation Observability Post-mortem Experiment 複雑な分散アーキテクチャの信頼性向上 - Mark McBride, Turbine
Labs 18’ - システムは人間が作る、人間は間違いを犯しやすい生き物、 即ち、システムは壊れやすい - Niran Fajemisin, 19’ - 突発的イシューを気にすることなくぐっすりと眠りたい - Kriss Rochefolle 18’- ユーザーペインの低減 - Kolton Andrus, Gremlin 18’ -
Motivation Negotiation Observability Post-mortem Experiment どうやって上司をYESと言わせるか? - Kriss Rochefolle, Rail
Europe 18’ - • Step1 なじみを持ってもらう ◦ 未知の事柄に対して人間は、戦うか、固まるか、逃げるの選択肢 ◦ SNSなどのコミュニケーションツールで伝搬する • Step2 どのようなプレイヤーがいるか把握する ◦ 敵・仲間・障壁となる人 ◦ CEO・CFO・CMO・CHO・CTO • Step3 プレイヤー毎のストーリーを作る 説得を行う上でROIが最も高い方法は「合理的な説得」 “Leadership in Organizations” engagement 率 23%
Motivation Negotiation Observability Post-mortem Experiment マネージャーにどう提案するか? - Mikolaj Pawlikowski, Bloomberg
18’- • Q: なぜ動いているのに壊すのか? ◦ 障害は “Not if, but when” ◦ 障害を予め検知・修正できる方が、事後に発覚するより良い • Q: 既に多くの問題を抱えているではないか? ◦ すでにある問題も含めた検証をする ◦ オフィスアワーで実験を行うので、不足の場合は即対応する • Q: 我々には専門知識がないではないか ◦ 壊すこと自体は簡単である ◦ ツールは既にたくさんある
Motivation Negotiation Observability Post-mortem Experiment Observability がない chaos engineering はただのchaosだ
- Charity Majors, Honeycomb 18’ - Wikiによると、 外部の出力結果からシステム内部の状態をどれくらい推測できるかの指標 Monitoring と Observability - Charity Majors, Honeycomb 18’ - • Monitoring: 3人称視点でシステムもしくはコンポーネント全体を説明する。 • Observability : 1人称視点でソフトウェア自身が内側と外側から説明する。 (私の解釈では、、、) システム出力に対してアクションをする・しないかが明確になっていて、 自動・手動限らずアクションを取るまでのリードタイムが短ければ短いほど Observability が高い
Motivation Negotiation Observability Post-mortem Experiment 4 ways to achieve observability
- Jose Esquivel, Backcountry 19’- • LOGGING • 見るべきログを選別してからツールを選ぶ • APM < 意図的に埋め込んだログ • TRAICING • システム間の関係 • トレースID / オブジェクトID • システム間での一貫したIDにする • METRIC & REPORTS • Metricを見た人が何が起きているかを理解できるか • 何が良く、何が悪いのか • ALERTING • WarningとCritical • Criticalが出たら誰かを呼び出す
Motivation Negotiation Observability Post-mortem Experiment Crystal Hirschorn, Conde Nast
Motivation Negotiation Observability Post-mortem Experiment 実験のユースケースは、本番システムの信頼性向上だけではなく、 • オンコール対応の訓練 - Tammy
Butow & Ana Medina, Gremlin 18’ - • ツールと手順書の有効性を検証 - Ronnie Chen 18’ - • インシデントの再現確認とPlaybookの検証 - Robert Ross 19’ - • 人間組織のマネジメント - Dave Rensin 19’ -
Motivation Negotiation Observability Post-mortem Experiment Latency > 150 ms Fix
Retry cnt Fix Timeout Amazon.com Amazon Cloud Watch Latency < 100 ms Latency > 5000ms Packet loss to Payment Svc Payment svc delay 1% user 10 mins tc Example
Motivation Negotiation Observability Post-mortem Experiment Pre-mortems Ronnie Chen, 18’ •
安全なシステムを構築するには障害を先取りする • 潜在的に発生する障害を事前に定義してプランを立てる • 頻繁に起こる軽微な障害・時折発生する大規模障害 Focusing on problems, not individuals Niran Fajemisin, 19’
オススメセッション • SRE・オンコール ◦ 18’ "Chaos Conf Keynote" -Adrian Cockcroft,
AWS- • Container・Kubernetes ◦ 18’ "Chaos Tuning Envoy Proxy" - Mark McBride, Turbine Labs- ◦ 18’ "Breaking Containers - Chaos Engineering and Kubernetes" - Jessie Frazelle, MS - • Monolith ◦ 19’ “Think big: chaos testing a monolith” - Caroline Dickey, Mailchimp - • マネジメント ◦ 19’ "Chaos engineering for people systems" - Dave Rensin, Google -
Release It! (18’) https://www.amazon.co.jp/dp/1680502395 The Safety Anarchist (17’) https://www.amazon.co.jp/dp/1138300462 Drift
into Failure (11’) https://www.amazon.co.jp/dp/B01FGJA6RQ 推薦されていた書籍
資料 • Movie ◦ Chaosconf 2018 https://www.youtube.com/watch?v=cefJd2v037U&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN ◦ Chaosconf 2019
https://www.youtube.com/watch?v=SM4em_Ei6iE&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE • Slides ◦ 2019 のみ https://speakerdeck.com/chaosconf • Slack ◦ https://slofile.com/slack/chaosengineering • Gremlin ◦ https://www.gremlin.com/product/
Prediction: Next chaos topic https://ccsearch.creativecommons.org/photos/6e5853ba-6cdf-4da6-b497-58b2a5cc720d
• Resilience Driven Development (RDD) • Chaos Driven Development (CDD)
• (VM → Container →) Serverless への適用事例 • Application Layer での Chaos Engineering • マネジメント領域への応用事例 • ML と 融合したオートメーション
Thank you !!