Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chaos Conf 18’ to 19’
Search
Cygames
November 11, 2019
Technology
1
3.3k
Chaos Conf 18’ to 19’
2019/11/11 ChaosConf2019 recap
Cygames
November 11, 2019
Tweet
Share
More Decks by Cygames
See All by Cygames
最高のアートワークを発信する『Cygames展 Artworks』企画制作事例
cygames
0
33
社内にバーチャルスタッフ!?「スイちゃん」のキャラクターデザインと施策の広げ方の秘訣
cygames
0
95
全高3m超のバハムート像がスマホを通して躍動する! ~『Cygames展 Artworks』ARコンテンツの開発プロセスと実装~
cygames
0
21
最高の資料を目指すために!社内フリーイラスト制作チームの取り組みについて
cygames
0
100
「生きているモーション」を作り出すCygamesのモーションキャプチャー
cygames
0
71
『Cygames展 Artworks』におけるShadowverseデジタルサイネージ制作事例
cygames
0
32
『GRANBLUE FANTASY: Relink』 原作の世界観に没入するステージの絵作り
cygames
0
370
『GRANBLUE FANTASY: Relink』イラストを再現する為のキャラクターモデル制作事例
cygames
0
110
『GRANBLUE FANTASY: Relink』キャラクターの魅力を支えるリグ制作事例
cygames
0
60
Other Decks in Technology
See All in Technology
信頼されるためにやったこと、 やらなかったこと。/What we did to be trusted, What we did not do.
bitkey
PRO
0
2.1k
デジタルアイデンティティ人材育成推進ワーキンググループ 翻訳サブワーキンググループ 活動報告 / 20250114-OIDF-J-EduWG-TranslationSWG
oidfj
0
470
ABWGのRe:Cap!
hm5ug
1
120
AWSマルチアカウント統制環境のすゝめ / 20250115 Mitsutoshi Matsuo
shift_evolve
0
110
デジタルアイデンティティ技術 認可・ID連携・認証 応用 / 20250114-OIDF-J-EduWG-TechSWG
oidfj
2
610
Amazon Q Developerで.NET Frameworkプロジェクトをモダナイズしてみた
kenichirokimura
1
190
コロプラのオンボーディングを採用から語りたい
colopl
5
950
ゼロからわかる!!AWSの構成図を書いてみようワークショップ 問題&解答解説 #デッカイギ #羽田デッカイギおつ
_mossann_t
0
1.5k
Formal Development of Operating Systems in Rust
riru
1
420
2025年の挑戦 コーポレートエンジニアの技術広報/techpr5
nishiuma
0
140
Oracle Exadata Database Service(Dedicated Infrastructure):サービス概要のご紹介
oracle4engineer
PRO
0
12k
Godot Engineについて調べてみた
unsoluble_sugar
0
370
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
46
7.2k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Scaling GitHub
holman
459
140k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
3
180
Side Projects
sachag
452
42k
Making Projects Easy
brettharned
116
6k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Making the Leap to Tech Lead
cromwellryan
133
9k
What's in a price? How to price your products and services
michaelherold
244
12k
RailsConf 2023
tenderlove
29
970
Transcript
Chaos Conf 18’ 19’ recap Akihisa Wada Chaos Conf 18’
to 19’ 2019 11/11 @AWS Loft Tokyo
Who am I Akihisa Wada Software Engineer / Infrastructure Division
Cygames, Inc Frontend(2y) → Backend(2y) → Infra Health comes first Tofu Lover Sub 3 Runner
Agenda • Chaos Conf 18' , 19' • Chaos Journey
along with Chaos Conf ◦ Motivation ◦ Negotiation ◦ Observability ◦ Experiment ◦ Post-mortem • Prediction: Next Chaos Topics
Chaosconf 18’ 19’
2019 The Regency Ballroom 収容人数 600 2018 Alamo Drafthouse Cinema
収容人数 400 http://cinematreasures.org/theaters/708/photos/151873
Session list 9 Sessions 4 LTs 1 Bootcamp 10 Sessions
- LTs - Bootcamp 2018 2019
https://tech.cygames.co.jp/archives/3323/ ブートキャンプについては、、、 ↓
Session Contents 2018 2019 WHY HOW
https://www.youtube.com/watch?v=06yMXBAgiZg&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=3 2018 "How to Convince Your Boss and Make Them
Say "Yes!" to Chaos Engineering" -Kriss Rochefolle, Rail Europe- • 上司から承認を取る方法を3STEPで紹介 • 「合理的に説得する方法」がROIが高い
2018 "Patterns for Failure Management from the Bottom of the
Ocean" -Ronnie Chen, Twitter- • ダイビングにおけるリスク管理の話 • 1つの判断ミスが生死に関わる https://www.youtube.com/watch?v=E6HkZb6hAuc&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=6
"think big: chaos testing a monolith" -Caroline Dickey, Mailchimp- •
Monolithな構成に対するChaosアプローチ • LB Failover / Make Database read-only 実験 2019 https://www.youtube.com/watch?v=w_IeMAidgpI&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=6
"incident repro & playbook validation with chaos engineering" -Robert Ross,
Fire Hydrant / Tammy Butow, Gremlin- • 2017年に発生したS3の障害をgremlinで再現実験 • S3 replication で耐障害性を高める方法を紹介 2019 https://www.youtube.com/watch?v=2bRUSapnQ8A&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=11
登壇者の業界
Meal 2018 2019
??
Motivation なんのためにやるのか なぜやるのか Negotiation 周りを巻き込むには 説得時の心得 Observability ログ メトリックス トレーシング
実験前に準備すること Post-mortem 実験の振返り Pre mortem Experiment 実験の流れ 実験対象 Chaos Journey along with Chaos Conf
Motivation Negotiation Observability Post-mortem Experiment 複雑な分散アーキテクチャの信頼性向上 - Mark McBride, Turbine
Labs 18’ - システムは人間が作る、人間は間違いを犯しやすい生き物、 即ち、システムは壊れやすい - Niran Fajemisin, 19’ - 突発的イシューを気にすることなくぐっすりと眠りたい - Kriss Rochefolle 18’- ユーザーペインの低減 - Kolton Andrus, Gremlin 18’ -
Motivation Negotiation Observability Post-mortem Experiment どうやって上司をYESと言わせるか? - Kriss Rochefolle, Rail
Europe 18’ - • Step1 なじみを持ってもらう ◦ 未知の事柄に対して人間は、戦うか、固まるか、逃げるの選択肢 ◦ SNSなどのコミュニケーションツールで伝搬する • Step2 どのようなプレイヤーがいるか把握する ◦ 敵・仲間・障壁となる人 ◦ CEO・CFO・CMO・CHO・CTO • Step3 プレイヤー毎のストーリーを作る 説得を行う上でROIが最も高い方法は「合理的な説得」 “Leadership in Organizations” engagement 率 23%
Motivation Negotiation Observability Post-mortem Experiment マネージャーにどう提案するか? - Mikolaj Pawlikowski, Bloomberg
18’- • Q: なぜ動いているのに壊すのか? ◦ 障害は “Not if, but when” ◦ 障害を予め検知・修正できる方が、事後に発覚するより良い • Q: 既に多くの問題を抱えているではないか? ◦ すでにある問題も含めた検証をする ◦ オフィスアワーで実験を行うので、不足の場合は即対応する • Q: 我々には専門知識がないではないか ◦ 壊すこと自体は簡単である ◦ ツールは既にたくさんある
Motivation Negotiation Observability Post-mortem Experiment Observability がない chaos engineering はただのchaosだ
- Charity Majors, Honeycomb 18’ - Wikiによると、 外部の出力結果からシステム内部の状態をどれくらい推測できるかの指標 Monitoring と Observability - Charity Majors, Honeycomb 18’ - • Monitoring: 3人称視点でシステムもしくはコンポーネント全体を説明する。 • Observability : 1人称視点でソフトウェア自身が内側と外側から説明する。 (私の解釈では、、、) システム出力に対してアクションをする・しないかが明確になっていて、 自動・手動限らずアクションを取るまでのリードタイムが短ければ短いほど Observability が高い
Motivation Negotiation Observability Post-mortem Experiment 4 ways to achieve observability
- Jose Esquivel, Backcountry 19’- • LOGGING • 見るべきログを選別してからツールを選ぶ • APM < 意図的に埋め込んだログ • TRAICING • システム間の関係 • トレースID / オブジェクトID • システム間での一貫したIDにする • METRIC & REPORTS • Metricを見た人が何が起きているかを理解できるか • 何が良く、何が悪いのか • ALERTING • WarningとCritical • Criticalが出たら誰かを呼び出す
Motivation Negotiation Observability Post-mortem Experiment Crystal Hirschorn, Conde Nast
Motivation Negotiation Observability Post-mortem Experiment 実験のユースケースは、本番システムの信頼性向上だけではなく、 • オンコール対応の訓練 - Tammy
Butow & Ana Medina, Gremlin 18’ - • ツールと手順書の有効性を検証 - Ronnie Chen 18’ - • インシデントの再現確認とPlaybookの検証 - Robert Ross 19’ - • 人間組織のマネジメント - Dave Rensin 19’ -
Motivation Negotiation Observability Post-mortem Experiment Latency > 150 ms Fix
Retry cnt Fix Timeout Amazon.com Amazon Cloud Watch Latency < 100 ms Latency > 5000ms Packet loss to Payment Svc Payment svc delay 1% user 10 mins tc Example
Motivation Negotiation Observability Post-mortem Experiment Pre-mortems Ronnie Chen, 18’ •
安全なシステムを構築するには障害を先取りする • 潜在的に発生する障害を事前に定義してプランを立てる • 頻繁に起こる軽微な障害・時折発生する大規模障害 Focusing on problems, not individuals Niran Fajemisin, 19’
オススメセッション • SRE・オンコール ◦ 18’ "Chaos Conf Keynote" -Adrian Cockcroft,
AWS- • Container・Kubernetes ◦ 18’ "Chaos Tuning Envoy Proxy" - Mark McBride, Turbine Labs- ◦ 18’ "Breaking Containers - Chaos Engineering and Kubernetes" - Jessie Frazelle, MS - • Monolith ◦ 19’ “Think big: chaos testing a monolith” - Caroline Dickey, Mailchimp - • マネジメント ◦ 19’ "Chaos engineering for people systems" - Dave Rensin, Google -
Release It! (18’) https://www.amazon.co.jp/dp/1680502395 The Safety Anarchist (17’) https://www.amazon.co.jp/dp/1138300462 Drift
into Failure (11’) https://www.amazon.co.jp/dp/B01FGJA6RQ 推薦されていた書籍
資料 • Movie ◦ Chaosconf 2018 https://www.youtube.com/watch?v=cefJd2v037U&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN ◦ Chaosconf 2019
https://www.youtube.com/watch?v=SM4em_Ei6iE&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE • Slides ◦ 2019 のみ https://speakerdeck.com/chaosconf • Slack ◦ https://slofile.com/slack/chaosengineering • Gremlin ◦ https://www.gremlin.com/product/
Prediction: Next chaos topic https://ccsearch.creativecommons.org/photos/6e5853ba-6cdf-4da6-b497-58b2a5cc720d
• Resilience Driven Development (RDD) • Chaos Driven Development (CDD)
• (VM → Container →) Serverless への適用事例 • Application Layer での Chaos Engineering • マネジメント領域への応用事例 • ML と 融合したオートメーション
Thank you !!