Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Chaos Conf 18’ to 19’
Search
Cygames
November 11, 2019
Technology
1
3.2k
Chaos Conf 18’ to 19’
2019/11/11 ChaosConf2019 recap
Cygames
November 11, 2019
Tweet
Share
More Decks by Cygames
See All by Cygames
TiDBにおけるテーブル設計と最適化の事例
cygames
2
1.6k
『グランブルーファンタジー』100万行を超える大規模なシステム再構築~10周年のその先へ~
cygames
10
31k
グラブルミュージアム蒼の追想 MX4Dシアターのサウンド制作事例〜ゲームの世界観とアトラクション体験の両立に必要なこと〜
cygames
0
1.1k
AIによる自然言語処理・音声解析を用いたゲーム内会話パートの感情分析への取り組み
cygames
0
1.8k
最大100倍高速化!PHPからJavaへのFFIを実現する、JNIを用いた高速なサーバAPIの実装方法
cygames
0
370
AIによる自然言語処理を活用したゲームシナリオの誤字検出への取り組み
cygames
0
260
ツール保守コスト大幅削減!テクニカルアーティストによるツールログサービスの開発と運用事例
cygames
0
300
C#によるクライアント/サーバーの開発言語統一がもたらす高効率な開発体制 ~プリコネ!グランドマスターズ開発事例~
cygames
25
20k
「最高のコンテンツ」を支える、Cygamesのデータベース技術の今までとこれから 〜次世代データベース「TiDB」の検証を開始したCygamesの取り組み〜
cygames
0
5.6k
Other Decks in Technology
See All in Technology
テスト・設計研修【MIXI 24新卒技術研修】
mixi_engineers
PRO
0
170
GoとアクターモデルでES+CQRSを実践! / proto_actor_es_cqrs
ytake
1
150
ゆめみのアクセシビリティの現在地と今後
ryokatsuse
3
290
ギークの理想が7つ集まるエムスリーで夢を叶えよう - エムスリー株式会社
m3_engineering
1
260
Docker互換のセキュアなコンテナ実行環境「Podman」超入門
devops_vtj
6
3.2k
What if...? 처음부터 다시 LLM 어플리케이션을 개발한다면
huffon
0
1k
成長期に歩みを止めないための創業期の開発文化形成
mayah
6
420
Matterport を使ってクラスメソッド各拠点のバーチャルオフィスツアーを作成してみた
wakatsuki
0
160
データ分析を支える技術 生成AI再入門
ishikawa_satoru
0
380
Github Actions 로 Android 팀의 효율성 극대화
hadonghyun
0
160
プレイドにおけるDatadog APMの活用方法
plaidtech
PRO
2
120
LLMアプリケーションの評価の実践と課題 ~PharmaXにおける今後の展望~
pharma_x_tech
2
160
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
517
39k
Building a Modern Day E-commerce SEO Strategy
aleyda
25
6.7k
Large-scale JavaScript Application Architecture
addyosmani
506
110k
How to Think Like a Performance Engineer
csswizardry
4
590
A Tale of Four Properties
chriscoyier
155
22k
The Cost Of JavaScript in 2023
addyosmani
31
4.7k
Why Our Code Smells
bkeepers
PRO
332
56k
A Philosophy of Restraint
colly
200
16k
StorybookのUI Testing Handbookを読んだ
zakiyama
15
4.9k
Ruby is Unlike a Banana
tanoku
96
10k
Designing Experiences People Love
moore
136
23k
The Illustrated Children's Guide to Kubernetes
chrisshort
39
47k
Transcript
Chaos Conf 18’ 19’ recap Akihisa Wada Chaos Conf 18’
to 19’ 2019 11/11 @AWS Loft Tokyo
Who am I Akihisa Wada Software Engineer / Infrastructure Division
Cygames, Inc Frontend(2y) → Backend(2y) → Infra Health comes first Tofu Lover Sub 3 Runner
Agenda • Chaos Conf 18' , 19' • Chaos Journey
along with Chaos Conf ◦ Motivation ◦ Negotiation ◦ Observability ◦ Experiment ◦ Post-mortem • Prediction: Next Chaos Topics
Chaosconf 18’ 19’
2019 The Regency Ballroom 収容人数 600 2018 Alamo Drafthouse Cinema
収容人数 400 http://cinematreasures.org/theaters/708/photos/151873
Session list 9 Sessions 4 LTs 1 Bootcamp 10 Sessions
- LTs - Bootcamp 2018 2019
https://tech.cygames.co.jp/archives/3323/ ブートキャンプについては、、、 ↓
Session Contents 2018 2019 WHY HOW
https://www.youtube.com/watch?v=06yMXBAgiZg&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=3 2018 "How to Convince Your Boss and Make Them
Say "Yes!" to Chaos Engineering" -Kriss Rochefolle, Rail Europe- • 上司から承認を取る方法を3STEPで紹介 • 「合理的に説得する方法」がROIが高い
2018 "Patterns for Failure Management from the Bottom of the
Ocean" -Ronnie Chen, Twitter- • ダイビングにおけるリスク管理の話 • 1つの判断ミスが生死に関わる https://www.youtube.com/watch?v=E6HkZb6hAuc&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN&index=6
"think big: chaos testing a monolith" -Caroline Dickey, Mailchimp- •
Monolithな構成に対するChaosアプローチ • LB Failover / Make Database read-only 実験 2019 https://www.youtube.com/watch?v=w_IeMAidgpI&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=6
"incident repro & playbook validation with chaos engineering" -Robert Ross,
Fire Hydrant / Tammy Butow, Gremlin- • 2017年に発生したS3の障害をgremlinで再現実験 • S3 replication で耐障害性を高める方法を紹介 2019 https://www.youtube.com/watch?v=2bRUSapnQ8A&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE&index=11
登壇者の業界
Meal 2018 2019
??
Motivation なんのためにやるのか なぜやるのか Negotiation 周りを巻き込むには 説得時の心得 Observability ログ メトリックス トレーシング
実験前に準備すること Post-mortem 実験の振返り Pre mortem Experiment 実験の流れ 実験対象 Chaos Journey along with Chaos Conf
Motivation Negotiation Observability Post-mortem Experiment 複雑な分散アーキテクチャの信頼性向上 - Mark McBride, Turbine
Labs 18’ - システムは人間が作る、人間は間違いを犯しやすい生き物、 即ち、システムは壊れやすい - Niran Fajemisin, 19’ - 突発的イシューを気にすることなくぐっすりと眠りたい - Kriss Rochefolle 18’- ユーザーペインの低減 - Kolton Andrus, Gremlin 18’ -
Motivation Negotiation Observability Post-mortem Experiment どうやって上司をYESと言わせるか? - Kriss Rochefolle, Rail
Europe 18’ - • Step1 なじみを持ってもらう ◦ 未知の事柄に対して人間は、戦うか、固まるか、逃げるの選択肢 ◦ SNSなどのコミュニケーションツールで伝搬する • Step2 どのようなプレイヤーがいるか把握する ◦ 敵・仲間・障壁となる人 ◦ CEO・CFO・CMO・CHO・CTO • Step3 プレイヤー毎のストーリーを作る 説得を行う上でROIが最も高い方法は「合理的な説得」 “Leadership in Organizations” engagement 率 23%
Motivation Negotiation Observability Post-mortem Experiment マネージャーにどう提案するか? - Mikolaj Pawlikowski, Bloomberg
18’- • Q: なぜ動いているのに壊すのか? ◦ 障害は “Not if, but when” ◦ 障害を予め検知・修正できる方が、事後に発覚するより良い • Q: 既に多くの問題を抱えているではないか? ◦ すでにある問題も含めた検証をする ◦ オフィスアワーで実験を行うので、不足の場合は即対応する • Q: 我々には専門知識がないではないか ◦ 壊すこと自体は簡単である ◦ ツールは既にたくさんある
Motivation Negotiation Observability Post-mortem Experiment Observability がない chaos engineering はただのchaosだ
- Charity Majors, Honeycomb 18’ - Wikiによると、 外部の出力結果からシステム内部の状態をどれくらい推測できるかの指標 Monitoring と Observability - Charity Majors, Honeycomb 18’ - • Monitoring: 3人称視点でシステムもしくはコンポーネント全体を説明する。 • Observability : 1人称視点でソフトウェア自身が内側と外側から説明する。 (私の解釈では、、、) システム出力に対してアクションをする・しないかが明確になっていて、 自動・手動限らずアクションを取るまでのリードタイムが短ければ短いほど Observability が高い
Motivation Negotiation Observability Post-mortem Experiment 4 ways to achieve observability
- Jose Esquivel, Backcountry 19’- • LOGGING • 見るべきログを選別してからツールを選ぶ • APM < 意図的に埋め込んだログ • TRAICING • システム間の関係 • トレースID / オブジェクトID • システム間での一貫したIDにする • METRIC & REPORTS • Metricを見た人が何が起きているかを理解できるか • 何が良く、何が悪いのか • ALERTING • WarningとCritical • Criticalが出たら誰かを呼び出す
Motivation Negotiation Observability Post-mortem Experiment Crystal Hirschorn, Conde Nast
Motivation Negotiation Observability Post-mortem Experiment 実験のユースケースは、本番システムの信頼性向上だけではなく、 • オンコール対応の訓練 - Tammy
Butow & Ana Medina, Gremlin 18’ - • ツールと手順書の有効性を検証 - Ronnie Chen 18’ - • インシデントの再現確認とPlaybookの検証 - Robert Ross 19’ - • 人間組織のマネジメント - Dave Rensin 19’ -
Motivation Negotiation Observability Post-mortem Experiment Latency > 150 ms Fix
Retry cnt Fix Timeout Amazon.com Amazon Cloud Watch Latency < 100 ms Latency > 5000ms Packet loss to Payment Svc Payment svc delay 1% user 10 mins tc Example
Motivation Negotiation Observability Post-mortem Experiment Pre-mortems Ronnie Chen, 18’ •
安全なシステムを構築するには障害を先取りする • 潜在的に発生する障害を事前に定義してプランを立てる • 頻繁に起こる軽微な障害・時折発生する大規模障害 Focusing on problems, not individuals Niran Fajemisin, 19’
オススメセッション • SRE・オンコール ◦ 18’ "Chaos Conf Keynote" -Adrian Cockcroft,
AWS- • Container・Kubernetes ◦ 18’ "Chaos Tuning Envoy Proxy" - Mark McBride, Turbine Labs- ◦ 18’ "Breaking Containers - Chaos Engineering and Kubernetes" - Jessie Frazelle, MS - • Monolith ◦ 19’ “Think big: chaos testing a monolith” - Caroline Dickey, Mailchimp - • マネジメント ◦ 19’ "Chaos engineering for people systems" - Dave Rensin, Google -
Release It! (18’) https://www.amazon.co.jp/dp/1680502395 The Safety Anarchist (17’) https://www.amazon.co.jp/dp/1138300462 Drift
into Failure (11’) https://www.amazon.co.jp/dp/B01FGJA6RQ 推薦されていた書籍
資料 • Movie ◦ Chaosconf 2018 https://www.youtube.com/watch?v=cefJd2v037U&list=PLLIx5ktghjqKtZdfDDyuJrlhC-ICfhVAN ◦ Chaosconf 2019
https://www.youtube.com/watch?v=SM4em_Ei6iE&list=PLLIx5ktghjqIbPU1G2a3ssud26tiGlFUE • Slides ◦ 2019 のみ https://speakerdeck.com/chaosconf • Slack ◦ https://slofile.com/slack/chaosengineering • Gremlin ◦ https://www.gremlin.com/product/
Prediction: Next chaos topic https://ccsearch.creativecommons.org/photos/6e5853ba-6cdf-4da6-b497-58b2a5cc720d
• Resilience Driven Development (RDD) • Chaos Driven Development (CDD)
• (VM → Container →) Serverless への適用事例 • Application Layer での Chaos Engineering • マネジメント領域への応用事例 • ML と 融合したオートメーション
Thank you !!