aws_reinvent_recap_chaos_engineering_to_serverless

by morioka shuhei

Slide 1

Slide 1 text

2018/12/10 ( 火) AWS re:Invent 報告会 by Yappli そんなに遠くない Chaos Engineering 株式会社 Speee 開発基盤ユニット森岡周平 (@selmertsx)

Slide 2

Slide 2 text

Chaos Engineering を聞いたことがある人

Slide 3

Slide 3 text

Chaos Engineering は自分には縁遠いと思ってる方

Slide 4

Slide 4 text

本日はそういった方をターゲットにお話をします

Slide 5

Slide 5 text

今日のお話このセッションでChaos Engineering が身近に感じられたので、その体験をおすそ分けしたい！

Slide 6

Slide 6 text

今日の目的 Chaos Engineering とは何か理解できる Serverless の分野に Chaos Engineering を適用する方法が分かる Chaos Engineering がちょびっと身近に感じられる気がついたら AWS の話よりもChaos Engineering の話メインになってしまい、完全に趣味全開のお話になってしまいました...!!!

Slide 7

Slide 7 text

Agenda 自己紹介 Chaos Engineering とは何か Chaos Engineering をServerelss の分野に適用するまとめ Chaos Engineering の概念について7 、Serverless での実践事例が3 くらいの割合で話します。Session の中身を理解しやすくするためにChaos Engineerings の原則について、セッションで話されていた内容以外の情報も交えてお話をしていきます。

Slide 8

Slide 8 text

自己紹介名前: 森岡周平所属部署: 開発基盤ユニット GitHub & Twitter アカウント: @selmertsx 主業務: IDaaS 関連の諸々をServerless で作る技術: Ruby/Rails, TypeScript, AWS, GCP 最近の興味: AWS Amplify Console でサービスを作ってみたい

Slide 9

Slide 9 text

最近作ってるIDaaS 関連システム現在、クラウド人材管理ツールが人事マスター人材管理ツールのデータに応じて、従業員が適切なサービスを適切な権限で見れるように、Serverless で自動化する ※ 人材管理ツールは人数課金で、かつ過去の履歴を保持しないためBigQuery に履歴を残す ※ 人材管理ツールは他社内サービスと密接に関わっており、安易にリプレイスできない

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Chaos Engineering の原則意訳してみるとこんな感じ Chaos Engineering とは、分散システムが過酷な本番環境でも耐えられる能力があるという確証を得るための実験規範

Slide 12

Slide 12 text

Chaos Engineering の実践方法 Net ix の論文も読んで整理してみた

Slide 13

Slide 13 text

Net ix における Chaos Engineering 採用背景

Slide 14

Slide 14 text

Net ix は Microservices を採用してる Effective Interprocess Communications in the Cloud: The Pros and Cons of Microservices Architectures AWS re:Invent 2014

Slide 15

Slide 15 text

Microservices において Net ix が信頼性を高めるため考えてきたアプローチ

Slide 16

Slide 16 text

従来の信頼性向上のためのアプローチシステムへの INPUT (x) を網羅的にリストアップ x に対して適切な OUPUT(y) を実装する想定される問題に対して、適切な対処を実装することで障害を回避する f(x) はruntime con g 、機能更新などで動的に変化

Slide 17

Slide 17 text

Net ix のケース Microservices において、あるシステムのOUTPUT が他のシステムへのINPUT 挙動を網羅的に把握することが困難「システム単体で正常に動いていること」よりも「何かあってもユーザーがコンテンツを視聴できること」を実現する設計にしなければならない

Slide 18

Slide 18 text

Net ix のケースその2 一部のサービスが利用できなくなったとしても全体としては稼働するサービスを設計していく Chaos Engineering はその教育のための取り組み過去に障害を起こしたINPUT を定期的に再現する VM instance が落ちる (chaos monkey) サービス間のレイテンシー (latency monkey) サービス間のリクエストの失敗予期しないユーザーからのリクエストリージョン全体の障害発生 (chaos kong)

Slide 19

Slide 19 text

Production 環境に障害(Failure) を注入する実験 = Chaos Experiments

Slide 20

Slide 20 text

Chaos Engineering 支援ツールGremlin のデモから (re:Invent 2018)

Slide 21

Slide 21 text

No content

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

No content

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

Chaos Experiments の補足説明 Steady State ( 正常な状態) をどう定義するのか？実験の影響範囲はどうなっているの？なぜ実験を自動化しProduction 環境で行うのか？

Slide 27

Slide 27 text

正常な状態 (Steady State) の定義 Steady State とは「ユーザーから見えるサービスが正常に動作していることを示す指標」 Net ix では SPS (stream starts per second) で表現障害が発生しても SPS に影響を与えないようサービス全体を設計する

Slide 28

Slide 28 text

実験の影響範囲を設定 Chaos Experiments は全ユーザに行う訳ではない実験は一部のユーザーのみ抽出して行う ( 実験群) 実験を受けないユーザーを統制群と呼ぶ実験結果を、実験群と統制群で比較させる比較する数値は主に SPS を利用する

Slide 29

Slide 29 text

Production で行う & 自動化する Net ix では 1 日に100 回程度デプロイをしているユーザーの振る舞いを指標としているので、コードで実現されたインテグレーションテストでは代替できないデプロイの度に、テスターによるリグレッションテストをすることは難しい

Slide 30

Slide 30 text

Chaos Engineering まとめ Microservices 下の複雑化したシステムにおいては従来の方法では安定性を保つことは困難である過去、障害の原因となった外乱を自動で定期的にINPUT しそれにサービスが耐え続けられるように設計・実装し続けるこのときサービス１つ１つが正しく動いているよりユーザーが正常にサービスを利用できるを優先するこれらの取り組みが Chaos Engineering である

Slide 31

Slide 31 text

この話を聴いて、思っていたよりも Chaos Engineering は突飛な話じゃないと思った人

Slide 32

Slide 32 text

Slide 33

Slide 33 text

Serverless で Chaos Engineering Serverless こそ Chaos Engineering が重要である Auth 0 、DynamoDB などの外部サービスと連携することが多い依存する外部要素が増えると、Latency の影響を受ける機会も多くなる Lambda A からLambda B を呼び出すとき、両方 cold 状態であったら実行に非常に時間が掛かる

Slide 34

Slide 34 text

対象のサービス (sample) 注入する障害 (Failure) Latency Injection Error Injection https://github.com/theburningmonk/lambda-latency-injection-demo

Slide 35

Slide 35 text

Latency Injection の実装 HTTP Request の処理を上記のようにラップする con g はSSM Parameter Store に格納デプロイなしで即座に反映が可能 API Gateway のCanary release を使って影響範囲を制御しても良さそうに見える ( 資料にはない)

Slide 36

Slide 36 text

Error Injection HTTP 5xx Amazon DynamoDB の throughput を超える AWS Lambda の同時起動数を超える Injection のやり方 management console 上でLambda の同時期同数を設定する

Slide 37

Slide 37 text

Chaos Experiments にあたっての注意 Staging 環境で十分にテストすることマスキングした顧客データを持ってきてテストすることは可能であるロールバックプランを必ず用意しておくこと必ず定時の中でやること重要な日は避けること

Slide 38

Slide 38 text

Slide 39

Slide 39 text

まとめと所感 Chaos Engineering をServerless の分野に適用したまだまだ手探り・力技感はあるものの、実現するための肌感はつかめた今後の予定僕たちのServerless サービスでもエッセンスを取り入れていく障害を引き起こしたINPUT を保持しておいて、再発しないようリグレッションテストをするなど近いうちにそんな話しが出来たらいいっすな！