Slide 1

Slide 1 text

Resilience Hubの登場が 騒がれないなんておかしい!? ~ とあるSREsが考えたRPO RTOが計測された世界観と野望 ~ 株式会社 mediba Tomoya Kitaura 2021/12/13 Tech-in 1

Slide 2

Slide 2 text

自己紹介 Tomoya Kitaura @kitta0108 mediba inc. SRE Unit ■勉強会運営 - - JAWS-UG コンテナ支部 - JAWS-UG SRE支部 ■好きなAWSのサービス - Amazon VPC 2

Slide 3

Slide 3 text

Resilience Hubとは? RPO、RTOなどの耐障害性を定義、追跡、管理を 支援するためのマネージドサービス。 RTO = 目標復旧時間 RPO = 目標復旧時点 3

Slide 4

Slide 4 text

SREの原則 https://cloud.google.com/architecture/framework/reliability/principles?hl=ja 信頼性は最優先の機能 4

Slide 5

Slide 5 text

サーバーに対する扱いの変化 その1 https://aws.amazon.com/jp/compliance/shared-responsibility-model/ 例えばAWS責任共有モデル 5

Slide 6

Slide 6 text

サーバーに対する扱いの変化 その2 https://blog.engineyard.com/pets-vs-cattle 例えばこんな言葉 6 ペットから家畜へ

Slide 7

Slide 7 text

会場の方への質問 7 サーバーは落ちるという前提で アプリケーションの開発・設計 あるいは考慮している

Slide 8

Slide 8 text

会場の方への質問 その2 8 - 障害発生時のアプリケーションの 振る舞いを理解している。 - 障害発生時のオートヒーリングによる 復旧時間を計測している。 - 障害発生時の復旧回復時点を理解している。 - 継続的に上記を計測し、改善する仕組みを 取りいれている。 ↑ 必要では??

Slide 9

Slide 9 text

Resilience Hub活用例 9

Slide 10

Slide 10 text

まとめ 10 - 信頼性は重要な機能 - 信頼性は重要な機能(大事なことなので) - 僕らは耐久性の管理が必要なのではないか - Resilience HubはRTO,RPOの追跡管理に使える - FISとの機能連携によりいい感じの継続的計測が可能に。

Slide 11

Slide 11 text

さいごに 11 より高みを目指した開発を行うことの過程を みんなで楽しんでいきましょう!! ご静聴ありがとうございました!!