Slide 1

Slide 1 text

SRE への第一歩 PagerDuty × DataDog を使用した品質管理

Slide 2

Slide 2 text

Copyrights©3-shake Inc. All Rights Reserved. 2 自己紹介 金子 雄 所属:Sreake 事業部 最近やってること  ・監視設計    ・PagerDuty    ・DataDog    ・Prisma Cloud    ・インフラ管理    ・Ansible    ・Terraform    ・Packer  

Slide 3

Slide 3 text

Copyrights©3-shake Inc. All Rights Reserved. 3 目次 なぜ SLO, SLI が必要なのか 1 DataDog, PagerDuty とは 3 DataDog, PagerDuty を導入すると? 4 まとめ 5 SLO, SLI について 2

Slide 4

Slide 4 text

Copyrights©3-shake Inc. All Rights Reserved. 4 なぜ SLO, SLI が必要なのか こんな経験ありませんか 開発チームと運用チームのモチベーションの差... 提供しているサービスにユーザーが満足しているかわからない... 新機能をリリースしたいけど、障害が怖い...

Slide 5

Slide 5 text

Copyrights©3-shake Inc. All Rights Reserved. 5 SLI, SLO について サービスの信頼度を表す値 目には見えない信頼度を 可視化できるようにする。 SLI, SLO とは? Service Level Objective Service Level Indicator SLI の目標値 信頼度を数値化したものを 目標設定する。 Counter Histogram Gauge SLI Duration Target sum:httpservice.hits

Slide 6

Slide 6 text

Copyrights©3-shake Inc. All Rights Reserved. 6 SRE における SLO, SLI について Error Budget とは Error Budget 信頼度をさげることが許容される範囲 Error Budget = 100 % - SLO (%) Ex. 1ヶ月間 の SLO を 99% とした場合 Error Budget は 1% となり、時間に換算すると 7.2 h となる。

Slide 7

Slide 7 text

Copyrights©3-shake Inc. All Rights Reserved. 7 SRE における SLO, SLI について SLO, SLI, ErrorBudget の関係性 SLO:1週間で正常なレスポンスが95%以上であること SLI :レスポンスコードをカウントするメトリクス 1週間(duration) OK NG 正常なレスポンスコード 異常なレスポンスコード

Slide 8

Slide 8 text

Copyrights©3-shake Inc. All Rights Reserved. 8 SRE における SLO, SLI について SLO, SLI, ErrorBudget の関係性 正常時のメトリクスの合計( SLI) sum:httpservice.hits{code:2xx} +sum:httpservice.hits{code:3xx} +sum:httpservice.hits{code:4xx} sum:httpservice.hits 異常時を含む すべてのメトリクスの合計( SLI) × 100 = XX % 正常時のメトリクスの合計( SLI) 異常時を含む すべてのメトリクスの合計( SLI) OK NG 現時点での信頼度 100% - XX % Error Budget

Slide 9

Slide 9 text

Copyrights©3-shake Inc. All Rights Reserved. 9 DataDog, PagerDuty について                とは ログの集約 メトリクス の集約 APM 運用や監視のための Saas プラットフォーム

Slide 10

Slide 10 text

Copyrights©3-shake Inc. All Rights Reserved. 10 DataDog, PagerDuty について             とは オンコール 対応者への 通知 SaaS のインシデント管理ツール 様々な サービスと 連携 インシデント 管理

Slide 11

Slide 11 text

Copyrights©3-shake Inc. All Rights Reserved. 11 DataDog, PagerDuty について たとえば... Cloud Service 各プラットフォームの 情報を取得 アラートや SLO を作成 条件に一致した際に通知 障害対応 オンコールの運用者に通知 マルチクラウドでの サービス運用 オンコールのスケジュール、 通知の条件などを作成

Slide 12

Slide 12 text

Copyrights©3-shake Inc. All Rights Reserved. 12 DataDog, PagerDuty を導入すると? DataDog での SLO の作成   ※ メトリクスを使用する場合 正常時のイベントを定義する。 1 全てのイベントを定義する。 2 期間と目標を定義する。 3

Slide 13

Slide 13 text

Copyrights©3-shake Inc. All Rights Reserved. 13 DataDog, PagerDuty を導入すると? DataDog での SLO の作成   ※ メトリクスを使用する場合 SLI に設定した正常なメトリクスを指定する。 Ex. HTTP のレスポンスコード  2XX, 3XX, 4XX SLO に設定する目標値、期間を指定する。 SLI に設定したメトリクスの合計を指定する。 Ex. HTTP のレスポンスコードの合計

Slide 14

Slide 14 text

Copyrights©3-shake Inc. All Rights Reserved. 14 DataDog, PagerDuty を導入すると? できるようになること ユーザーの満足度(信頼度)を可視化することができる。 1 チーム間での同一の指標ができる。 2 サービスの信頼度に対する、過剰な要求を防ぐことができる。 3

Slide 15

Slide 15 text

Copyrights©3-shake Inc. All Rights Reserved. 15 DataDog, PagerDuty を導入すると? PagerDuty の役割 SLO の作成ができた! エラーバジェットの消費を抑えたい... 障害時にスマートに動きたい...

Slide 16

Slide 16 text

Copyrights©3-shake Inc. All Rights Reserved. 16 DataDog, PagerDuty を導入すると? できるようになること 検知漏れを防ぐことができる。 1 適切な通知のみ受け取ることができる。 2 3 起こった障害を次に活かすことができる。

Slide 17

Slide 17 text

Copyrights©3-shake Inc. All Rights Reserved. 17 DataDog, PagerDuty とは まとめ 信頼性の理解、定義をする。 1 指標を定義する。 2 ツールを使って精度を上げる。 3 改善をしていく。 4

Slide 18

Slide 18 text

Copyrights©3-shake Inc. All Rights Reserved. 18 Thank You