Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE への第一歩 PagerDuty × DataDog を使用した品質管理

kokekoke
April 28, 2021

SRE への第一歩 PagerDuty × DataDog を使用した品質管理

kokekoke

April 28, 2021
Tweet

Other Decks in Technology

Transcript

  1. Copyrights©3-shake Inc. All Rights Reserved. 2 自己紹介 金子 雄 所属:Sreake 事業部

    最近やってること  ・監視設計    ・PagerDuty    ・DataDog    ・Prisma Cloud    ・インフラ管理    ・Ansible    ・Terraform    ・Packer  
  2. Copyrights©3-shake Inc. All Rights Reserved. 3 目次 なぜ SLO, SLI

    が必要なのか 1 DataDog, PagerDuty とは 3 DataDog, PagerDuty を導入すると? 4 まとめ 5 SLO, SLI について 2
  3. Copyrights©3-shake Inc. All Rights Reserved. 4 なぜ SLO, SLI が必要なのか

    こんな経験ありませんか 開発チームと運用チームのモチベーションの差... 提供しているサービスにユーザーが満足しているかわからない... 新機能をリリースしたいけど、障害が怖い...
  4. Copyrights©3-shake Inc. All Rights Reserved. 5 SLI, SLO について サービスの信頼度を表す値

    目には見えない信頼度を 可視化できるようにする。 SLI, SLO とは? Service Level Objective Service Level Indicator SLI の目標値 信頼度を数値化したものを 目標設定する。 Counter Histogram Gauge SLI Duration Target sum:httpservice.hits
  5. Copyrights©3-shake Inc. All Rights Reserved. 6 SRE における SLO, SLI

    について Error Budget とは Error Budget 信頼度をさげることが許容される範囲 Error Budget = 100 % - SLO (%) Ex. 1ヶ月間 の SLO を 99% とした場合 Error Budget は 1% となり、時間に換算すると 7.2 h となる。
  6. Copyrights©3-shake Inc. All Rights Reserved. 7 SRE における SLO, SLI

    について SLO, SLI, ErrorBudget の関係性 SLO:1週間で正常なレスポンスが95%以上であること SLI :レスポンスコードをカウントするメトリクス 1週間(duration) OK NG 正常なレスポンスコード 異常なレスポンスコード
  7. Copyrights©3-shake Inc. All Rights Reserved. 8 SRE における SLO, SLI

    について SLO, SLI, ErrorBudget の関係性 正常時のメトリクスの合計( SLI) sum:httpservice.hits{code:2xx} +sum:httpservice.hits{code:3xx} +sum:httpservice.hits{code:4xx} sum:httpservice.hits 異常時を含む すべてのメトリクスの合計( SLI) × 100 = XX % 正常時のメトリクスの合計( SLI) 異常時を含む すべてのメトリクスの合計( SLI) OK NG 現時点での信頼度 100% - XX % Error Budget
  8. Copyrights©3-shake Inc. All Rights Reserved. 9 DataDog, PagerDuty について               

    とは ログの集約 メトリクス の集約 APM 運用や監視のための Saas プラットフォーム
  9. Copyrights©3-shake Inc. All Rights Reserved. 10 DataDog, PagerDuty について            

    とは オンコール 対応者への 通知 SaaS のインシデント管理ツール 様々な サービスと 連携 インシデント 管理
  10. Copyrights©3-shake Inc. All Rights Reserved. 11 DataDog, PagerDuty について たとえば...

    Cloud Service 各プラットフォームの 情報を取得 アラートや SLO を作成 条件に一致した際に通知 障害対応 オンコールの運用者に通知 マルチクラウドでの サービス運用 オンコールのスケジュール、 通知の条件などを作成
  11. Copyrights©3-shake Inc. All Rights Reserved. 12 DataDog, PagerDuty を導入すると? DataDog

    での SLO の作成   ※ メトリクスを使用する場合 正常時のイベントを定義する。 1 全てのイベントを定義する。 2 期間と目標を定義する。 3
  12. Copyrights©3-shake Inc. All Rights Reserved. 13 DataDog, PagerDuty を導入すると? DataDog

    での SLO の作成   ※ メトリクスを使用する場合 SLI に設定した正常なメトリクスを指定する。 Ex. HTTP のレスポンスコード  2XX, 3XX, 4XX SLO に設定する目標値、期間を指定する。 SLI に設定したメトリクスの合計を指定する。 Ex. HTTP のレスポンスコードの合計
  13. Copyrights©3-shake Inc. All Rights Reserved. 14 DataDog, PagerDuty を導入すると? できるようになること

    ユーザーの満足度(信頼度)を可視化することができる。 1 チーム間での同一の指標ができる。 2 サービスの信頼度に対する、過剰な要求を防ぐことができる。 3
  14. Copyrights©3-shake Inc. All Rights Reserved. 15 DataDog, PagerDuty を導入すると? PagerDuty

    の役割 SLO の作成ができた! エラーバジェットの消費を抑えたい... 障害時にスマートに動きたい...
  15. Copyrights©3-shake Inc. All Rights Reserved. 16 DataDog, PagerDuty を導入すると? できるようになること

    検知漏れを防ぐことができる。 1 適切な通知のみ受け取ることができる。 2 3 起こった障害を次に活かすことができる。
  16. Copyrights©3-shake Inc. All Rights Reserved. 17 DataDog, PagerDuty とは まとめ

    信頼性の理解、定義をする。 1 指標を定義する。 2 ツールを使って精度を上げる。 3 改善をしていく。 4