Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

PagerDutyを導入して変わったシステム運用とこれから / NIFTY Tech Talk...

PagerDutyを導入して変わったシステム運用とこれから / NIFTY Tech Talk #21

イベント
SRE関係イベント登壇者のAfter Talk
https://nifty.connpass.com/event/326741/

登壇者
ニフティ株式会社
熊谷 哲良

ニフティ株式会社

August 28, 2024
Tweet

Video


Resources

SRE関係イベント登壇者のAfter Talk / NIFTY Tech Talk #21 - connpass

https://nifty.connpass.com/event/326741/

More Decks by ニフティ株式会社

Other Decks in Technology

Transcript

  1. Copyright © NIFTY Corporation All Rights Reserved. PagerDutyを導入して変わったシステム運用とこれから 熊谷 哲良

    ニフティ株式会社 NIFTY Tech Talk #21 SRE関係イベント登壇者のAfter Talk
  2. Copyright © NIFTY Corporation All Rights Reserved. 自己紹介 1 熊谷

    哲良 所属: ニフティ株式会社 インフラシステムグループ 担当業務: 会員マイページ開発/運用担当 システム監視については勉強中です
  3. Copyright © NIFTY Corporation All Rights Reserved. サービス紹介 01 PagerDuty導入前

    02 PagerDuty導入後 03 目次 2 PagerDutyで障害対応するまでに実施したこと 04 導入して1年経過した現在 05 今後のPagerDutyの活用について 06
  4. Copyright © NIFTY Corporation All Rights Reserved. サービス紹介 3 お客様向けのマイページ

    • 契約している回線コースの確認/変更 • オプションサービスの契約状況確認 • 請求情報の確認 • 会員情報の登録/変更 どんなサービス?
  5. Copyright © NIFTY Corporation All Rights Reserved. 導入前の監視体制 4 監視チーム

    (リソース監視) その他 • クラウドのアラート機能 • エラーログ検知 サービス担当 架電 メール Slack
  6. Copyright © NIFTY Corporation All Rights Reserved. 導入前の監視体制 5 見直したかったところ

    • アラート内容の変更を監視チームに依頼する必要がある • アラート閾値、オンコール担当を簡単に変更できない • メンテナンス等でアラートしてほしくないタイミングを簡単に設定できない • 架電によるアラートは、監視チームが担当者に電話している • アラート先/アラート方法がバラバラ
  7. Copyright © NIFTY Corporation All Rights Reserved. 導入前の監視体制 6 担当者①

    担当者② 担当者③ ︙ 監視チーム • 連絡順番は固定 → 対応できる範囲が広い人が優先になりがち • つながらない場合は次の連絡先へ → つながるまでかけ直す必要がある 見直したかったところ(電話連絡)
  8. Copyright © NIFTY Corporation All Rights Reserved. 導入後の監視体制 7 Prometheus

    Alertmanager その他 • クラウドのアラート機能 • エラーログ検知 サービス担当
  9. Copyright © NIFTY Corporation All Rights Reserved. 導入後の監視体制 8 改善したところ

    • 監視チーム(人)→担当者でなく、PagerDuty(システム)→担当者にアラート • 人が介入しなくなったことで運用コストが下がった • オンコールシフトにより、アラートを受けやすい体制を作れた • アラートをPagerDutyに集約できた • 担当者はPagerDutyだけでアラートを確認できるようになった
  10. Copyright © NIFTY Corporation All Rights Reserved. 導入後の監視体制 9 改善したところ(電話連絡)

    シフト管理と、どの順番で連絡するかを管理できるようになった (オンコール担当→サービス担当の誰かの順で連絡しています)
  11. Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 10 サービスの依存関係の洗い出し

    • サービスという単位でアラート を紐づけるため、サービスの依 存関係を再確認した • マッピングはサービスグラフか らGUIで設定できた
  12. Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 11 メール通知していたアラートを連携する

    • Email Integrationを使って送信先をPagerDutyに変更した • 特定のテキストを含むものだけアラートに設定した
  13. Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 12 監視ツールの導入&アラートの連携

    https://samber.github.io/awesome-prometheus-alerts/ • Prometheus + Alertmanagerを導入した • アラートに関する知識が浅かったので、awesome-prometheus-alertsの ルールセットを導入して、すべてPagerDutyに連携した
  14. Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 13 アラートの見直し/トリアージ機能の設定

    • イベントを連携し始めて1か月程度はアラート閾値の見直しと、トリアージ機能 の設定を繰り返した • アラートを整理出来たところでチームメンバーをオンコールシフトに入れて、 PagerDutyを使ったインシデント管理に切り替えた
  15. Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 14 通知先の見直し

    High-Urgency のインシデント • モバイルアプリ • 電話 • SlackのDM(勤務中に気づきやすい)
  16. Copyright © NIFTY Corporation All Rights Reserved. 導入して1年経過した現在 15 •

    アラートを集約できたことで確認しやすくなった • 繰り返し連絡されるので、誰かがACKできている状態になった • アラート設定のハードルが下がった まずPagerDutyに連携してからチューニングしようという考えを持てるように なった • 障害ポイントが切り分けやすくなった Service Graphで影響箇所が視覚的に確認できるようになった
  17. Copyright © NIFTY Corporation All Rights Reserved. 今後のPagerDutyの活用について 16 •

    Analytics Dashboard、Insightsを活用する • MTTA、MTTR、応答工数を再発防止の優先度設定などに活用したい • インシデント発生時のアクションを見直す • 自動解決を設定する • Incident Workflowを設定する 実際は10分程度で復旧