Slide 1

Slide 1 text

Copyright © NIFTY Corporation All Rights Reserved. PagerDutyを導入して変わったシステム運用とこれから 熊谷 哲良 ニフティ株式会社 NIFTY Tech Talk #21 SRE関係イベント登壇者のAfter Talk

Slide 2

Slide 2 text

Copyright © NIFTY Corporation All Rights Reserved. 自己紹介 1 熊谷 哲良 所属: ニフティ株式会社 インフラシステムグループ 担当業務: 会員マイページ開発/運用担当 システム監視については勉強中です

Slide 3

Slide 3 text

Copyright © NIFTY Corporation All Rights Reserved. サービス紹介 01 PagerDuty導入前 02 PagerDuty導入後 03 目次 2 PagerDutyで障害対応するまでに実施したこと 04 導入して1年経過した現在 05 今後のPagerDutyの活用について 06

Slide 4

Slide 4 text

Copyright © NIFTY Corporation All Rights Reserved. サービス紹介 3 お客様向けのマイページ • 契約している回線コースの確認/変更 • オプションサービスの契約状況確認 • 請求情報の確認 • 会員情報の登録/変更 どんなサービス?

Slide 5

Slide 5 text

Copyright © NIFTY Corporation All Rights Reserved. 導入前の監視体制 4 監視チーム (リソース監視) その他 • クラウドのアラート機能 • エラーログ検知 サービス担当 架電 メール Slack

Slide 6

Slide 6 text

Copyright © NIFTY Corporation All Rights Reserved. 導入前の監視体制 5 見直したかったところ • アラート内容の変更を監視チームに依頼する必要がある • アラート閾値、オンコール担当を簡単に変更できない • メンテナンス等でアラートしてほしくないタイミングを簡単に設定できない • 架電によるアラートは、監視チームが担当者に電話している • アラート先/アラート方法がバラバラ

Slide 7

Slide 7 text

Copyright © NIFTY Corporation All Rights Reserved. 導入前の監視体制 6 担当者① 担当者② 担当者③ ︙ 監視チーム • 連絡順番は固定 → 対応できる範囲が広い人が優先になりがち • つながらない場合は次の連絡先へ → つながるまでかけ直す必要がある 見直したかったところ(電話連絡)

Slide 8

Slide 8 text

Copyright © NIFTY Corporation All Rights Reserved. 導入後の監視体制 7 Prometheus Alertmanager その他 • クラウドのアラート機能 • エラーログ検知 サービス担当

Slide 9

Slide 9 text

Copyright © NIFTY Corporation All Rights Reserved. 導入後の監視体制 8 改善したところ • 監視チーム(人)→担当者でなく、PagerDuty(システム)→担当者にアラート • 人が介入しなくなったことで運用コストが下がった • オンコールシフトにより、アラートを受けやすい体制を作れた • アラートをPagerDutyに集約できた • 担当者はPagerDutyだけでアラートを確認できるようになった

Slide 10

Slide 10 text

Copyright © NIFTY Corporation All Rights Reserved. 導入後の監視体制 9 改善したところ(電話連絡) シフト管理と、どの順番で連絡するかを管理できるようになった (オンコール担当→サービス担当の誰かの順で連絡しています)

Slide 11

Slide 11 text

Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 10 サービスの依存関係の洗い出し • サービスという単位でアラート を紐づけるため、サービスの依 存関係を再確認した • マッピングはサービスグラフか らGUIで設定できた

Slide 12

Slide 12 text

Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 11 メール通知していたアラートを連携する • Email Integrationを使って送信先をPagerDutyに変更した • 特定のテキストを含むものだけアラートに設定した

Slide 13

Slide 13 text

Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 12 監視ツールの導入&アラートの連携 https://samber.github.io/awesome-prometheus-alerts/ • Prometheus + Alertmanagerを導入した • アラートに関する知識が浅かったので、awesome-prometheus-alertsの ルールセットを導入して、すべてPagerDutyに連携した

Slide 14

Slide 14 text

Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 13 アラートの見直し/トリアージ機能の設定 • イベントを連携し始めて1か月程度はアラート閾値の見直しと、トリアージ機能 の設定を繰り返した • アラートを整理出来たところでチームメンバーをオンコールシフトに入れて、 PagerDutyを使ったインシデント管理に切り替えた

Slide 15

Slide 15 text

Copyright © NIFTY Corporation All Rights Reserved. PagerDuty導入までに実施したこと 14 通知先の見直し High-Urgency のインシデント • モバイルアプリ • 電話 • SlackのDM(勤務中に気づきやすい)

Slide 16

Slide 16 text

Copyright © NIFTY Corporation All Rights Reserved. 導入して1年経過した現在 15 • アラートを集約できたことで確認しやすくなった • 繰り返し連絡されるので、誰かがACKできている状態になった • アラート設定のハードルが下がった まずPagerDutyに連携してからチューニングしようという考えを持てるように なった • 障害ポイントが切り分けやすくなった Service Graphで影響箇所が視覚的に確認できるようになった

Slide 17

Slide 17 text

Copyright © NIFTY Corporation All Rights Reserved. 今後のPagerDutyの活用について 16 • Analytics Dashboard、Insightsを活用する • MTTA、MTTR、応答工数を再発防止の優先度設定などに活用したい • インシデント発生時のアクションを見直す • 自動解決を設定する • Incident Workflowを設定する 実際は10分程度で復旧

Slide 18

Slide 18 text

Copyright © NIFTY Corporation All Rights Reserved.