Upgrade to Pro — share decks privately, control downloads, hide ads and more …

エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-...

AEON
August 06, 2024
6.3k

エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-usecase-of-aeon

PagerDuty on Tour TOKYO 2024での発表資料です。
https://www.pagerduty.co.jp/pagerdutyontourtokyo/

AEON

August 06, 2024
Tweet

More Decks by AEON

Transcript

  1. 齋藤光( @hikkie13 ) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2022/5入社) SREチームの立ち上げやってきた。 趣味:ヨガ

    直近の登壇: SRE NEXT 2023 「エンタープライズ企業でのSRE立ち上げ挑戦の際に 意識した事と気付き、現在地とこれから」 CloudNative Days Tokyo 2023 「イオンがKubernetesを採用してどうなった?」
  2. • 全員サッカー • 誰が何してるかわからない / 何十人もいるけど、発言するのはほんの数人 • 「どうなってるんだ」おじ様の定期的なポーリング • 非プロフェッショナルの「〇〇をすればいいんじゃないの?」

    • 万病に効く再起動 • 記録されないアクション • 経験、勘、大きな声によるリード • ヒロイズム • 共有されない or 実行されない振り返り エンタープライズの障害対応あるある
  3. • オブザーバビリティ基盤の整備 • ポストモーテムの文化づくり • 障害対応中の記録係の文化づくり SREチームを立ち上げてからやってきたこと Betsy Beyer et.

    al.編, “SRE サイトリライアビリティエンジニアリング”, オライリージャパンより サービスの信頼性の階層 • 原則として「サービスの信頼性の階層」の下から登る • 固執はせずに、すぐに始められる(かつ、効果が高い)ところは手をつける
  4. New Relicを中心に据えたオブザーバビリティ基盤の整備 • ファクトで議論し、経験・勘・想像を排除する。 • 開発チームを利用者の主体に見据え、運用のオーナシップの意識を醸成 • 本番環境からの情報は最高のフィードバック 参考 •

    Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプラット フォームの導入と効果」 • Findy Toolsへレビュー寄稿しました SREチームを立ち上げてからやってきたこと(1):オブザーバビリティ基盤の整備
  5. 障害対応のオーナーシップを開発チームに持たせたい • そのために・・・ (1) 障害対応ガイドの策定 ↓とてもお世話になりました • 「改訂新版 システム障害対応の教科書」 •

    PagerDuty Incident Reponse (2) PagerDutyによる障害対応の民主化 ← 今日はここを話します! これからやりたいこと https://amzn.asia/d/gTEYfqq
  6. もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング

    おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
  7. - Businessプラン - Add-Onとして o PD Automation Actions o Premium

    Status Page o PagerDuty AIOps 採用したPagerDutyのプラン
  8. - Businessプラン ←多くの便利な機能 - Add-Onとして o PD Automation Actions o

    Premium Status Page o PagerDuty AIOps ←今後の期待も大きい! 採用したPagerDutyのプラン
  9. - PagerDutyへは主にNew RelicとAzure Monitor alertから通知 o 700以上ある「インテグレーション」に上記2つも当然対応 - 特にNew Relicの導入と展開によって各チームでアラート管理も可能に

    o 参考:Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプ ラットフォームの導入と効果」(再掲) MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携
  10. - 「Dynamic Notifications」はNew RelicやAzure Monitor alertから PagerDutyへ通知した際のSeverityを動的に判断してHighかLowかを判定する 大変便利な機能 o Highなら電話

    o Lowなら通知だけ ▪ といった運用が簡単にできる - 複雑なら「Event Orchestration」を検討 MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携
  11. - Entra ID自体はAzureアカウントやAzure DevOpsなど他用途でも利用されてきた o ”他と同じ”管理方法であるため受け入れが容易 - Entra IDのグループとユーザはHCP TerraformによるIaC管理

    o ユーザ増減を希望する各チームからPRが作られSREがレビュー o 承認とマージによってデプロイが行われる PagerDutyアカウントの民主化(2):Entra IDによるSingle Sign-on
  12. - ChatGPT、GitHub Copilot、New Relic AIなどAI技術の恩恵はすでに体感 - PagerDutyにおいてもAIを活用したさまざまな利便性が受けられる期待 - AIOpsの価格は現在$699(Yealy Pricing)

    - Businessの$41/ユーザの約17人分と考えても価値がある...はず! - 2024年7月30日に「PagerDuty Advance」が発表 AIOpsによる障害対応サポート(1):AIOpsの概要 https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/
  13. • イオンスマートテクノロジーとしては"Slack"の利用があるが、関連するイオン グループ企業の標準のチャットツールは"Slack"ではなく"Teams"... AIOpsによる障害対応サポート(2):Assistant for Slack 「PagerDuty Assistant for Teams」

    もお待ちしております!!!! ※ (Support for Microsoft Teams coming soon.)の記述あり https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/