Slide 1

Slide 1 text

エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果 – イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 齋藤 光、林 如弥 PagerDuty on Tour 2024年8月6日

Slide 2

Slide 2 text

Agenda •各種紹介(自己、グループ、会社) •障害対応にまつわる改善の歴史 •PagerDutyによる障害対応の民主化 •まとめ

Slide 3

Slide 3 text

自己紹介

Slide 4

Slide 4 text

齋藤光( @hikkie13 ) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2022/5入社) SREチームの立ち上げやってきた。 趣味:ヨガ 直近の登壇: SRE NEXT 2023 「エンタープライズ企業でのSRE立ち上げ挑戦の際に 意識した事と気付き、現在地とこれから」 CloudNative Days Tokyo 2023 「イオンがKubernetesを採用してどうなった?」

Slide 5

Slide 5 text

イオングループ紹介

Slide 6

Slide 6 text

イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"

Slide 7

Slide 7 text

会社紹介

Slide 8

Slide 8 text

会社紹介

Slide 9

Slide 9 text

iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは880万人以上の会員を抱え(24年8月時点)、総ダウンロード数は1000万を2024年6月に突破しました。

Slide 10

Slide 10 text

iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは880万人以上の会員を抱え(24年8月時点)、総ダウンロード数は1000万を2024年6月に突破しました。 https://prtimes.jp/main/html/rd/p/000004399.000007505.html

Slide 11

Slide 11 text

障害対応にまつわる改善の歴史

Slide 12

Slide 12 text

• 全員サッカー • 誰が何してるかわからない / 何十人もいるけど、発言するのはほんの数人 • 「どうなってるんだ」おじ様の定期的なポーリング • 非プロフェッショナルの「〇〇をすればいいんじゃないの?」 • 万病に効く再起動 • 記録されないアクション • 経験、勘、大きな声によるリード • ヒロイズム • 共有されない or 実行されない振り返り エンタープライズの障害対応あるある

Slide 13

Slide 13 text

• 人は集まる(休日でも) • 少なくとも内部で特定の誰かを非難することはない(障害対応中もその後も) だからこそ、障害対応プロセスを改善する伸び代もその効果も大きい! 弊社にも良いところが最初からそれなりにあった

Slide 14

Slide 14 text

• オブザーバビリティ基盤の整備 • ポストモーテムの文化づくり • 障害対応中の記録係の文化づくり SREチームを立ち上げてからやってきたこと Betsy Beyer et. al.編, “SRE サイトリライアビリティエンジニアリング”, オライリージャパンより サービスの信頼性の階層 • 原則として「サービスの信頼性の階層」の下から登る • 固執はせずに、すぐに始められる(かつ、効果が高い)ところは手をつける

Slide 15

Slide 15 text

New Relicを中心に据えたオブザーバビリティ基盤の整備 • ファクトで議論し、経験・勘・想像を排除する。 • 開発チームを利用者の主体に見据え、運用のオーナシップの意識を醸成 • 本番環境からの情報は最高のフィードバック 参考 • Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプラット フォームの導入と効果」 • Findy Toolsへレビュー寄稿しました SREチームを立ち上げてからやってきたこと(1):オブザーバビリティ基盤の整備

Slide 16

Slide 16 text

まずは始めることが大事 • テンプレートは、巨人の肩に素直に乗りGoogleが公開しているものをほぼそのまま利用 • https://sre.google/sre-book/example-postmortem/ • ポストモーテム会は、初期はSREがファリシしてサポート • 今は何も言わなくても開催されるように • 過去の特大Incidentの内容を、後から入社したメンバでも参照できるようになった SREチームを立ち上げてからやってきたこと(2):ポストモーテムの文化づくり

Slide 17

Slide 17 text

当初は「録画してるからええやろ」の風潮 報告・指示・共有のほとんどが口頭で、途中から入ってきた人は状況が全くわからない • まずは記録係をかって出る(勝手にやる) • 「良いな」と思った人が勝手に真似してくれるように。 • 暗黙的活動になってしまったので、障害対応ガイドに後追いで明文化 SREチームを立ち上げてからやってきたこと(3):障害対応中の記録係の文化づくり

Slide 18

Slide 18 text

障害対応のオーナーシップを開発チームに持たせたい • そのために・・・ (1) 障害対応ガイドの策定 ↓とてもお世話になりました • 「改訂新版 システム障害対応の教科書」 • PagerDuty Incident Reponse (2) PagerDutyによる障害対応の民主化 ← 今日はここを話します! これからやりたいこと https://amzn.asia/d/gTEYfqq

Slide 19

Slide 19 text

PagerDutyによる障害対応の民主化

Slide 20

Slide 20 text

もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」

Slide 21

Slide 21 text

技術書典16(2024年5月)で 『PagerDuty FANBOOK Vol.1』をコミュニティの 有志の方と一緒に頒布しました!! https://techbookfest.org/product/fdr8Dy1kLRUbaBRgeqK0wF?productVariantID=viHF6KDk2ZVHWVJmtZcfzN

Slide 22

Slide 22 text

イオンスマートテクノロジーで 採用したPagerDutyのプラン

Slide 23

Slide 23 text

- Businessプラン - Add-Onとして o PD Automation Actions o Premium Status Page o PagerDuty AIOps 採用したPagerDutyのプラン

Slide 24

Slide 24 text

- Businessプラン ←多くの便利な機能 - Add-Onとして o PD Automation Actions o Premium Status Page o PagerDuty AIOps ←今後の期待も大きい! 採用したPagerDutyのプラン

Slide 25

Slide 25 text

MTTAを短縮する仕組みの民主化 ※MTTA(Mean Time To Acknowledge)

Slide 26

Slide 26 text

MTTAを短縮する仕組みの民主化(1):PagerDuty導入前 - PagerDutyを導入する以前から、多くのミッションクリティカルのアラートに ついて、MSPを利用した迅速な検知を行うことはできていた - 一方で検知方法や範囲の展開・追加・変更を行うためにはMSPへ特定フォー マットで依頼を行う必要があり、スピード感・柔軟性・依頼自体の容易さに一 定の課題があった

Slide 27

Slide 27 text

MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 「オンコールスケジュール」 「エスカレーションポリシー」 「(個人ごと)通知ルール」 X X

Slide 28

Slide 28 text

MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 - 3つともPagerDutyの基本機能として全プランで提供される - 誰がいつオンコールを担当するかを「オンコールスケジュール」で - どの順番で通知していくかを「エスカレーションポリシー」で - 通知をどのように受け取るかを「通知ルール」で 各機能の組み合わせによって大変柔軟な通知が可能

Slide 29

Slide 29 text

MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 「My On-Call Shifts」 「Create Override」 X

Slide 30

Slide 30 text

- 「My On-Call Shifts」でカレンダー形式で自分のスケジュールを確認可能 - さらに「Create Override」を利用することで、規則性のないオンコールスケ ジュールにも対応 o 例えばパートやバイトのような、日次とか週次のような規則性がなく、毎月 の当番表で体制を組むようなケースにも対応 ▪ *管理が大変なため推奨はしない MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能

Slide 31

Slide 31 text

- シンプルなGUIから各機能の設定は変更できる - 設定はTerraform管理を推奨とするが、アラートを受け取る各チームが希望す る管理方法を優先 MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能

Slide 32

Slide 32 text

- 初めてPagerDutyを利用する方へ、操作方法などのガイドを準備 - 参考にするなら「PagerDuty利用ガイド - Responder編」がおすすめ o PagerDutyの山田さん執筆 MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 https://qiita.com/ymotomu/items/42f825accbfca287464a

Slide 33

Slide 33 text

MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携 「サービス」 「インテグレーション」 「Dynamic Notifications」 X X

Slide 34

Slide 34 text

- PagerDutyへは主にNew RelicとAzure Monitor alertから通知 o 700以上ある「インテグレーション」に上記2つも当然対応 - 特にNew Relicの導入と展開によって各チームでアラート管理も可能に o 参考:Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプ ラットフォームの導入と効果」(再掲) MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携

Slide 35

Slide 35 text

- 「Dynamic Notifications」はNew RelicやAzure Monitor alertから PagerDutyへ通知した際のSeverityを動的に判断してHighかLowかを判定する 大変便利な機能 o Highなら電話 o Lowなら通知だけ ▪ といった運用が簡単にできる - 複雑なら「Event Orchestration」を検討 MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携

Slide 36

Slide 36 text

New RelicとPagerDutyのアカウントさえあ れば、各チームで簡単に迅速なアラートを作 成し、その通知をコントロールできる MTTAを短縮する仕組みの民主化(4):まとめ

Slide 37

Slide 37 text

PagerDutyアカウントの民主化

Slide 38

Slide 38 text

- PagerDutyのユーザは以下の2種類がある o Full Users: PagerDutyを利用する基本のユーザ o Stakeholder Users: オンコールは担当しない、状況を確認する向けユーザ PagerDutyアカウントの民主化(1):ユーザの種類 現在はFull Usersのみを利用

Slide 39

Slide 39 text

- ユーザはEntra IDをIdPとしたSSO(Single Sign-on)で管理 - 初回のPagerDutyログイン時に自動で作成される(Auto Auto-provisioning) PagerDutyアカウントの民主化(2):Entra IDによるSingle Sign-on

Slide 40

Slide 40 text

- Entra ID自体はAzureアカウントやAzure DevOpsなど他用途でも利用されてきた o ”他と同じ”管理方法であるため受け入れが容易 - Entra IDのグループとユーザはHCP TerraformによるIaC管理 o ユーザ増減を希望する各チームからPRが作られSREがレビュー o 承認とマージによってデプロイが行われる PagerDutyアカウントの民主化(2):Entra IDによるSingle Sign-on

Slide 41

Slide 41 text

運用実績のある共通のID基盤(Entra ID)を 利用したSingle Sign-onによって、各チーム でPagerDutyの利用メンバーを容易にコント ロールできる *ただしライセンス数は限りがあるためその制御は必要 PagerDutyアカウントの民主化(3):まとめ

Slide 42

Slide 42 text

AIOpsによる障害対応サポート

Slide 43

Slide 43 text

- ChatGPT、GitHub Copilot、New Relic AIなどAI技術の恩恵はすでに体感 - PagerDutyにおいてもAIを活用したさまざまな利便性が受けられる期待 - AIOpsの価格は現在$699(Yealy Pricing) - Businessの$41/ユーザの約17人分と考えても価値がある...はず! - 2024年7月30日に「PagerDuty Advance」が発表 AIOpsによる障害対応サポート(1):AIOpsの概要 https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/

Slide 44

Slide 44 text

- 「Assistant for Slack(旧名PagerDuty Copilot)」をベータで検証 - インシデントのノートの活用でかなり正確な概要を回答してくれた AIOpsによる障害対応サポート(2):Assistant for Slack

Slide 45

Slide 45 text

• 前半でも紹介した「どうなってるんだ」と定期的なポーリングへの1つの回答になる AIOpsによる障害対応サポート(2):Assistant for Slack

Slide 46

Slide 46 text

• 過去の類似インシデントを提案してくれる機能は、障害対応経験豊富な猛者が 行う「あの時の障害と似てない?」をAIが代行してくれる AIOpsによる障害対応サポート(2):Assistant for Slack

Slide 47

Slide 47 text

• 類似インシデントは表示も見やすい(いつ、何件、発生期間) AIOpsによる障害対応サポート(2):Assistant for Slack

Slide 48

Slide 48 text

• イオンスマートテクノロジーとしては"Slack"の利用があるが、関連するイオン グループ企業の標準のチャットツールは"Slack"ではなく"Teams"... AIOpsによる障害対応サポート(2):Assistant for Slack 「PagerDuty Assistant for Teams」 もお待ちしております!!!! ※ (Support for Microsoft Teams coming soon.)の記述あり https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/

Slide 49

Slide 49 text

• 紹介した”チャットサポート”や”過去類似インシデント”機能の他も期待 • 中でも「ポストモーテムの自動生成」の機能は、社内で定着化しつつあるポス トモーテムの文化をより加速できる(小規模なインシデントでも書ける) AIOpsによる障害対応サポート(3):その他のAI機能にも期待 チャットツールとAI機能による各種サポートは、PagerDutyを直 接利用しないユーザさえも巻き込んで障害対応支援が可能となり、 「障害対応の民主化」がより進んでいく...!

Slide 50

Slide 50 text

まとめ

Slide 51

Slide 51 text

• 障害対応の改善に取り組んでいる • PagerDutyの導入はMTTA短縮や障害対応の民主化に大きく貢献 o 基本機能で柔軟なオンコールローテーションを実現 • AI機能の今後の進化にも大きな期待を寄せている o 「PagerDuty Advance」発表にわくわくだ!! まとめ

Slide 52

Slide 52 text

告知

Slide 53

Slide 53 text

募集しています!