Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-...
Search
AEON
August 06, 2024
8
7k
エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果/pagerduty-usecase-of-aeon
PagerDuty on Tour TOKYO 2024での発表資料です。
https://www.pagerduty.co.jp/pagerdutyontourtokyo/
AEON
August 06, 2024
Tweet
Share
More Decks by AEON
See All by AEON
BizDevOps加速のカギ/the key to accelerating BizDevOps
aeonpeople
0
230
イオンネクストがGitHubに振り切った理由/GitHub-Universe-Recap-tokyo-2024
aeonpeople
3
410
SREチームの越境/crossing-Boundaries-of-the-SRE Team
aeonpeople
4
1k
イオンCTOが語るイオングループ全体を支えるクリティカルシステム解体新書/findy-architecture-conf-2024
aeonpeople
12
5.1k
巨大企業でDX革新を起こすということ@BTCONJP2024
aeonpeople
2
160
AEON’s blueprint for technological maturity and market competitiveness/aeon-for-technological-maturity-and-makert-competitiveness
aeonpeople
0
1.3k
HashiCorpと歩むPlatform Engineeringジャーニー/the-journey-of-platform-engineering-with-hashicorp
aeonpeople
1
510
SRE改善サイクルはチームを超えて - ダッシュボードを眺める会の取り組み/SRE improvement cycle across teams
aeonpeople
1
3.5k
1000万DL人を支えるiAEONアプリ:完全停止を防ぐ耐障害性の設計/iAEON app supporting 10 million users
aeonpeople
7
6.1k
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
32
6.3k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
1
110
How to train your dragon (web standard)
notwaldorf
88
5.7k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
48k
How To Stay Up To Date on Web Technology
chriscoyier
789
250k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
How to Ace a Technical Interview
jacobian
276
23k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
How to Think Like a Performance Engineer
csswizardry
21
1.2k
BBQ
matthewcrist
85
9.3k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
43
9.3k
Transcript
エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果 – イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 齋藤 光、林
如弥 PagerDuty on Tour 2024年8月6日
Agenda •各種紹介(自己、グループ、会社) •障害対応にまつわる改善の歴史 •PagerDutyによる障害対応の民主化 •まとめ
自己紹介
齋藤光( @hikkie13 ) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2022/5入社) SREチームの立ち上げやってきた。 趣味:ヨガ
直近の登壇: SRE NEXT 2023 「エンタープライズ企業でのSRE立ち上げ挑戦の際に 意識した事と気付き、現在地とこれから」 CloudNative Days Tokyo 2023 「イオンがKubernetesを採用してどうなった?」
イオングループ紹介
イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"
会社紹介
会社紹介
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは880万人以上の会員を抱え(24年8月時点)、総ダウンロード数は1000万を2024年6月に突破しました。
iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEON(アイイオン)はイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 提供開始から約3年で、iAEONは880万人以上の会員を抱え(24年8月時点)、総ダウンロード数は1000万を2024年6月に突破しました。 https://prtimes.jp/main/html/rd/p/000004399.000007505.html
障害対応にまつわる改善の歴史
• 全員サッカー • 誰が何してるかわからない / 何十人もいるけど、発言するのはほんの数人 • 「どうなってるんだ」おじ様の定期的なポーリング • 非プロフェッショナルの「〇〇をすればいいんじゃないの?」
• 万病に効く再起動 • 記録されないアクション • 経験、勘、大きな声によるリード • ヒロイズム • 共有されない or 実行されない振り返り エンタープライズの障害対応あるある
• 人は集まる(休日でも) • 少なくとも内部で特定の誰かを非難することはない(障害対応中もその後も) だからこそ、障害対応プロセスを改善する伸び代もその効果も大きい! 弊社にも良いところが最初からそれなりにあった
• オブザーバビリティ基盤の整備 • ポストモーテムの文化づくり • 障害対応中の記録係の文化づくり SREチームを立ち上げてからやってきたこと Betsy Beyer et.
al.編, “SRE サイトリライアビリティエンジニアリング”, オライリージャパンより サービスの信頼性の階層 • 原則として「サービスの信頼性の階層」の下から登る • 固執はせずに、すぐに始められる(かつ、効果が高い)ところは手をつける
New Relicを中心に据えたオブザーバビリティ基盤の整備 • ファクトで議論し、経験・勘・想像を排除する。 • 開発チームを利用者の主体に見据え、運用のオーナシップの意識を醸成 • 本番環境からの情報は最高のフィードバック 参考 •
Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプラット フォームの導入と効果」 • Findy Toolsへレビュー寄稿しました SREチームを立ち上げてからやってきたこと(1):オブザーバビリティ基盤の整備
まずは始めることが大事 • テンプレートは、巨人の肩に素直に乗りGoogleが公開しているものをほぼそのまま利用 • https://sre.google/sre-book/example-postmortem/ • ポストモーテム会は、初期はSREがファリシしてサポート • 今は何も言わなくても開催されるように •
過去の特大Incidentの内容を、後から入社したメンバでも参照できるようになった SREチームを立ち上げてからやってきたこと(2):ポストモーテムの文化づくり
当初は「録画してるからええやろ」の風潮 報告・指示・共有のほとんどが口頭で、途中から入ってきた人は状況が全くわからない • まずは記録係をかって出る(勝手にやる) • 「良いな」と思った人が勝手に真似してくれるように。 • 暗黙的活動になってしまったので、障害対応ガイドに後追いで明文化 SREチームを立ち上げてからやってきたこと(3):障害対応中の記録係の文化づくり
障害対応のオーナーシップを開発チームに持たせたい • そのために・・・ (1) 障害対応ガイドの策定 ↓とてもお世話になりました • 「改訂新版 システム障害対応の教科書」 •
PagerDuty Incident Reponse (2) PagerDutyによる障害対応の民主化 ← 今日はここを話します! これからやりたいこと https://amzn.asia/d/gTEYfqq
PagerDutyによる障害対応の民主化
もりはや aka 林 如弥(@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング
おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」
技術書典16(2024年5月)で 『PagerDuty FANBOOK Vol.1』をコミュニティの 有志の方と一緒に頒布しました!! https://techbookfest.org/product/fdr8Dy1kLRUbaBRgeqK0wF?productVariantID=viHF6KDk2ZVHWVJmtZcfzN
イオンスマートテクノロジーで 採用したPagerDutyのプラン
- Businessプラン - Add-Onとして o PD Automation Actions o Premium
Status Page o PagerDuty AIOps 採用したPagerDutyのプラン
- Businessプラン ←多くの便利な機能 - Add-Onとして o PD Automation Actions o
Premium Status Page o PagerDuty AIOps ←今後の期待も大きい! 採用したPagerDutyのプラン
MTTAを短縮する仕組みの民主化 ※MTTA(Mean Time To Acknowledge)
MTTAを短縮する仕組みの民主化(1):PagerDuty導入前 - PagerDutyを導入する以前から、多くのミッションクリティカルのアラートに ついて、MSPを利用した迅速な検知を行うことはできていた - 一方で検知方法や範囲の展開・追加・変更を行うためにはMSPへ特定フォー マットで依頼を行う必要があり、スピード感・柔軟性・依頼自体の容易さに一 定の課題があった
MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 「オンコールスケジュール」 「エスカレーションポリシー」 「(個人ごと)通知ルール」 X X
MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 - 3つともPagerDutyの基本機能として全プランで提供される - 誰がいつオンコールを担当するかを「オンコールスケジュール」で - どの順番で通知していくかを「エスカレーションポリシー」で - 通知をどのように受け取るかを「通知ルール」で 各機能の組み合わせによって大変柔軟な通知が可能
MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 「My On-Call Shifts」 「Create Override」 X
- 「My On-Call Shifts」でカレンダー形式で自分のスケジュールを確認可能 - さらに「Create Override」を利用することで、規則性のないオンコールスケ ジュールにも対応 o 例えばパートやバイトのような、日次とか週次のような規則性がなく、毎月
の当番表で体制を組むようなケースにも対応 ▪ *管理が大変なため推奨はしない MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能
- シンプルなGUIから各機能の設定は変更できる - 設定はTerraform管理を推奨とするが、アラートを受け取る各チームが希望す る管理方法を優先 MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能
- 初めてPagerDutyを利用する方へ、操作方法などのガイドを準備 - 参考にするなら「PagerDuty利用ガイド - Responder編」がおすすめ o PagerDutyの山田さん執筆 MTTAを短縮する仕組みの民主化(2):PagerDutyの基本機能 https://qiita.com/ymotomu/items/42f825accbfca287464a
MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携 「サービス」 「インテグレーション」 「Dynamic Notifications」 X X
- PagerDutyへは主にNew RelicとAzure Monitor alertから通知 o 700以上ある「インテグレーション」に上記2つも当然対応 - 特にNew Relicの導入と展開によって各チームでアラート管理も可能に
o 参考:Future Stack Tokyo 2023「イオンのデジタルシフト戦略を支える New Relicプ ラットフォームの導入と効果」(再掲) MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携
- 「Dynamic Notifications」はNew RelicやAzure Monitor alertから PagerDutyへ通知した際のSeverityを動的に判断してHighかLowかを判定する 大変便利な機能 o Highなら電話
o Lowなら通知だけ ▪ といった運用が簡単にできる - 複雑なら「Event Orchestration」を検討 MTTAを短縮する仕組みの民主化(3):モニタリングツールとの連携
New RelicとPagerDutyのアカウントさえあ れば、各チームで簡単に迅速なアラートを作 成し、その通知をコントロールできる MTTAを短縮する仕組みの民主化(4):まとめ
PagerDutyアカウントの民主化
- PagerDutyのユーザは以下の2種類がある o Full Users: PagerDutyを利用する基本のユーザ o Stakeholder Users: オンコールは担当しない、状況を確認する向けユーザ
PagerDutyアカウントの民主化(1):ユーザの種類 現在はFull Usersのみを利用
- ユーザはEntra IDをIdPとしたSSO(Single Sign-on)で管理 - 初回のPagerDutyログイン時に自動で作成される(Auto Auto-provisioning) PagerDutyアカウントの民主化(2):Entra IDによるSingle Sign-on
- Entra ID自体はAzureアカウントやAzure DevOpsなど他用途でも利用されてきた o ”他と同じ”管理方法であるため受け入れが容易 - Entra IDのグループとユーザはHCP TerraformによるIaC管理
o ユーザ増減を希望する各チームからPRが作られSREがレビュー o 承認とマージによってデプロイが行われる PagerDutyアカウントの民主化(2):Entra IDによるSingle Sign-on
運用実績のある共通のID基盤(Entra ID)を 利用したSingle Sign-onによって、各チーム でPagerDutyの利用メンバーを容易にコント ロールできる *ただしライセンス数は限りがあるためその制御は必要 PagerDutyアカウントの民主化(3):まとめ
AIOpsによる障害対応サポート
- ChatGPT、GitHub Copilot、New Relic AIなどAI技術の恩恵はすでに体感 - PagerDutyにおいてもAIを活用したさまざまな利便性が受けられる期待 - AIOpsの価格は現在$699(Yealy Pricing)
- Businessの$41/ユーザの約17人分と考えても価値がある...はず! - 2024年7月30日に「PagerDuty Advance」が発表 AIOpsによる障害対応サポート(1):AIOpsの概要 https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/
- 「Assistant for Slack(旧名PagerDuty Copilot)」をベータで検証 - インシデントのノートの活用でかなり正確な概要を回答してくれた AIOpsによる障害対応サポート(2):Assistant for Slack
• 前半でも紹介した「どうなってるんだ」と定期的なポーリングへの1つの回答になる AIOpsによる障害対応サポート(2):Assistant for Slack
• 過去の類似インシデントを提案してくれる機能は、障害対応経験豊富な猛者が 行う「あの時の障害と似てない?」をAIが代行してくれる AIOpsによる障害対応サポート(2):Assistant for Slack
• 類似インシデントは表示も見やすい(いつ、何件、発生期間) AIOpsによる障害対応サポート(2):Assistant for Slack
• イオンスマートテクノロジーとしては"Slack"の利用があるが、関連するイオン グループ企業の標準のチャットツールは"Slack"ではなく"Teams"... AIOpsによる障害対応サポート(2):Assistant for Slack 「PagerDuty Assistant for Teams」
もお待ちしております!!!! ※ (Support for Microsoft Teams coming soon.)の記述あり https://www.pagerduty.com/blog/pagerduty-advance-genai-features-for-the-pagerduty-operations-cloud/
• 紹介した”チャットサポート”や”過去類似インシデント”機能の他も期待 • 中でも「ポストモーテムの自動生成」の機能は、社内で定着化しつつあるポス トモーテムの文化をより加速できる(小規模なインシデントでも書ける) AIOpsによる障害対応サポート(3):その他のAI機能にも期待 チャットツールとAI機能による各種サポートは、PagerDutyを直 接利用しないユーザさえも巻き込んで障害対応支援が可能となり、 「障害対応の民主化」がより進んでいく...!
まとめ
• 障害対応の改善に取り組んでいる • PagerDutyの導入はMTTA短縮や障害対応の民主化に大きく貢献 o 基本機能で柔軟なオンコールローテーションを実現 • AI機能の今後の進化にも大きな期待を寄せている o 「PagerDuty
Advance」発表にわくわくだ!! まとめ
告知
募集しています!