Slide 1

Slide 1 text

イオンのSREが実践する“学びの定着” PagerDuty×ポストモーテムで築く障害対応文化 イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム 林 如弥 2025年04月24日 ポストモーテムを実践へ ─学びを組織に定着させるには─

Slide 2

Slide 2 text

目次 はじめに • 各種紹介(自己・会社) • 発生している運用課題とPagerDutyの導入背景 • 当社のポストモーテムについて • 今後の展望 • お知らせ・宣伝 2

Slide 3

Slide 3 text

各種紹介

Slide 4

Slide 4 text

自己紹介 各種紹介 もりはや aka 林 如弥(X:@morihaya55) イオンスマートテクノロジー株式会社 DevSecOps Div SREチーム所属 (2024/3入社) 趣味:Podcast鑑賞・映画鑑賞・読書・ジョギング おすすめのPodcast 「COTENラジオ」 おすすめの書籍 「数理思考モデルで紐解く RULE DESIGN」 おすすめの映画 「RRR」 4

Slide 5

Slide 5 text

5 イオングループ紹介 - 関連数字 https://www.aeon.info/company/ - "INFOGRAPHICS 数字で見るイオングループ"

Slide 6

Slide 6 text

6 イオングループ紹介 - イオンの主な事業 https://www.aeon.info/company/message/profile/ - "イオン会社案内2024 - イオンの主な事業"

Slide 7

Slide 7 text

7 会社紹介

Slide 8

Slide 8 text

8 会社紹介 2024年12月1日に、イオンアイビス株式会社のIT事業を分割・統合し、新生AST が誕生。さらなる融合に向けて鋭意邁進中。(本資料では主に統合前のAST領域 について紹介)

Slide 9

Slide 9 text

9 iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEONはイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。

Slide 10

Slide 10 text

10 iAEONアプリについて 膨大なIDと購買データを集約したアプリ「iAEON」 iAEONはイオングループが提供する決済機能やポイントプログラムを1つにまとめたアプリです。 イオングループ内の多数の事業会社がもつ顧客IDを一つのアプリに統合しています。 https://prtimes.jp/main/html/rd/p/000004399.000007505.html

Slide 11

Slide 11 text

発生している運用課題と PagerDutyの導入背景

Slide 12

Slide 12 text

発生している運用課題とPagerDutyの導入背景 当社(イオンスマートテクノロジー株式会社)が抱えてきた課題 • 鳴り響く、でも対応は不要なアラート • 一次受けとなる専任の運用チームへの高負荷 • 未成熟なポストモーテム(インシデント後のレビュー)文化 12 従来のインシデント対応の課題

Slide 13

Slide 13 text

発生している運用課題とPagerDutyの導入背景 アラートを発報するシステムは大きく2つある。 o New Relic o Azure Monitor alerts 両者のアラートの合計数は数千個に達していた。 その内"夜間休日"に迅速な対応が必要なものは僅か。 13 鳴り響く、でも対応は不要なアラート

Slide 14

Slide 14 text

発生している運用課題とPagerDutyの導入背景 これまで、複数のプロダクトからなる数千個のアラートを専任のチー ムが受けていた。 少数メンバーの責任感と体力と工夫でなんとか回していた状況。 「中身のわからないアラートを受け取り、都度開発チームへ問い合わ せを行っていた」 14 一次受けとなる専任の運用チームへの高負荷

Slide 15

Slide 15 text

発生している運用課題とPagerDutyの導入背景 2022年にSREチームが発足し、継続してきたポストモーテムの文化は 社内へ徐々に広まっている。 一方で「やったことがないから、よくわからない」とするチームもま だまだある。 15 未成熟なポストモーテム文化

Slide 16

Slide 16 text

発生している運用課題とPagerDutyの導入背景 PagerDutyはシステムのインシデント対応を一元化するプラット フォーム。これまで挙げてきた課題の解決を目的として導入を開始。 PagerDutyの一般認識は「電話をかけるSaaS」かもしれないが、それ にとどまらない多くの恩恵がある。ポストモーテムもそのひとつ。 16 PagerDutyの導入背景

Slide 17

Slide 17 text

当社のポストモーテムについて

Slide 18

Slide 18 text

当社のポストモーテムについて ポストモーテムのフォーマットはGoogleのSRE本で紹介されたものが ベースになっている。 https://sre.google/sre-book/example-postmortem/ 18 テンプレートは基本に沿っている

Slide 19

Slide 19 text

当社のポストモーテムについて 具体的には以下の項目で構成されている。 • PagerDutyのインシデントURL • 発生時刻 • 対応者(および役割) • ステータス • 概要 • 影響 • 根本原因 • 障害発生のトリガー • 解決策 19 テンプレートは基本に沿っている-2 • 検知 • アクションアイテム • 学んだ教訓 • 上手くいったこと • 上手くいかなったこと • ラッキーだったこと • タイムライン(時系列) • 参照情報(あれば)

Slide 20

Slide 20 text

当社のポストモーテムについて 基本に加えて、独自に付け加えた項目は以下の通り。 - 該当するPagerDutyのInsidentへURLリンク - 当日の役割 - インシデントコマンダー (指揮する人) - 書記係(空中戦にならないようにメモする人) - 広報係(障害報告メールの更新など) - レスポンダー(調査などの対応者) 20 テンプレートは独自の部分もある

Slide 21

Slide 21 text

当社のポストモーテムについて • 所要時間は1時間が目安(延長することもしばしば) • 司会進行はSREチームに限らず、発生したインシデントに関して詳 しい人間が行うことが多い • 参加者は数名から数十名規模 • Templateには事前に記入しておき、議論をしながら更新していく • リモート前提のオンライン形式が基本 21 ファシリテーション

Slide 22

Slide 22 text

ポストモーテムが定着に至るまで

Slide 23

Slide 23 text

ポストモーテムが定着に至るまで 障害対応は気力・体力を大きく消費するため、障害が収束した直後に 「ポストモーテムをやりましょう!!」とは基本的にならない。 「近日中に調整してやりましょう!」 意識的に呼びかける。 23 人は急にポストモーテムを始めない

Slide 24

Slide 24 text

ポストモーテムが定着に至るまで 初見だと「ポストモーテム」という横文字のインパクトが強いし怖い。 (最近では「インシデント後のレビュー(Postincident Review)」と わかりやすい呼び方も増えた?) ポストモーテム未経験チームに対し、最初の数回は経験があるSRE チームがファシリテーションを行い、お手本を見せることでやり方を 普及し、効果を実感してもらう。(SREのEnablingの一環) 24 やったことがないことを始めるのは大変

Slide 25

Slide 25 text

ポストモーテムが定着に至るまで 当社は定期的にSREチームと開発チームとでNew Relicの「だっしゅ ぼーどを眺める会」を行っており、意見の交換に抵抗が少ない。 ポストモーテムにおいてもその流れがうまく働き、アクションアイテ ムなど活発な意見がでている手応えがある。 25 日頃からの信頼関係が良いポストモーテムに繋がる

Slide 26

Slide 26 text

ポストモーテムが定着に至るまで システム障害は少ないに越したことはないが、障害が発生する都度ポ ストモーテムを作成し、ストックしていくことで資産となっていく。 やり続けることが文化として、 定着に繋がる。 26 ポストモーテムの実績が積まれると、それが普通に

Slide 27

Slide 27 text

PagerDuty導入の効果

Slide 28

Slide 28 text

PagerDuty導入の効果 PagerDutyにはポストモーテムの作成を支援する機能がある。 さらにアーリー機能としてAIによる自動下書きの作成が可能。 チャット情報等から文面を作成するのは良い体験でGAを期待できる。 28 ポストモーテムのAI下書き作成機能

Slide 29

Slide 29 text

PagerDuty導入の効果 PagerDutyを導入したことで、従来の「運用専任チームがアラートを 一括で受け取る」間接的な状態から、「開発チームが直接アラートを 受け取る」状態となった。 これにより、アラートおよび障害対応について当事者意識が増し、一 連の流れとしてポストモーテムも受け入れやすくなっている。 29 障害対応をより身近に感じ、当事者意識の醸成

Slide 30

Slide 30 text

PagerDuty導入の効果 PagerDutyを導入にあたっては「机上説明」「ハンズオントレーニン グ」を各チームへ実施。 特に「ハンズオントレーニング」は小規模な障害対応訓練に近い内容 になり、各チームの障害対応への感度を上げられた。 PagerDutyを導入していくと必然的に組織の障害対 応文化が向上していく形に...!! 30 PagerDutyの導入のために各チームを行脚

Slide 31

Slide 31 text

今後の展望

Slide 32

Slide 32 text

今後の展望 • 障害ダッシュボードの運用 o 対応状況をチャット等へ書き残すことはできているため、標準 の仕組みを整え、情報展開のスピードを加速する • 障害対応訓練の実施 o インシデントコマンダー等の役割の考え方を伝える o 組織的な報連相フローの確認 o 技術的なナレッジのシェア 32 より洗練させ、さらなる展開を目指す

Slide 33

Slide 33 text

今後の展望 • アクションアイテムのフォローアップ o 書き出しっぱなしで終わりになるケースを散見 o チケットシステムへの移行を省力化する 33 より洗練させ、さらなる展開を目指す-2

Slide 34

Slide 34 text

まとめ

Slide 35

Slide 35 text

まとめ • 2022年のSREチーム発足より、継続と工夫と実績を重ねながらポスト モーテムの文化は組織に根付きつつある • PagerDutyの導入により、機能の便利さによる直接的な恩恵と、ア ラート・障害対応への意識向上がある • 今後は障害対応訓練などを通してより迅速な障害復旧を可能とし、ポ ストモーテムによる学びを経て、お客様により良いサービスを提供し ていきたい 35 障害から学び、改善し続ける組織へ

Slide 36

Slide 36 text

お知らせ・宣伝

Slide 37

Slide 37 text

直近イベントのお知らせ お知らせ 37 https://aeon.connpass.com/event/352070/ https://aeon.connpass.com/event/349034/ いろいろやります! 5/20にはオフラインイベントも予定!!

Slide 38

Slide 38 text

お知らせ

Slide 39

Slide 39 text

幅広いポジションで積極的に採用中です!! お知らせ 39