Slide 1

Slide 1 text

©MIXI Notion x ポストモーテムで 広げる組織の学び 株式会社MIXI みてね事業本部 みてねプラットフォーム部 清⽔ 勲 @isaoshimizu

Slide 2

Slide 2 text

2 ©MIXI About me ● New Relic User Group 運営メンバー ● AWS Summit Tokyo 2014/2019、SRE NEXT 2020/2022、その他SRE関連勉強会に多数登壇 ● 技術評論社「Software Design」寄稿、オライリー‧ジャパン「SREをはじめよう」翻訳レビュー ● 週末は社会⼈吹奏楽団での活動(楽団⻑、担当楽器はトロンボーン)、キャンプとクラフトビールが好き 清⽔ 勲 (X: @isaoshimizu) 株式会社MIXI みてね事業本部 みてねプラットフォーム部 部⻑(SRE/CRE/セキュリティ領域) SIer時代(受託‧⾃社開発) SNS「mixi」 モンスター ストライクなど 家族アルバム みてね 2003年 2011年 2014年 2018年 2025年 新卒⼊社 ミクシィ(現MIXI)⼊社 C/C++/C#/PHP/Python/iOS/AWS Fedora/MySQL/LXC/ OpenStack Linux/MySQL/Ruby AWS/MySQL/Ruby 2022年1⽉〜EM おもに関わった技術

Slide 3

Slide 3 text

©MIXI 家族アルバム みてね について簡単に紹介

Slide 4

Slide 4 text

家族アルバム みてねはスマホで撮った⼦どもの写真や動画を家族と共有し、 コミュニケーションして楽しむ家族アルバムサービスです。

Slide 5

Slide 5 text

ビジネスモデル ⼦どもや家族を中⼼に、より⼦育てが楽しく、安⼼‧安全につながるサービスを提供。

Slide 6

Slide 6 text

家族アルバム みてねの利⽤者数推移 2015年にリリース。7⾔語‧175の国と地域で2,500万⼈以上の⽅にご利⽤いただいています。 2015 20,000,000 15,000,000 10,000,000 5,000,000 0 2016 2017 2018 2019 2020 2021 2022 国内 海外 ※ iOS‧Android™ アプリ登録者数、ブラウザ版登録者数の合計 2023 2024 25,000,000 2025年4⽉時点 2025.4

Slide 7

Slide 7 text

©MIXI Notion x ポストモーテムで広げる組織の学び

Slide 8

Slide 8 text

8 ©MIXI ポストモーテム どんなときに作る? • ユーザーに影響のあるシステム障害、バグが発⽣した時 • 障害の規模によって作らないケースもある • ユーザーに影響はないがミスや失敗をした時 • たとえば開発環境や分析環境でのトラブル、オペレーションミスなど • 障害には⾄らなかったが⾼負荷を乗り切った記録として残すことも どこに作る? • Notionのポストモーテムページ • 以前は別のドキュメントツール(DocBase) • 直近2年くらいはNotionで管理

Slide 9

Slide 9 text

©MIXI ポストモーテムにおけるNotionの活⽤

Slide 10

Slide 10 text

10 ©MIXI ポストモーテムにおけるNotionの活⽤ Notionのテンプレートを活⽤ • ボタン⼀つでテンプレートに沿ったページを作成 • あらかじめ⽤意された項⽬や説明に従って書いていく Notion AIによるサマリ作成 • ページの上部にAIサマリのエリアを設置 • 原因や再発防⽌、タイムラインなどの記載内容から⾃動的にサマリを作成 • プロンプトは「このページの要約を3⾏程度でまとめる」 Notion AIによる検索 • たとえば「直近1ヶ⽉間のポストモーテムどんなものがあったかまとめてください」 • 障害対応Slackチャンネルのやりとりの要約

Slide 11

Slide 11 text

11 ©MIXI ポストモーテムNotionページのテンプレート • AIサマリ(以下の情報から3⾏にまとめた要約を⾃動⽣成) • 影響(ユーザー影響‧収益への影響‧CSへの影響‧etc..) • 発⽣要因(問題が発⽣するきっかけとなった要因) • 根本原因(問題が発⽣しうる状態になった原因) • 検知(問題が発⽣したことに気付いた経緯) • 暫定対応(発⽣した問題に対する暫定対応) • 再発防⽌策(詳細は次ページに記載) • 教訓 • うまくいったこと • うまくいかなかったこと • 幸運だったこと • タイムライン

Slide 12

Slide 12 text

©MIXI 再発防⽌で意識していること

Slide 13

Slide 13 text

13 ©MIXI 再発防⽌の基本 ⾮難しない(blameless) • ⼈間ではなくシステムに注⽬する • ⼼理的安全性(⾮難によって正直に話せなくなってしまわないように) ⼈間は修正できない • ⼈為的ミスを根本原因としない • 仕組み、プロセスを改善する事が⼤事 • 「気をつける」「注意深くレビューをする」「複数⼈でチェックする」は避ける • ⼈は誰でも間違いを犯す

Slide 14

Slide 14 text

14 ©MIXI 再発防⽌欄の項⽬ 予防 • 障害の再発をポジティブに防ぐにはどうしたらよいか 検出 • 同様の障害を正確に検出するまでの時間を減らすにはどうするべきか 緩和 • 次回この種の障害が起きたときの深刻度や影響度の%を減らすにはどうしたらいいか 修正 • 次回障害が検出されたときにどうすればより速く回復できるか の観点で考えられるとより良い再発防⽌策となる

Slide 15

Slide 15 text

©MIXI ポストモーテムの活⽤

Slide 16

Slide 16 text

16 ©MIXI ポストモーテムの活⽤ • Notionのポストモーテムのページは事業部の最上位に配置 • 事業に関わるすべての⼈が追加‧閲覧可能 • エンジニアにかかわらず誰でも書いてよい • ⼊社したメンバーが過去のポストモーテムから学ぶ機会にもつながる • 作成したポストモーテムはSlackのgeneralチャンネル(すべての⼈がいるチャン ネル)でも共有する • 毎週のエンジニア交流会で直近のポストモーテムを共有できる機会がある • この会では、全エンジニアが集まり、業務連絡やTips共有をしている

Slide 17

Slide 17 text

17 ©MIXI 階層とポストモーテムのリスト

Slide 18

Slide 18 text

©MIXI 障害対応におけるNotion活⽤

Slide 19

Slide 19 text

19 ©MIXI 障害対応におけるNotion活⽤ 障害対応ポータルページを⽤意。随時⼿順を追加。いわゆるRunbook。 アラート通知に紐づけて対応⼿順がすぐわかるように⼯夫。

Slide 20

Slide 20 text

©MIXI まとめ

Slide 21

Slide 21 text

21 ©MIXI まとめ • 「⾮難しない」前提がないとポストモーテムはうまくいかない • ⾮難があると学びを得られない • ⼈間の能⼒に頼った再発防⽌にしない • プロセスや仕組みを考える • ポストモーテムの情報は学びの宝庫 • 新しいメンバー、既存メンバーにとっても価値のある情報 • Notionはナレッジベースとして活⽤するのにとても便利 • テンプレートをうまく活⽤して作成の⼿間を減らす • Notion AIを活⽤して⼿間を減らす、理解を促進させる

Slide 22

Slide 22 text

©MIXI