Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ANDPAD's Playbook: IncidentResponse & Postmortems

ANDPAD's Playbook: IncidentResponse & Postmortems

Avatar for shimaison93

shimaison93

October 30, 2025
Tweet

Other Decks in Programming

Transcript

  1. 2 1. ANDPADのターゲット 2. アンドパッドのCRE 3. インシデント対応の流れ 4. アンドパッドのポストモーテム 5.

    課題と今後に向けて ※ ANDPAD = サービス名   アンドパッド = 会社名 Agenda
  2. © 2025 ANDPAD All Rights Reserved. 3 自己紹介 杉本 麻由香

    / Mayuka Sugimoto @nanaka1103 • アンドパッド CREチームのマネージャー • 国語科教員→社内SEを経て 2020年5月 株式会社アンドパッドにCREとして入社 • CREチームの立ち上げと業務効率化・平準化に尽力 • 産育休から復帰後、2024年3月〜現職
  3. © 2025 ANDPAD All Rights Reserved. 4 自己紹介 島根 雄也

    / Yuya Shimane @YEngine8 • 新卒で百貨店に総合職として入社 • 2018年9月 Horizontal SaaSのベンダーに入社 • 2021年10月 アンドパッドにCREとして入社 • 2023年10月 退社 → 24年にアンドパッドに再入社
  4. Confidential © 2025 ANDPAD All Rights Reserved. 現場の効率化から経営改善まで一元管理できる クラウド型建設プロジェクト管理サービス 社 内

    社 外 営業 / 監督 / 設計 事務 / 管理職 職人 / 業者 メーカー / 流通 案件管理 資料 工程表 写真 報告 チャット 黒板 図面 受発注 • • • 
 6 ANDPADとは
  5. © 2025 ANDPAD All Rights Reserved. 7 Vertical SaaSのビジネスモデル 注⽂住宅

    設備⼯事 マンション修繕 ディスプレイ ゼネコン 分譲住宅 リフォーム 利用企業数 ユーザ数 23.3万 社~ 68.4万 人~ 建設業界における様々なセクターの企業・ユーザー様にご利用頂いています
  6. © 2025 ANDPAD All Rights Reserved. 8 マルチプロダクト展開 現場管理を効率化したい 工事写真の撮影・整理・台帳作成を効率化したい

    顧客と円滑にコミュニケーションしたい ・ 顧客への提出物をスムーズに作成したい 工程管理の手間を 減らしたい 円滑にコミュニケーショ ンしたい 検査や是正指示を 効率化したい 経営・営業データを 可視化したい 受発注・請求書受領を 効率化したい z 社内での承認フローを 効率化したい 断熱リフォームの効果を 可視化したい 現地調査を効率化したい 現場訪問の回数を 減らしたい 安全衛生管理を 徹底したい 社外リソースを 活用したい システム連携で効率性を 上げたい 施工管理 案件概要 資料 ボード 写真 写真台帳 黒板 黒板 AI作成 豆図AI キャプチャー デジタル サイン 報告出力 レイアウト 電子納品 おうちノート 工程表 横断 マイルストーン チャット 報告 図面 検査 Analytics 引合粗利管理 受発注 請求管理 資料承認 サーモ 3Dスキャン 遠隔臨場 入退場管理 BPO API連携 アプリ マーケット
  7. © 2025 ANDPAD All Rights Reserved. 10 Customer Reliability Engineer

    このロールは一般的にサービスを利用するユーザーに対してサービスの信頼性を保つため に努めることが求められており、アンドパッドにおいては顧客がサービスを利用して業 務を円滑に進められるよう、技術的アプローチにより顧客の不安を迅速に解決すること をミッションとしています。 メンバー単位で見るとプロダクト毎に担当を割り当てつつ、CREチームとしては部門を 横断する様な動きをしています。プロダクト単体では解決しづらい課題もCREを介すこ とでプロダクト間のコミュニケーションをより円滑に進めることが期待されます。 アンドパッドのCREチーム
  8. © 2025 ANDPAD All Rights Reserved. 開発組織のチーム編成 CRE個人は各開発チームに参画していますが、CREチームはプロダクト横断で稼働 Frontend Backend

    Mobile QA Frontend Backend QA Frontend Backend Mobile 開発チームA 開発チームB 開発チームC Frontend Backend 開発チームD 横断的に稼働(SRE, DBRE, CRE, セキュリティ, インフラコストマネジメントなど) 11 CRE CRE CRE QA
  9. © 2025 ANDPAD All Rights Reserved. 13 アンドパッドにおけるインシデントの定義 • 機密性や完全性という観点でランクを付け、都度緊急リリースを行うか

    判断するための基準を用意している • 異常な挙動やエラーを検知したもの • デグレと思しき事象を検知した、確認した、問い合わせを受けたもの ◦ 定期リリースが起因で発生した etc. • クライアントの業務(オペレーション)を止めているもの ◦ 業務フローを進めることができない、画面が異常に重い etc. • 回避策がない、または回避策が限定的なもの ユーザーへの 影響が大きい事案 脆弱性関連事案 アンドパッドでは大きく分けて以下の2つをインシデントと捉え、早期に復旧・解消すべく 体制を整えて迅速に対応するようにしています
  10. © 2025 ANDPAD All Rights Reserved. 14 インシデント時にやること インシデントchの作成 Private

    channel 集合部屋の作成・召集 Google Meet 対応方針の確認 PdMやTechleadと協働 定期リリース停止連絡 Slack Workflow コーポレートに向けて インシデントを報告 サポートやサクセスに 事象や状況を共有 影響範囲を調査 Logs, Database 発覚段階 収束段階 方針決定段階 定期リリース停止解除 Slack Workflow サポートやサクセスに 復旧と影響範囲を報告 振り返りMTGの設定 (対応完了から7日以内) ポストモーテムの提出 Atlassian Cloud
  11. © 2025 ANDPAD All Rights Reserved. 15 インシデント時の役割分担 インシデントコマンダーと なり方針を決定する

    PdM • 関連する情報を集約する • 担当者を割り振る • 対応方針を決める • 関係者に対応予定を周知する 原因特定と復旧対応が最優先 SWE • 原因を特定するための調査 • 切り戻しや修正に伴う対応 • 事象の内容に応じてSREやDBRE が参戦することもある 必要な情報を集める CRE • 情報集約を行うための環境を準 備する • 関係者に向けて周知が必要な情 報を調査・取得する • 関係者に情報を周知する
  12. © 2025 ANDPAD All Rights Reserved. 16 各所にとって必要な情報を共有する • 発生している事象を部門長などに共有する

    • インシデントの発生に伴いリリースSTOPを共有する Developに向けて • 発生している事象や影響などを関連部署に共有する • 事前に定められたchで指定のフォーマットに沿って共有する Biz に向けて • 発生している事象や影響などを共有する • 影響についてはどんな影響がどの程度あるのかなどを共有する Corporate に向けて
  13. © 2025 ANDPAD All Rights Reserved. 18 アンドパッドにおけるポストモーテム ポストモーテムとは? ※

    参照元: Postmortem Culture: Learning from Failure 1. A postmortem is a written record of an incident, its impact, the actions taken to mitigate or resolve it, the root cause(s), and the follow-up actions to prevent the incident from recurring. 2. インシデント、その影響、インシデントを軽減または解決するために 取られた措置、根本原因、およびインシデントの再発を防止するため のフォローアップ措置の文書です アンドパッドにおける ポストモーテムとは? 1. インシデントの概要から再発防止策までCRE含めた関係者で議論し、 開発組織のナレッジとしてまとめたドキュメントの総称及びその文化 2. ポストモーテムの目的は組織内における「学び」と考えているため、 いわゆる障害報告書や顛末書とは異なります
  14. © 2025 ANDPAD All Rights Reserved. 19 ポストモーテムで書くこと インシデントの概要 Incident

    overview インシデントの体制 Staffing structure 対応の時系列 Chronological flow 直接原因 Trigger 根本原因 Root Causes 影響範囲 Impact 復旧対応 Restration 再発防止策 Measures to prevent 今回の学び Lessons learned 事実のまとめ 原因の分析 Next Action
  15. © 2025 ANDPAD All Rights Reserved. 21 例:根本原因(英語版) 関連するプロダクトなどに応じて ポストモーテムを英語で作ります

    多くの開発メンバーが読むことを 前提としているため、和文も併記 初めてこのポストモーテムを 読むメンバーが事象や内容を より理解しやすくできるべく 工夫して作成しています
  16. © 2025 ANDPAD All Rights Reserved. 23 アンドパッドではポストモーテムレビューを「振り返り」と呼んでいます。 事象が解消した後、できるだけ速やかに振り返りを設定して、MTG形式で ポストモーテムを完成させていきます。

    参加者:PdM(インシデントコマンダー)、SWE、QA、CRE 具体的な流れ ポストモーテムの書き方〜振り返り〜 事象解消 ポスト モーテム 事前記載 振り返り 完成 提出
  17. © 2025 ANDPAD All Rights Reserved. 24 CREが参加する意義 CREはプロダクトチーム外の人間として関わります。 事象を明らかにして仕組みとして再発防止策を定義することが目的なので、

    利害関係の少ないCREの視点で再発防止策の提案ができることが最大のメ リット。 「ひと」ではなく「こと」に向かいやすい。 ポストモーテムの書き方〜振り返り〜
  18. © 2025 ANDPAD All Rights Reserved. 25 CREが再発防止策を管理し、完了を見届けています。 なぜCRE? プロダクトチームにまかせてきちんと終わるのが最良。

    ただ再発防止策の実施はともすると「割り込み」になり、優先度を上げられ ないことも… ここでも利害関係の少ない、そして顧客信頼性に責務のあるCREが管理する ことでスムーズな完了を目指しています。 再発防止策の管理
  19. © 2025 ANDPAD All Rights Reserved. 26 具体的にやっていること • JIRAチケット(再発防止策チケット)の管理

    ◦ 再発防止策が終わったらインシデントチャンネルを閉じる運用 • リマインダー設定 ◦ インシデントチャンネルにリマインダーを設定 ◦ 期日を管理 再発防止策の管理 再発防止策期限 ▼リマインド例
  20. © 2025 ANDPAD All Rights Reserved. 27 アンドパッドでは毎月、ポストモーテムから学ぶ会を各プロダクトチーム、 エンジニア等が対応したポストモーテムをシェアする場を設けています。 ここでは月ごとのインシデントの分析、一部ではあるもののポストモーテム

    の共有を開発部門全員で行っています。 ポストモーテムから学ぶ会については当社のテックブログにも書いているの で、ぜひ御覧ください! https://tech.andpad.co.jp/entry/2023/12/14/100000 ポストモーテムから学ぶ会
  21. © 2025 ANDPAD All Rights Reserved. 31 インシデント対応の平準化による信頼性の向上 • 新しいプロダクトでインシデントが起きてしまった際は、他のプロダ

    クトと同様に迅速に対応を行えるよう体制を強化する ◦ CREによるPdM・SWEサポート ◦ これまでのインシデント対応のナレッジ化 ◦ 煩雑なタスクの自動化 • ポストモーテム分析を活用して、インシデントに繋がりにくい開発活 動ができるようにデータを提供・啓蒙していく
  22. © 2025 ANDPAD All Rights Reserved. 32 インシデント対応の平準化による信頼性の向上 • 啓蒙活動の最近の事例

    ◦ Slackチャンネル #feed-postmortem の作成・運用 ▪ Confluence・JIRAと連携し以下のタイミングで通知 • 作成された時 • 振り返り完了後 ◦ ポストモーテムに興味を持ってもらう活動を今後も予定 発端 「ポストモーテムをリアルタイムに知りたい」「一覧で見たい」という 声に対応
  23. © 2025 ANDPAD All Rights Reserved. 33 まとめ アンドパッドのCREはインシデント対応の平準化に取り組み続けている。 また、ポストモーテム文化の醸成やポストモーテムから学びを生み出すよ

    うに学ぶ会を主催してきた。 今後もインシデント対応フローの仕組み化やより実りのある振り返り、学 ぶ会の実施を通じて、 • インシデントを迅速に解決すること • インシデントを減らすこと に尽力したい。