Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE じゃなくてもできる! インシデント対応で鍛えた CRE チームの5年史 / Five-...

SRE じゃなくてもできる! インシデント対応で鍛えた CRE チームの5年史 / Five-year history of CRE's hard work in incident response

Mayuka Sugimoto

January 26, 2025
Tweet

More Decks by Mayuka Sugimoto

Other Decks in Business

Transcript

  1. © 2025 ANDPAD All Rights Reserved. 3 自己紹介 杉本 麻由香

    / Mayuka Sugimoto • @nanaka1103 • アンドパッド CREチームのマネージャー • 国語科教員→社内SEを経て 2020年5月 株式会社アンドパッドにCREとして入社 • CREチームの立ち上げと業務効率化・平準化に尽力 • 産育休から復帰後、2024年3月〜現職 • 最近大阪に引っ越しました
  2. © 2025 ANDPAD All Rights Reserved. 4 自己紹介 島根 雄也

    / Yuya Shimane • @YEngine8 • 新卒で百貨店に総合職として入社 こども服部門で子供用品の販売管理や仕入に従事 • 2018年9月 ラクスにテクサポとして入社し、IT業界へ CentOS, Postfix, Laravel … に触れる • 2021年10月 アンドパッドにCREとして入社 • 2023年10月 退社 → 24年にアンドパッドに出戻り
  3. Confidential © 2025 ANDPAD All Rights Reserved. 現場の効率化から経営改善まで一元管理できる クラウド型建設プロジェクト管理サービス 社 内

    社 外 営業 / 監督 / 設計 事務 / 管理職 職人 / 業者 メーカー / 流通 案件管理 資料 工程表 写真 報告 チャット 黒板 図面 受発注 • • • 
 6 ANDPADとは
  4. © 2025 ANDPAD All Rights Reserved. 9 ANDPADユーザーの多角化 ゼネコン : 大型商業施設

    etc. 専門工事 : 電気工事、太陽光 etc. インフラ : ガス会社、電力会社 etc. 新築 リフォーム 利用企業数 ユーザ数 20.2万 社~ 51.0万 人~ 住宅業界で2017年より拡大 専門工事・ゼネコン業界で 2020年より急成長 工事案件数 1,630万 件~
  5. © 2025 ANDPAD All Rights Reserved. 10 マルチプロダクト展開 施工管理 チャット

    黒板 おうちノート 図面 検査 ボード 引合粗利管理 受発注 資料承認 API連携 アプリマーケット
  6. © 2025 ANDPAD All Rights Reserved. 11 多様化するユースケース より広いセクターの複雑なニーズに対応すべく、マルチプロダクト展開をしている →

    プロダクトの組み合わせも多様化 「このプロダクト/機能」と「このプロダクト/機能」をかけ合わせるとどうなる…? という知識が必要になってきた 1. 各プロダクト単体ではカバーしづらい内容 2. CREがプロダクトを横断したチームでもあるので対応できる
  7. © 2025 ANDPAD All Rights Reserved. 13 Customer Reliability Engineerは顧客信頼性エンジニアと略され、Googleが提唱した役職です。

    サービスを利用する顧客に対して信頼性を保つために努めることが求められます。 CREとは? アンドパッド CREのミッションとは? ミッションは 顧客がANDPADを利用して業務を円滑に進められるように、技術的アプローチによって顧客の 不安を迅速に解決するです。 そのための成果目標を下記に定めています。 1. ユーザーが少しでも早く安心できるよう、お問い合わせに対して迅速に回答する 2. ユーザーのお困りごとが早く解決するように、不具合の修正について各プロダクトチームにアプローチする 3. ユーザーが同様のお困りごとに遭遇しないようにする CREってなに?
  8. © 2025 ANDPAD All Rights Reserved. 14 開発組織とCRE • 各CREはプロダクト毎に担当を割り当てつつ、CREチームは横断的な動きをする

    ◦ ターゲットの多角化やユースケースの多様化に伴い、プロダクト間の連携も増え、 CREやSWEが担当プロダクト外の領域の仕様を理解する必要が求められてきた ▪ 各プロダクトのアーキテクチャといった担当者しか把握していなかった情報をナ レッジ化して、他プロダクトの担当者でも把握できるようにCREが整備 ◦ プロダクト単体では解決しづらい課題もCREが入ることで、プロダクト間における コミュニケーションをスムーズにできる ▪ インシデント発生時における定期リリースの対応ルール及び周知ルールの策定
  9. © 2025 ANDPAD All Rights Reserved. 15 開発組織のチーム編成 開発本部 製品開発

    データ 品質管理 SRE・DBRE CRE CRE が SRE や DBRE とは別チームで動いている Biz Field Sales Inside Sales Customer Success Customer Support
  10. © 2025 ANDPAD All Rights Reserved. 開発組織のチーム編成 CREはプロダクト横断で稼働 Frontend Backend

    Mobile QA Frontend Backend QA Frontend Backend Mobile 開発チームA 開発チームB 開発チームC Frontend Backend 開発チームD 横断的な関心事を扱うチーム (SRE, DBRE, CRE, セキュリティ, インフラコストマネジメントなど) 16
  11. © 2025 ANDPAD All Rights Reserved. 17 3つのReliabilityチーム&アンドパッドにおけるSREとCREの違い • Site

    Reliability Engineer チーム ◦ システム構築・アップデートの支援、パフォーマンス問題や技術的負債の解決 etc. • DataBase Reliability Engineer チーム ◦ データベースの運用保守、クエリパフォーマンス改善、監視と可視性向上 • Customer Reliability Engineer チーム ◦ テクニカルサポート、インシデント対応のサポート、UAT etc. どのチームもプロダクトを横断した動きをしている
  12. © 2025 ANDPAD All Rights Reserved. 18 一般的なサポート体制 ユーザー サポート

    問い合わせ エスカレーション 回答 技術的な事案の場合 回答 エンジニア ユーザーからの問い合わせに回答(技術的な事案はエンジニアにエスカレーションする)
  13. © 2025 ANDPAD All Rights Reserved. 19 ANDPADにおけるサポート体制 ユーザー サポート

    問い合わせ エスカレーション 回答 SWE CREはユーザーと直接のやり取りはなく、カスタマーサポートからエスカレーションされる ※ SWE = Soft Ware Engineer CRE エ ス カ レ | シ ョ ン 回答
  14. © 2025 ANDPAD All Rights Reserved. 22 インシデント時の役割分担 インシデントコマンダーと なり方針を決定する

    PdM • 関連する情報を集約する • 担当者を割り振る • 対応方針を決める • 関係者に対応予定を周知する 原因特定と復旧対応が最優先 SWE • 原因を特定するための調査 • 切り戻しや修正に伴う対応 • 事象の内容に応じてSREやDBRE が参戦することもある 必要な情報を集める CRE • 情報集約を行うための環境を準 備する • 関係者に向けて周知が必要な情 報を調査・取得する • 関係者に情報を周知する
  15. © 2025 ANDPAD All Rights Reserved. 23 アンドパッドにおけるインシデントの定義 • 機密性や完全性という観点でランクを付け、都度緊急リリースを行うか

    判断するための基準を用意している • 異常な挙動やエラーを検知したもの • デグレと思しき事象を検知した、確認した、問い合わせを受けたもの ◦ 定期リリースが起因で発生した etc. • クライアントの業務(オペレーション)を止めているもの ◦ 業務フローを進めることができない、画面が異常に重い etc. • 回避策がない、または回避策が限定的なもの ユーザーへの 影響が大きい事案 脆弱性関連事案 アンドパッドでは大きく分けて以下の2つをインシデントと捉え、早期に復旧・解消すべく 体制を整えて迅速に対応するようにしています
  16. © 2025 ANDPAD All Rights Reserved. 24 インシデント時にCREがやること インシデントchの作成 Slack

    Private ch 集合部屋の作成・召集 Google Meet 対応方針の確認 PdMやTechleadと協働 定期リリース停止連絡 Slack Workflow コーポレートに向けて インシデントを報告 サポートやサクセスに インシデントを報告 影響範囲を調査 Logs, Database 発覚段階 収束段階 方針決定段階 定期リリース停止解除 Slack Workflow サポートやサクセスに 復旧と影響範囲を報告 振り返りMTGの設定 (対応完了から7日以内) ポストモーテムの提出 Atlassian Cloud
  17. © 2025 ANDPAD All Rights Reserved. 25 アンドパッドにおけるポストモーテム ポストモーテムとは? ※

    参照元: Postmortem Culture: Learning from Failure 1. A postmortem is a written record of an incident, its impact, the actions taken to mitigate or resolve it, the root cause(s), and the follow-up actions to prevent the incident from recurring. 2. インシデント、その影響、インシデントを軽減または解決するために 取られた措置、根本原因、およびインシデントの再発を防止するため のフォローアップ措置の文書です。 アンドパッドにおける ポストモーテムとは? 1. インシデントの概要から再発防止策までCRE含めた関係者で議論し、 開発組織のナレッジとしてまとめたドキュメントの総称及びその文化 2. ポストモーテムの目的は組織内における「学び」と考えているため、 いわゆる障害報告書や顛末書とは異なる
  18. © 2025 ANDPAD All Rights Reserved. 26 ポストモーテムで書くこと インシデントの概要 Incident

    overview インシデントの体制 Staffing structure 対応の時系列 Chronological flow 直接原因 Trigger 根本原因 Root Causes 影響範囲 Impact 復旧対応 Restration 再発防止策 Measures to prevent 今回の学び Lessons learned 事実のまとめ 原因の分析 Next Action
  19. © 2025 ANDPAD All Rights Reserved. 29 インシデント対応の5年史 Before 一部のエンジニアによる属人的な対応

    2020   年 属人化の排除 2021   年 インシデント対応の型化 2022   年 再発防止策の見える化 2023   年 インシデントの未然防止 2024   年 ポストモーテムのさらなる活用 2025   年 ?
  20. © 2025 ANDPAD All Rights Reserved. 30 インシデント対応の5年史 Before 一部のエンジニアによる属人的な対応

    2020   年 属人化の排除 2021   年 インシデント対応の型化 2022   年 再発防止策の見える化 2023   年 インシデント内容の横展開 2024   年 ポストモーテムの分析力強化 2025   年 ? 属人的な対応による課題 • 特定の人(技術役員・一部の SREやSWE)に負荷が偏る • 対応方法がプロダクト間でばら ばら →Biz側の混乱
  21. © 2025 ANDPAD All Rights Reserved. 33 2020年:属人化の排除 ユーザー サポート

    問い合わせ エスカレーション 回答 SRE SWE CRE エ ス カ レ | シ ョ ン 回答 CREの役割をおさらい
  22. © 2025 ANDPAD All Rights Reserved. 34 2020年:属人化の排除 ユーザー サポート

    問い合わせ エスカレーション 回答 CRE エ ス カ レ | シ ョ ン 回答 CREの役割をおさらい SRE SWE
  23. © 2025 ANDPAD All Rights Reserved. 35 2020年:属人化の排除 ユーザーからの問合せ発覚なので 迅速に状況を把握し

    対応予定を早く正確に伝えねばならなかった 普段Bizと連携しているCREが適任!となった
  24. © 2025 ANDPAD All Rights Reserved. 36 2020年:属人化の排除 インシデント対応で気にかけたこと 下記をできるだけ早く把握すること

    それをBizに伝えられる形にまとめること • 起こっていることは何か ◦ 技術的な説明 ◦ ユーザーの遭遇している事象 • 誰が、何の役割をするのか • いつまでに何ができるのか ここでSRE本での「インシデント対応」に触れる
  25. © 2025 ANDPAD All Rights Reserved. 37 2021年:インシデント対応の型化 課題 2020年は無我夢中でやりながらもある程度型ができてきた。

    だが相変わらず「CRE以外はインシデント対応をできない」という 属人化状態は続いていた (人が変わっただけ…)
  26. © 2025 ANDPAD All Rights Reserved. 38 対応 誰でも「インシデント対応」がわかるように 「やることリスト」を作成した!

    →これを作り開発内で共有 することで、CREが 各プロダクトの障害対応を サポートする体制が整い、 「とりあえず何か起こったら CREを呼ぶのだな」という 認識が芽生えてきた 2021年:インシデント対応の型化
  27. © 2025 ANDPAD All Rights Reserved. 40 2022年:再発防止策の見える化 課題 対応はやることリストのおかげでスムーズにできるようになってきた

    が、プロダクトの増加に伴い、インシデントの発生件数が増加。 発生しては振り返り再発防止策を立てているが、 再発防止策が完了したかは各プロダクト任せ… 本当に再発防止策ちゃんとやってる?? 開発で誰か把握してる?? 今までどんなインシデントが開発内であったか、みんなご存知??
  28. © 2025 ANDPAD All Rights Reserved. 41 対応 スプレッドシートにポストモーテムの作成/再発防止策の実施状況を 出力し、一覧で把握できるように共有。

    →CREが再発防止策の実施まで管理する体制の始まり。 再発防止策の対応期限がきたら各プロダクトに確認し、 確実に漏れなく再発防止策が実施できる体制へ もともとJIRAでポストモーテムの管理をしていたので インシデントの棚卸しは楽にできました! 2022年:再発防止策の見える化
  29. © 2025 ANDPAD All Rights Reserved. 44 2023年:インシデントの未然防止 課題 ポストモーテムの一覧もできたし

    インシデントを分析してこれまでを振り返る体制もできてきた。 ただし、「原因種別」等の入力内容はそれぞれのメンバーの 主観での判断に任せられていた… それって本当に元々の定義と合っているんだっけ?? どこかに定義したっけ?? それがないと分析があまり意味ないのでは??
  30. © 2025 ANDPAD All Rights Reserved. 46 対応 CREは月に一度開発部門全体に向けて 「ポストモーテムから学ぶ会」を行い、

    月ごとのインシデントの分析・ポストモーテムの紹介を行っている。 そこに今回の定義付けが加わることで、 より信頼性の高い分析・共有内容になった! ポストモーテムから学ぶ会についてはテックブログにも書いたのでぜひ御覧ください! https://tech.andpad.co.jp/entry/2023/12/14/100000 2023年:インシデントの未然防止
  31. © 2025 ANDPAD All Rights Reserved. 48 2024年:ポストモーテムのさらなる活用 課題 CREとしてインシデント分析結果を共有し続けた結果、

    「インシデント発覚までの時間や解決までの 時間を知りたい」 など、分析指標としてほしいものの意見をもらうようになった。 そういえば発信している割に「どんな指標が分析に必要か?」の 見直しをあまり行っていなかったね…
  32. © 2025 ANDPAD All Rights Reserved. 49 日時とインシデント発覚経 緯 開発区分や原因種別

    対応 以下の項目を変更した • 日付項目 ◦ 日付のみ→日時 ◦ 発生日・混入日の み →復旧日時を追加 • 開発区分の追加 ◦ どんな開発活動に 伴うインシデント だったか? 2024年:ポストモーテムのさらなる活用
  33. © 2025 ANDPAD All Rights Reserved. 54 マルチプロダクト展開に伴う副作用 課題 これまでのご紹介の通り、CREとしてインシデントを分析し減らすため

    分析基盤を提供してきたが… マルチプロダクト展開なので • 新しいプロダクトがどんどんできる • プロダクト間の連携が複雑になっていく という、インシデントが減らない条件はある。
  34. © 2025 ANDPAD All Rights Reserved. 55 マルチプロダクト展開に伴う副作用 課題 これまでのご紹介の通り、CREとしてインシデントを分析し減らすため

    分析基盤を提供してきたが… マルチプロダクト展開なので • 新しいプロダクトがどんどんできる • プロダクト間の連携が複雑になっていく という、インシデントが減らない条件はある。 だが我々はインシデントを減らしたい! ゼロは無理でも増やしたくない!! それが信頼性につながると信じているので
  35. © 2025 ANDPAD All Rights Reserved. 57 インシデント対応の平準化による信頼性の向上 対応したいこと •

    新しいプロダクトでインシデントが起きてしまった際は、他のプロ ダクトと同様に迅速に対応を行えるよう体制を強化する ◦ CREによるPdM・SWEサポート ◦ これまでのインシデント対応のナレッジ化 ◦ 煩雑なタスクの自動化 • 強化した分析を活用して、インシデントに繋がりにくい開発活動が できるようにデータを提供・啓蒙していく
  36. © 2025 ANDPAD All Rights Reserved. 58 まとめ 2020年から現在まで、CREはインシデント対応をスムーズにするため 平準化を目指してきた。

    また、少しでもインシデントを減らすため、ポストモーテムから学びを生 み出すように学ぶ会を主催し分析基盤を作ってきた。 今後はこの学びの場や分析基盤を活用し、これまでのインシデントを開発 部門全体の財産として、インシデントを減らす施策に繋げていきたい。