Slide 1

Slide 1 text

SRE じゃなくてもできる! インシデント対応で鍛えた CRE チームの5年史 2025/01/26 SRE Kaigi 2025 @nanaka1103 @YEngine8

Slide 2

Slide 2 text

2 1. ANDPADのターゲットの多角化 2. 開発組織とCRE 3. インシデントとCRE 4. インシデント対応の5年史 5. 課題と今後に向けて Agenda

Slide 3

Slide 3 text

© 2025 ANDPAD All Rights Reserved. 3 自己紹介 杉本 麻由香 / Mayuka Sugimoto ● @nanaka1103 ● アンドパッド CREチームのマネージャー ● 国語科教員→社内SEを経て 2020年5月 株式会社アンドパッドにCREとして入社 ● CREチームの立ち上げと業務効率化・平準化に尽力 ● 産育休から復帰後、2024年3月〜現職 ● 最近大阪に引っ越しました

Slide 4

Slide 4 text

© 2025 ANDPAD All Rights Reserved. 4 自己紹介 島根 雄也 / Yuya Shimane ● @YEngine8 ● 新卒で百貨店に総合職として入社 こども服部門で子供用品の販売管理や仕入に従事 ● 2018年9月 ラクスにテクサポとして入社し、IT業界へ CentOS, Postfix, Laravel … に触れる ● 2021年10月 アンドパッドにCREとして入社 ● 2023年10月 退社 → 24年にアンドパッドに出戻り

Slide 5

Slide 5 text

1. ANDPADのターゲットの多角化

Slide 6

Slide 6 text

Confidential © 2025 ANDPAD All Rights Reserved. 現場の効率化から経営改善まで一元管理できる クラウド型建設プロジェクト管理サービス 社 内 社 外 営業 / 監督 / 設計 事務 / 管理職 職人 / 業者 メーカー / 流通 案件管理 資料 工程表 写真 報告 チャット 黒板 図面 受発注 ● ● ● 
 6 ANDPADとは

Slide 7

Slide 7 text

© 2025 ANDPAD All Rights Reserved. 7 建築・建設業界特化型のVertical SaaS

Slide 8

Slide 8 text

© 2025 ANDPAD All Rights Reserved. 8 ANDPADのユーザーは多種・多様

Slide 9

Slide 9 text

© 2025 ANDPAD All Rights Reserved. 9 ANDPADユーザーの多角化 ゼネコン : 大型商業施設 etc. 専門工事 : 電気工事、太陽光 etc. インフラ : ガス会社、電力会社 etc. 新築 リフォーム 利用企業数 ユーザ数 20.2万 社~ 51.0万 人~ 住宅業界で2017年より拡大 専門工事・ゼネコン業界で 2020年より急成長 工事案件数 1,630万 件~

Slide 10

Slide 10 text

© 2025 ANDPAD All Rights Reserved. 10 マルチプロダクト展開 施工管理 チャット 黒板 おうちノート 図面 検査 ボード 引合粗利管理 受発注 資料承認 API連携 アプリマーケット

Slide 11

Slide 11 text

© 2025 ANDPAD All Rights Reserved. 11 多様化するユースケース より広いセクターの複雑なニーズに対応すべく、マルチプロダクト展開をしている → プロダクトの組み合わせも多様化 「このプロダクト/機能」と「このプロダクト/機能」をかけ合わせるとどうなる…? という知識が必要になってきた 1. 各プロダクト単体ではカバーしづらい内容 2. CREがプロダクトを横断したチームでもあるので対応できる

Slide 12

Slide 12 text

2. 開発組織とCRE

Slide 13

Slide 13 text

© 2025 ANDPAD All Rights Reserved. 13 Customer Reliability Engineerは顧客信頼性エンジニアと略され、Googleが提唱した役職です。 サービスを利用する顧客に対して信頼性を保つために努めることが求められます。 CREとは? アンドパッド CREのミッションとは? ミッションは 顧客がANDPADを利用して業務を円滑に進められるように、技術的アプローチによって顧客の 不安を迅速に解決するです。 そのための成果目標を下記に定めています。 1. ユーザーが少しでも早く安心できるよう、お問い合わせに対して迅速に回答する 2. ユーザーのお困りごとが早く解決するように、不具合の修正について各プロダクトチームにアプローチする 3. ユーザーが同様のお困りごとに遭遇しないようにする CREってなに?

Slide 14

Slide 14 text

© 2025 ANDPAD All Rights Reserved. 14 開発組織とCRE ● 各CREはプロダクト毎に担当を割り当てつつ、CREチームは横断的な動きをする ○ ターゲットの多角化やユースケースの多様化に伴い、プロダクト間の連携も増え、 CREやSWEが担当プロダクト外の領域の仕様を理解する必要が求められてきた ■ 各プロダクトのアーキテクチャといった担当者しか把握していなかった情報をナ レッジ化して、他プロダクトの担当者でも把握できるようにCREが整備 ○ プロダクト単体では解決しづらい課題もCREが入ることで、プロダクト間における コミュニケーションをスムーズにできる ■ インシデント発生時における定期リリースの対応ルール及び周知ルールの策定

Slide 15

Slide 15 text

© 2025 ANDPAD All Rights Reserved. 15 開発組織のチーム編成 開発本部 製品開発 データ 品質管理 SRE・DBRE CRE CRE が SRE や DBRE とは別チームで動いている Biz Field Sales Inside Sales Customer Success Customer Support

Slide 16

Slide 16 text

© 2025 ANDPAD All Rights Reserved. 開発組織のチーム編成 CREはプロダクト横断で稼働 Frontend Backend Mobile QA Frontend Backend QA Frontend Backend Mobile 開発チームA 開発チームB 開発チームC Frontend Backend 開発チームD 横断的な関心事を扱うチーム (SRE, DBRE, CRE, セキュリティ, インフラコストマネジメントなど) 16

Slide 17

Slide 17 text

© 2025 ANDPAD All Rights Reserved. 17 3つのReliabilityチーム&アンドパッドにおけるSREとCREの違い ● Site Reliability Engineer チーム ○ システム構築・アップデートの支援、パフォーマンス問題や技術的負債の解決 etc. ● DataBase Reliability Engineer チーム ○ データベースの運用保守、クエリパフォーマンス改善、監視と可視性向上 ● Customer Reliability Engineer チーム ○ テクニカルサポート、インシデント対応のサポート、UAT etc. どのチームもプロダクトを横断した動きをしている

Slide 18

Slide 18 text

© 2025 ANDPAD All Rights Reserved. 18 一般的なサポート体制 ユーザー サポート 問い合わせ エスカレーション 回答 技術的な事案の場合 回答 エンジニア ユーザーからの問い合わせに回答(技術的な事案はエンジニアにエスカレーションする)

Slide 19

Slide 19 text

© 2025 ANDPAD All Rights Reserved. 19 ANDPADにおけるサポート体制 ユーザー サポート 問い合わせ エスカレーション 回答 SWE CREはユーザーと直接のやり取りはなく、カスタマーサポートからエスカレーションされる ※ SWE = Soft Ware Engineer CRE エ ス カ レ | シ ョ ン 回答

Slide 20

Slide 20 text

3. インシデントとCRE

Slide 21

Slide 21 text

© 2025 ANDPAD All Rights Reserved. 21 インシデントとCRE インシデント時の役割分担 インシデント時にCREがやること アンドパッドにおけるポストモーテム

Slide 22

Slide 22 text

© 2025 ANDPAD All Rights Reserved. 22 インシデント時の役割分担 インシデントコマンダーと なり方針を決定する PdM ● 関連する情報を集約する ● 担当者を割り振る ● 対応方針を決める ● 関係者に対応予定を周知する 原因特定と復旧対応が最優先 SWE ● 原因を特定するための調査 ● 切り戻しや修正に伴う対応 ● 事象の内容に応じてSREやDBRE が参戦することもある 必要な情報を集める CRE ● 情報集約を行うための環境を準 備する ● 関係者に向けて周知が必要な情 報を調査・取得する ● 関係者に情報を周知する

Slide 23

Slide 23 text

© 2025 ANDPAD All Rights Reserved. 23 アンドパッドにおけるインシデントの定義 ● 機密性や完全性という観点でランクを付け、都度緊急リリースを行うか 判断するための基準を用意している ● 異常な挙動やエラーを検知したもの ● デグレと思しき事象を検知した、確認した、問い合わせを受けたもの ○ 定期リリースが起因で発生した etc. ● クライアントの業務(オペレーション)を止めているもの ○ 業務フローを進めることができない、画面が異常に重い etc. ● 回避策がない、または回避策が限定的なもの ユーザーへの 影響が大きい事案 脆弱性関連事案 アンドパッドでは大きく分けて以下の2つをインシデントと捉え、早期に復旧・解消すべく 体制を整えて迅速に対応するようにしています

Slide 24

Slide 24 text

© 2025 ANDPAD All Rights Reserved. 24 インシデント時にCREがやること インシデントchの作成 Slack Private ch 集合部屋の作成・召集 Google Meet 対応方針の確認 PdMやTechleadと協働 定期リリース停止連絡 Slack Workflow コーポレートに向けて インシデントを報告 サポートやサクセスに インシデントを報告 影響範囲を調査 Logs, Database 発覚段階 収束段階 方針決定段階 定期リリース停止解除 Slack Workflow サポートやサクセスに 復旧と影響範囲を報告 振り返りMTGの設定 (対応完了から7日以内) ポストモーテムの提出 Atlassian Cloud

Slide 25

Slide 25 text

© 2025 ANDPAD All Rights Reserved. 25 アンドパッドにおけるポストモーテム ポストモーテムとは? ※ 参照元: Postmortem Culture: Learning from Failure 1. A postmortem is a written record of an incident, its impact, the actions taken to mitigate or resolve it, the root cause(s), and the follow-up actions to prevent the incident from recurring. 2. インシデント、その影響、インシデントを軽減または解決するために 取られた措置、根本原因、およびインシデントの再発を防止するため のフォローアップ措置の文書です。 アンドパッドにおける ポストモーテムとは? 1. インシデントの概要から再発防止策までCRE含めた関係者で議論し、 開発組織のナレッジとしてまとめたドキュメントの総称及びその文化 2. ポストモーテムの目的は組織内における「学び」と考えているため、 いわゆる障害報告書や顛末書とは異なる

Slide 26

Slide 26 text

© 2025 ANDPAD All Rights Reserved. 26 ポストモーテムで書くこと インシデントの概要 Incident overview インシデントの体制 Staffing structure 対応の時系列 Chronological flow 直接原因 Trigger 根本原因 Root Causes 影響範囲 Impact 復旧対応 Restration 再発防止策 Measures to prevent 今回の学び Lessons learned 事実のまとめ 原因の分析 Next Action

Slide 27

Slide 27 text

© 2025 ANDPAD All Rights Reserved. 27 例:直接原因(実際に当社で書いたポストモーテムから抜粋) 事象の原因となったコードも変更 前と変更後の両方を記載する 🖊

Slide 28

Slide 28 text

4. インシデント対応の5年史

Slide 29

Slide 29 text

© 2025 ANDPAD All Rights Reserved. 29 インシデント対応の5年史 Before 一部のエンジニアによる属人的な対応 2020   年 属人化の排除 2021   年 インシデント対応の型化 2022   年 再発防止策の見える化 2023   年 インシデントの未然防止 2024   年 ポストモーテムのさらなる活用 2025   年 ?

Slide 30

Slide 30 text

© 2025 ANDPAD All Rights Reserved. 30 インシデント対応の5年史 Before 一部のエンジニアによる属人的な対応 2020   年 属人化の排除 2021   年 インシデント対応の型化 2022   年 再発防止策の見える化 2023   年 インシデント内容の横展開 2024   年 ポストモーテムの分析力強化 2025   年 ? 属人的な対応による課題 ● 特定の人(技術役員・一部の SREやSWE)に負荷が偏る ● 対応方法がプロダクト間でばら ばら →Biz側の混乱

Slide 31

Slide 31 text

© 2025 ANDPAD All Rights Reserved. 31 2020年後半:属人化の排除 なぜCREがインシデント対応?? SREでは??

Slide 32

Slide 32 text

© 2025 ANDPAD All Rights Reserved. 32 2020年後半:属人化の排除 過去、アンドパッドにおけるインシデントは 問合せ起点のものが多かったからです ユーザーから の問合せ インシデントの発覚経緯(2021年下期) 内部発見

Slide 33

Slide 33 text

© 2025 ANDPAD All Rights Reserved. 33 2020年:属人化の排除 ユーザー サポート 問い合わせ エスカレーション 回答 SRE SWE CRE エ ス カ レ | シ ョ ン 回答 CREの役割をおさらい

Slide 34

Slide 34 text

© 2025 ANDPAD All Rights Reserved. 34 2020年:属人化の排除 ユーザー サポート 問い合わせ エスカレーション 回答 CRE エ ス カ レ | シ ョ ン 回答 CREの役割をおさらい SRE SWE

Slide 35

Slide 35 text

© 2025 ANDPAD All Rights Reserved. 35 2020年:属人化の排除 ユーザーからの問合せ発覚なので 迅速に状況を把握し 対応予定を早く正確に伝えねばならなかった 普段Bizと連携しているCREが適任!となった

Slide 36

Slide 36 text

© 2025 ANDPAD All Rights Reserved. 36 2020年:属人化の排除 インシデント対応で気にかけたこと 下記をできるだけ早く把握すること それをBizに伝えられる形にまとめること ● 起こっていることは何か ○ 技術的な説明 ○ ユーザーの遭遇している事象 ● 誰が、何の役割をするのか ● いつまでに何ができるのか ここでSRE本での「インシデント対応」に触れる

Slide 37

Slide 37 text

© 2025 ANDPAD All Rights Reserved. 37 2021年:インシデント対応の型化 課題 2020年は無我夢中でやりながらもある程度型ができてきた。 だが相変わらず「CRE以外はインシデント対応をできない」という 属人化状態は続いていた (人が変わっただけ…)

Slide 38

Slide 38 text

© 2025 ANDPAD All Rights Reserved. 38 対応 誰でも「インシデント対応」がわかるように 「やることリスト」を作成した! →これを作り開発内で共有 することで、CREが 各プロダクトの障害対応を サポートする体制が整い、 「とりあえず何か起こったら CREを呼ぶのだな」という 認識が芽生えてきた 2021年:インシデント対応の型化

Slide 39

Slide 39 text

© 2025 ANDPAD All Rights Reserved. 39 インシデント発生時にほぼ迷いなく 対応できるようになった 2021年:インシデント対応の型化

Slide 40

Slide 40 text

© 2025 ANDPAD All Rights Reserved. 40 2022年:再発防止策の見える化 課題 対応はやることリストのおかげでスムーズにできるようになってきた が、プロダクトの増加に伴い、インシデントの発生件数が増加。 発生しては振り返り再発防止策を立てているが、 再発防止策が完了したかは各プロダクト任せ… 本当に再発防止策ちゃんとやってる?? 開発で誰か把握してる?? 今までどんなインシデントが開発内であったか、みんなご存知??

Slide 41

Slide 41 text

© 2025 ANDPAD All Rights Reserved. 41 対応 スプレッドシートにポストモーテムの作成/再発防止策の実施状況を 出力し、一覧で把握できるように共有。 →CREが再発防止策の実施まで管理する体制の始まり。 再発防止策の対応期限がきたら各プロダクトに確認し、 確実に漏れなく再発防止策が実施できる体制へ もともとJIRAでポストモーテムの管理をしていたので インシデントの棚卸しは楽にできました! 2022年:再発防止策の見える化

Slide 42

Slide 42 text

© 2025 ANDPAD All Rights Reserved. 42 今までのインシデントを確認すると同時に 障害発生日や原因種別なども記載 →月に一度CREからサマリーとして インシデントの状況を共有 実際のスプレッドシートの一部 2022年:再発防止策の見える化

Slide 43

Slide 43 text

© 2025 ANDPAD All Rights Reserved. 43 インシデントと再発防止策の管理が 開発部門内でやりやすくなった 2022年:再発防止策の見える化

Slide 44

Slide 44 text

© 2025 ANDPAD All Rights Reserved. 44 2023年:インシデントの未然防止 課題 ポストモーテムの一覧もできたし インシデントを分析してこれまでを振り返る体制もできてきた。 ただし、「原因種別」等の入力内容はそれぞれのメンバーの 主観での判断に任せられていた… それって本当に元々の定義と合っているんだっけ?? どこかに定義したっけ?? それがないと分析があまり意味ないのでは??

Slide 45

Slide 45 text

© 2025 ANDPAD All Rights Reserved. 45 対応 原因種別の判断方法を定義し共有→より分析に使える指標に! 2023年:インシデントの未然防止

Slide 46

Slide 46 text

© 2025 ANDPAD All Rights Reserved. 46 対応 CREは月に一度開発部門全体に向けて 「ポストモーテムから学ぶ会」を行い、 月ごとのインシデントの分析・ポストモーテムの紹介を行っている。 そこに今回の定義付けが加わることで、 より信頼性の高い分析・共有内容になった! ポストモーテムから学ぶ会についてはテックブログにも書いたのでぜひ御覧ください! https://tech.andpad.co.jp/entry/2023/12/14/100000 2023年:インシデントの未然防止

Slide 47

Slide 47 text

© 2025 ANDPAD All Rights Reserved. 47 より正確なインシデント分析を共有・利用 できるようになった 2023年:インシデントの未然防止

Slide 48

Slide 48 text

© 2025 ANDPAD All Rights Reserved. 48 2024年:ポストモーテムのさらなる活用 課題 CREとしてインシデント分析結果を共有し続けた結果、 「インシデント発覚までの時間や解決までの 時間を知りたい」 など、分析指標としてほしいものの意見をもらうようになった。 そういえば発信している割に「どんな指標が分析に必要か?」の 見直しをあまり行っていなかったね…

Slide 49

Slide 49 text

© 2025 ANDPAD All Rights Reserved. 49 日時とインシデント発覚経 緯 開発区分や原因種別 対応 以下の項目を変更した ● 日付項目 ○ 日付のみ→日時 ○ 発生日・混入日の み →復旧日時を追加 ● 開発区分の追加 ○ どんな開発活動に 伴うインシデント だったか? 2024年:ポストモーテムのさらなる活用

Slide 50

Slide 50 text

© 2025 ANDPAD All Rights Reserved. 50 開発区分を追加したことで、開発区分ごとにどんな原因でインシデントが起きたかが見 えるようになった ※分析方法を説明するために、仮の データで描画したグラフ 2024年:ポストモーテムのさらなる活用

Slide 51

Slide 51 text

© 2025 ANDPAD All Rights Reserved. 51 プロダクトチームが本当に欲しい情報に 近づけた! 2024年:ポストモーテムのさらなる活用

Slide 52

Slide 52 text

5. 課題と今後に向けて

Slide 53

Slide 53 text

© 2025 ANDPAD All Rights Reserved. 課題 53 マルチプロダクト展開に伴う副作用 インシデントがなくならない

Slide 54

Slide 54 text

© 2025 ANDPAD All Rights Reserved. 54 マルチプロダクト展開に伴う副作用 課題 これまでのご紹介の通り、CREとしてインシデントを分析し減らすため 分析基盤を提供してきたが… マルチプロダクト展開なので ● 新しいプロダクトがどんどんできる ● プロダクト間の連携が複雑になっていく という、インシデントが減らない条件はある。

Slide 55

Slide 55 text

© 2025 ANDPAD All Rights Reserved. 55 マルチプロダクト展開に伴う副作用 課題 これまでのご紹介の通り、CREとしてインシデントを分析し減らすため 分析基盤を提供してきたが… マルチプロダクト展開なので ● 新しいプロダクトがどんどんできる ● プロダクト間の連携が複雑になっていく という、インシデントが減らない条件はある。 だが我々はインシデントを減らしたい! ゼロは無理でも増やしたくない!! それが信頼性につながると信じているので

Slide 56

Slide 56 text

© 2025 ANDPAD All Rights Reserved. 56 では何をするのか?

Slide 57

Slide 57 text

© 2025 ANDPAD All Rights Reserved. 57 インシデント対応の平準化による信頼性の向上 対応したいこと ● 新しいプロダクトでインシデントが起きてしまった際は、他のプロ ダクトと同様に迅速に対応を行えるよう体制を強化する ○ CREによるPdM・SWEサポート ○ これまでのインシデント対応のナレッジ化 ○ 煩雑なタスクの自動化 ● 強化した分析を活用して、インシデントに繋がりにくい開発活動が できるようにデータを提供・啓蒙していく

Slide 58

Slide 58 text

© 2025 ANDPAD All Rights Reserved. 58 まとめ 2020年から現在まで、CREはインシデント対応をスムーズにするため 平準化を目指してきた。 また、少しでもインシデントを減らすため、ポストモーテムから学びを生 み出すように学ぶ会を主催し分析基盤を作ってきた。 今後はこの学びの場や分析基盤を活用し、これまでのインシデントを開発 部門全体の財産として、インシデントを減らす施策に繋げていきたい。

Slide 59

Slide 59 text

© 2025 ANDPAD All Rights Reserved. 59 ご清聴ありがとうございました! https://engineer.andpad.co.jp/