Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SRE不在の開発チームが障害対応と 向き合った100日間 / 100 days dealin...

SRE不在の開発チームが障害対応と 向き合った100日間 / 100 days dealing with issues without SREs

Avatar for katsukamaru

katsukamaru

July 11, 2025
Tweet

More Decks by katsukamaru

Other Decks in Technology

Transcript

  1. 3

  2. 先⼈の知恵 すでにこの領域はかなり語られており、先⼈たちがどういう取り組みを⾏ってきたのかが 共有されている 8 • Topotal社 ⾼村さんによる昨年のSRE NEXT 2024での発表 ◦

    インシデントレスポンス環境を評価して、現在の対応がど のレベルなのかという成熟度モデルを提案 • 発表の中で3つの難点を指摘 ◦ 難点1: 企業ごとに解決策が異なるため不確実性が⾼い ◦ 難点2: ベストプラクティスの導⼊がうまくいかないケース ◦ 難点3: 「組織的な対応」の期待値が企業によって異なる 引⽤: https://speakerdeck.com/nari_ex/towards-an-organized-incident-response-maturity-assessment-and-im provement-steps
  3. 当時のインシデント対応はどういう状況だったのか? 週次で問い合わせ担当を決めて運⽤ 10 • オンコール担当チームが週次でアサインされる ◦ 等級や⼊社歴は特に考慮されていなかった • 疑わしい問題が起こったときに、まずは1次対応をお願いしていた ◦

    オンコール対応チームの責務は、最も詳しいチームにエスカレーションすること 今週は問い合 わせ担当です 通常の 開発します 通常の 開発します チーム① チーム② チーム③ もしかして 障害では? ビジネス
  4. 当時のインシデント対応はどういう状況だったのか? エンジニアサイドは納得感があまり無かった。 いい感じに解決は出来ていると思っていた(認知のズレ) 13 • 対応するエンジニアの顧客対応へのズレがあったケース ◦ インシデント発⽣ → エンジニアA「障害対応やります」

    ▪ 修正コードカキカキ… ◦ インシデント発⽣ → エンジニアB「障害対応やります」 ▪ この障害の影響を受けているお客様はA社さんだけです ▪ 担当CSさんは回避策を早急にお伝え下さい ▪ ⾃分はロールバック作業やります! • 本当にインシデントか?を確定させるまでに時間がかかっていたケース ◦ エンジニア的には疑わしい状態で騒ぎすぎると、カスタマーサクセスチームの時間を取ってしまうのではないか?
  5. インシデント対応はビジネス的になぜ⼤事なのか? • ビジネス視点 ◦ 影響対象のお客様に通知対応‧影響度の報告 ◦ 何か対応が必要になる場合は対応完了まで追い切る必要 ◦ リリース想定だった機能のリリースが遅れが発⽣ •

    プロダクト視点 ◦ 暫定対応に加えて、恒久対応が必要(⼤きいものでは数ヶ⽉単位で対応) ◦ 恒久対応のために、現在の計画を⾒直しロードマップの修正が必要 障害対応が与える影響は想像以上に⼤きい 16
  6. インシデント改善プロジェクトを⽴ち上げた 専任1名と3名の兼任体制 18 • プロジェクト改善推進メンバー 専任1名(CRE担当) ◦ プロジェクト改善推進メンバー、会議体の運営、タスクの実⾏ • インシデントコマンダー候補

    兼任3名(勝丸はここ) ◦ インシデントコマンドを学び、実際にコマンダー業を⾏う ◦ インシデントコマンダーチームに学びを持ち帰り、チームとして練度を上げる ◦ 指名して各事業から1名ずつ招集 事業A 事業B 事業C インシデント コマンダー
  7. インシデント改善プロジェクトを⽴ち上げた 1⃣ インシデント対応の練度を向上させる 20 • 課題 ◦ ⼈によってインシデント対応にクオリティの差がある ◦ (補⾜)開発者全員がコマンダーは⽬指さない。まずは限られた⼈で対応に差がない状態を⽬指す

    ◦ インシデント対応が煩雑なためフローの明確化と刷新が必要 • 達成イメージ ◦ インシデントレベル定義、(障害ではない)不具合の管理⽅法についてドキュメント化され、CSと合 意できている
  8. インシデント改善プロジェクトを⽴ち上げた 1⃣ インシデント対応の練度を向上させる 21 • やったこと ◦ インシデントコマンダー専任化 i. ⼀時的に数⼈のエンジニアをインシデントコマンダーというロールを与えて交通整理

    ◦ CSが感じている課題感を改めてヒアリングし、解決すべき課題を特定 ◦ インプット i. システム障害対応の教科書を読む ii. 複数⼈で外部の勉強会(Incident Response Meetup)参加 ◦ プロセスの整備 i. インシデントコマンダー体制をつくる(役割を⼀時的に集約させる) ii. 障害レベル定義アップデート / 障害対応フロー図を描く ◦ 社内向け発信系 i. Incident Response Meetup参加レポ共有 ii. 社内のプロダクト朝会で話す(N回) iii. Googleのブログ記事シェア ◦ インシデントコマンダーでインシデント対応整理‧ふりかえり
  9. インシデント改善プロジェクトを⽴ち上げた 2⃣ 定量的なモニタリングをプロダクト開発組織に根付かせるための施策を検討、実施する 23 • 課題 ◦ インシデント対応を改善していくために定量的な情報を取得できていない • 達成イメージ

    ◦ MTTR(平均修復時間)など必要な定量メトリクスが取得でき、インシデント対応のクオリティが可視化 できている ◦ インシデント対応⾃体の改善が可能になっている状態になっている
  10. インシデント改善プロジェクトを⽴ち上げた 2⃣ 定量的なモニタリングをプロダクト開発組織に根付かせるための施策を検討、実施する 24 • やったこと ◦ ツール(Waroom)の導⼊を⾏い、インシデントコマンダー業務の型化と⾃動化(後述) i. 1⃣

    で改善したフローを元に、対応を⾃動化を実施 • 変わったこと ◦ インシデントコマンダーが迷わずに対応出来るようになった ◦ Slackのチャンネルのデータを元に⾃動でインシデントが記録され負荷軽減 ◦ インシデント対応を定量的に捉えられるようになった
  11. インシデント改善プロジェクトを⽴ち上げた 3⃣ 継続的な改善をするための体制を構築する 27 • 課題 ◦ インシデント対応の改善が継続的にできる組織⽂化の状態ではなく、インシデント対応を組織にインストールする ために、どのような組織で回していくのか誰も仮説を持っていない •

    達成イメージ ◦ 1⃣ 2⃣ を通して継続的な改善をするための体制案を考え、Mgr陣に提⾔する ◦ インシデント対応のクオリティを上げていくための体制案(正式な部だったり、有志のPJだったり)をMgr陣に提 案し、2025年4⽉中に5⽉以降の体制が構築できている状態 実際の作業⼯数やどれぐらいの⼈員が必要になったのかをEMに共有
  12. 31

  13. インシデントコマンダーのこれから まだまだ対応すべきことはたくさんある 37 • 知⾒を共有しインシデントコマンダーを増やしていく ◦ まだまだ⼀部の⼈がインシデントコマンダーとなっただけで、全員インシデントコマンダーには程遠い ◦ そのために、新しPJに⼊る⼈にペアインシデントコマンドなどを⾏っている ◦

    インシデントコマンダーとしてのオンボーディング資料を拡充 • それぞれのチームに戻った際に、知識や経験を形式知化し、他のメンバーへ展開する仕組みは構築できて いない ◦ 組織全体で信頼性に取り組む⽂化を醸成するフェーズへと移⾏はもう少し時間がかかりそう • ポストモーテムの改善 ◦ 今回の登壇では対象にしなかった ◦ 効果的なポストモーテムにするための改善や、恒久対応が実施しきれていないなど改善出来るポイントはある
  14. プロジェクトを通しての学び 気づき‧学び(エンジニア視点) 38 • 過去に整えていたフローが段々と機能不全に陥っていた、平時準備が⼤事 ◦ プロダクトの複雑化やステークホルダーの増加により、実は伝える先が増えていたなど ◦ エンジニアの増加により、フローを精緻に全員が実⾏できるようになることの難しさがあった ◦

    平時での準備不⾜ • プロセス整備だけではうまくいかない ◦ プロセスがワークするために⼀時的に「属⼈化」を許容した ◦ ⼀⽅で責任も⽣まれる。なぜこのフローなのか?も語る i. 責任を果たすためにに、その領域を学習しベストプラクティスを学ぶ • 対話する相⼿に理解してもらうために「なぜ?」も共有する。同時に相⼿のなぜも考える。 ◦ エンジニアのなぜ?とビジネスサイドのなぜ?は違う ◦ エンジニアのなぜこう思うのか?は積極的に伝える
  15. プロジェクトを通しての学び 気づき‧学び(マネージャー視点) 39 • 各社イネーブルメントに困っている印象があるが、まず何⼈か選んでスキル向上を狙うのはいいのでは ◦ 今回はある程度うまく⾏ったのは、毎⽇時間を取ったことが重要だった(と思う) ◦ 領域を変えれば応⽤できそう i.

    セキュリティ ii. パフォーマンスメトリクス iii. コスト監視 ◦ 継続的な投資としての「時間確保」が重要 • 「対話のデザイン」と「期待値のマネジメント」はもう少し探索できそう ◦ 「認知のズレ」をもっと早く検知するには?は、組織デザインで⼀定解消出来るのではないか?という問い ◦ 週次のふりかえりに定期的に、ビジネスサイドに⼊ってもらうなどはありそう
  16. 40

  17. 41