SRE不在の開発チームが障害対応と向き合った100日間 / 100 days dealing with issues without SREs

by katsukamaru

Embed

Start on current slide

Slide 1

Slide 1 text

SRE不在の開発チームが障害対応と向き合った100⽇間 SRE NEXT 2025 7/11~12(Fri~Sat)@TOC有明 2025年7⽉11⽇株式会社ログラス 1

Slide 2

Slide 2 text

2 ⾃⼰紹介株式会社ログラス開発本部プロダクト開発部 Engineering Manager 株式会社ログラス所属。クラウド基盤チームマネージャー。 2020年にログラスにジョイン。バックエンドエンジニア、クラウドエンジニアを経て、現在はEMとしてチームのマネジメントを担当。社内に⾜りないロールに挑戦し、その領域をなんとかして、誰かに渡すことを繰り返しています。勝丸真 Shin Katsumaru

Slide 3

Slide 3 text

Slide 4

Slide 4 text

今⽇の発表内容 4

Slide 5

Slide 5 text

SREがいない組織だけどインシデント対応が出来るようになりました！🤘 5

Slide 6

Slide 6 text

No 󰢃 6

Slide 7

Slide 7 text

先⼈の知恵すでにこの領域はかなり語られており、先⼈たちがどういう取り組みを⾏ってきたのかはすでに世に共有されている 7 ● システム障害対応に必要となる知識について、プロセスだけでなく体制作りや育成まで網羅的にカバーされており、まさに「教科書」 ○ まずはチームで読み合わせることに利⽤すると良さそう ○ エンジニア以外の⼈にも読んでもらえると良い ● 関⼼事が網羅されている⼀⽅で、各チームでどういうことが起こったのかという事例ではない引⽤: ⽊村誠明（2024）システム障害対応の教科書技術評論社

Slide 8

Slide 8 text

先⼈の知恵すでにこの領域はかなり語られており、先⼈たちがどういう取り組みを⾏ってきたのかが共有されている 8 ● Topotal社⾼村さんによる昨年のSRE NEXT 2024での発表 ○ インシデントレスポンス環境を評価して、現在の対応がどのレベルなのかという成熟度モデルを提案 ● 発表の中で３つの難点を指摘 ○ 難点1: 企業ごとに解決策が異なるため不確実性が⾼い ○ 難点2: ベストプラクティスの導⼊がうまくいかないケース ○ 難点3: 「組織的な対応」の期待値が企業によって異なる引⽤: https://speakerdeck.com/nari_ex/towards-an-organized-incident-response-maturity-assessment-and-im provement-steps

Slide 9

Slide 9 text

ベストプラクティスをそのまま実装したら何が起こったのか？N=1を共有する 9

Slide 10

Slide 10 text

当時のインシデント対応はどういう状況だったのか？週次で問い合わせ担当を決めて運⽤ 10 ● オンコール担当チームが週次でアサインされる ○ 等級や⼊社歴は特に考慮されていなかった ● 疑わしい問題が起こったときに、まずは１次対応をお願いしていた ○ オンコール対応チームの責務は、最も詳しいチームにエスカレーションすること今週は問い合わせ担当です通常の開発します通常の開発しますチーム① チーム② チーム③ もしかして障害では？ビジネス

Slide 11

Slide 11 text

当時のインシデント対応はどういう状況だったのか？インシデント対応はエンジニアの持ち回り 11 ● インシデント発⽣した場合リードするエンジニア（挙⼿制）+ 数名のエンジニアで対応していた今週は問い合わせ担当です通常の開発しますチーム① チーム② 障害対応しますもしかして障害では？ビジネス

Slide 12

Slide 12 text

当時のインシデント対応はどういう状況だったのか？ある時、カスタマーサクセス（CS）チームからフィードバック 12

Slide 13

Slide 13 text

当時のインシデント対応はどういう状況だったのか？エンジニアサイドは納得感があまり無かった。いい感じに解決は出来ていると思っていた（認知のズレ） 13 ● 対応するエンジニアの顧客対応へのズレがあったケース ○ インシデント発⽣ → エンジニアA「障害対応やります」 ■ 修正コードカキカキ… ○ インシデント発⽣ → エンジニアB「障害対応やります」 ■ この障害の影響を受けているお客様はA社さんだけです ■ 担当CSさんは回避策を早急にお伝え下さい ■ ⾃分はロールバック作業やります！ ● 本当にインシデントか？を確定させるまでに時間がかかっていたケース ○ エンジニア的には疑わしい状態で騒ぎすぎると、カスタマーサクセスチームの時間を取ってしまうのではないか？

Slide 14

Slide 14 text

当時のインシデント対応はどういう状況だったのか？障害対応フローは存在することは認知されていたが、障害時に対応するには平時の準備が⼗分ではなかった 14 ● 何回も対応しているメンバーはなんとなく動けていたが、フローが変更されたときに読み返すなどはしてなかった ● ⼊ってきたばかりのエンジニアは、フロー存在は知っていたが、平時に読んで習熟度を⾼める動きが出来ていなかった（オンボーディング不⾜） ● 持ち回りでやっていたせいで、継続的な改善に強いオーナーシップを持つ⼈が現れず、改善が回しにくい状態だった

Slide 15

Slide 15 text

15 閑話休題

Slide 16

Slide 16 text

インシデント対応はビジネス的になぜ⼤事なのか？ ● ビジネス視点 ○ 影響対象のお客様に通知対応‧影響度の報告 ○ 何か対応が必要になる場合は対応完了まで追い切る必要 ○ リリース想定だった機能のリリースが遅れが発⽣ ● プロダクト視点 ○ 暫定対応に加えて、恒久対応が必要（⼤きいものでは数ヶ⽉単位で対応） ○ 恒久対応のために、現在の計画を⾒直しロードマップの修正が必要障害対応が与える影響は想像以上に⼤きい 16

Slide 17

Slide 17 text

17 どのような座組みで対応してきたか

Slide 18

Slide 18 text

インシデント改善プロジェクトを⽴ち上げた専任1名と3名の兼任体制 18 ● プロジェクト改善推進メンバー専任1名（CRE担当） ○ プロジェクト改善推進メンバー、会議体の運営、タスクの実⾏ ● インシデントコマンダー候補兼任3名（勝丸はここ） ○ インシデントコマンドを学び、実際にコマンダー業を⾏う ○ インシデントコマンダーチームに学びを持ち帰り、チームとして練度を上げる ○ 指名して各事業から1名ずつ招集事業A 事業B 事業C インシデントコマンダー

Slide 19

Slide 19 text

インシデント改善プロジェクトを⽴ち上げた⽬標は3ヶ⽉で以下の３つを満たすこと 19 1⃣ インシデント対応の練度を向上させる 2⃣ 定量的なモニタリングをプロダクト開発組織に根付かせるための施策を検討、実施する 3⃣ 継続的な改善をするための体制を構築する

Slide 20

Slide 20 text

インシデント改善プロジェクトを⽴ち上げた 1⃣ インシデント対応の練度を向上させる 20 ● 課題 ○ ⼈によってインシデント対応にクオリティの差がある ○ （補⾜）開発者全員がコマンダーは⽬指さない。まずは限られた⼈で対応に差がない状態を⽬指す ○ インシデント対応が煩雑なためフローの明確化と刷新が必要 ● 達成イメージ ○ インシデントレベル定義、（障害ではない）不具合の管理⽅法についてドキュメント化され、CSと合意できている

Slide 21

Slide 21 text

インシデント改善プロジェクトを⽴ち上げた 1⃣ インシデント対応の練度を向上させる 21 ● やったこと ○ インシデントコマンダー専任化 i. ⼀時的に数⼈のエンジニアをインシデントコマンダーというロールを与えて交通整理 ○ CSが感じている課題感を改めてヒアリングし、解決すべき課題を特定 ○ インプット i. システム障害対応の教科書を読む ii. 複数⼈で外部の勉強会（Incident Response Meetup）参加 ○ プロセスの整備 i. インシデントコマンダー体制をつくる（役割を⼀時的に集約させる） ii. 障害レベル定義アップデート / 障害対応フロー図を描く ○ 社内向け発信系 i. Incident Response Meetup参加レポ共有 ii. 社内のプロダクト朝会で話す（N回） iii. Googleのブログ記事シェア ○ インシデントコマンダーでインシデント対応整理‧ふりかえり

Slide 22

Slide 22 text

インシデント改善プロジェクトを⽴ち上げた ● 変わったこと ○ 取り扱う「インシデント」とは何か？から再定義 ○ インシデントレベル定義し直し、レベルによって巻き込む⼈を再定義。特にCriticalなものは経営陣も追加 ○ 変更したフローで問題なく対応が出来たのか、細かく改善するループがインシデントコマンダー内で⽣まれた 22

Slide 23

Slide 23 text

インシデント改善プロジェクトを⽴ち上げた 2⃣ 定量的なモニタリングをプロダクト開発組織に根付かせるための施策を検討、実施する 23 ● 課題 ○ インシデント対応を改善していくために定量的な情報を取得できていない ● 達成イメージ ○ MTTR（平均修復時間）など必要な定量メトリクスが取得でき、インシデント対応のクオリティが可視化できている ○ インシデント対応⾃体の改善が可能になっている状態になっている

Slide 24

Slide 24 text

インシデント改善プロジェクトを⽴ち上げた 2⃣ 定量的なモニタリングをプロダクト開発組織に根付かせるための施策を検討、実施する 24 ● やったこと ○ ツール（Waroom）の導⼊を⾏い、インシデントコマンダー業務の型化と⾃動化（後述） i. 1⃣ で改善したフローを元に、対応を⾃動化を実施 ● 変わったこと ○ インシデントコマンダーが迷わずに対応出来るようになった ○ Slackのチャンネルのデータを元に⾃動でインシデントが記録され負荷軽減 ○ インシデント対応を定量的に捉えられるようになった

Slide 25

Slide 25 text

インシデント改善プロジェクトを⽴ち上げた 2⃣ 定量的なモニタリングをプロダクト開発組織に根付かせるための施策を検討、実施する 25

Slide 26

Slide 26 text

インシデント改善プロジェクトを⽴ち上げた 2⃣ 定量的なモニタリングをプロダクト開発組織に根付かせるための施策を検討、実施する 26 こちらの数字はサンプルです。実際のものではありません

Slide 27

Slide 27 text

インシデント改善プロジェクトを⽴ち上げた 3⃣ 継続的な改善をするための体制を構築する 27 ● 課題 ○ インシデント対応の改善が継続的にできる組織⽂化の状態ではなく、インシデント対応を組織にインストールするために、どのような組織で回していくのか誰も仮説を持っていない ● 達成イメージ ○ 1⃣ 2⃣ を通して継続的な改善をするための体制案を考え、Mgr陣に提⾔する ○ インシデント対応のクオリティを上げていくための体制案（正式な部だったり、有志のPJだったり）をMgr陣に提案し、2025年4⽉中に5⽉以降の体制が構築できている状態実際の作業⼯数やどれぐらいの⼈員が必要になったのかをEMに共有

Slide 28

Slide 28 text

ここで終われば... SREがいない組織だけどインシデント対応が出来るようになりました！🤘 28

Slide 29

Slide 29 text

教科書的な対応してうまくいきましたではないこともたくさん 29

Slide 30

Slide 30 text

実際に回してみるとうまくいかないことも多かった出会った世界は教科書的な世界とは全く異なっていた 30 ツールを導⼊する前に、今の改善フローの問題点を明らかにするべきではないか？今までの対応である程度上⼿く⾏ってると思っていたんだけどなインシデントレベルを⾒直すということは、今までは対応されていたものが対応されなくなる？顧客影響が⼩さいというのは、誰から⾒て⼩さいとなりますか？例えば特定のお客様だけが困っているケースなどは？

Slide 31

Slide 31 text

Slide 32

Slide 32 text

32 対話

Slide 33

Slide 33 text

対話を重ねて課題を愚直に解決していったビジネスチーム 33 ● 愚直で丁寧なコミュニケーションの積み重ねで信頼を勝ち取る ○ 考えていること、やろうとしていることをこまめに発信する ○ 最初はステークホルダーへのネガティブな影響が最⼩限になるように丁寧にコミュニケーションをし、徐々に我々としてやるべきことを主体的に推し進めていく ○ 正直、真正⾯からコミュニケーションとれず遠回りしたこともある。けど、周囲が何を期待しているのかをヒアリングしながら期待に応えるようにし、徐々に⾃分たちのやりたいことを思いとして乗せていった ○

Slide 34

Slide 34 text

対話を重ねて課題を愚直に解決していった 34

Slide 35

Slide 35 text

対話を重ねて課題を愚直に解決していったプロダクトチーム 35 ● プロセス整備だけではうまくいかないことを共有し、エンジニアリングが出来る範疇であることを共有 ○ インシデントコマンダーはスキルであることも共有 i. 最終的には⼈間的な判断は残るので、そこを⾒極めるにはある程度繰り返すしかない ○ 障害対応は⽂化作り。⽂化浸透のために何度も繰り返し重要性を説く i. 障害対応を"楽しむ"。この領域がいかに⾯⽩いかを語る ○

Slide 36

Slide 36 text

対話を重ねて課題を愚直に解決していった導⼊したツールに対して 36 ● プロダクト改善して欲しい部分も率直に伝えつつ、必要になった背景もきちんと伝える ○ 仮に⾃分たちは使っているということをアピールしつつ、仮に改善に時間がかかってもいいというスタンス ○ ⼀緒に改善していくぞという気持ちで利⽤している

Slide 37

Slide 37 text

インシデントコマンダーのこれからまだまだ対応すべきことはたくさんある 37 ● 知⾒を共有しインシデントコマンダーを増やしていく ○ まだまだ⼀部の⼈がインシデントコマンダーとなっただけで、全員インシデントコマンダーには程遠い ○ そのために、新しPJに⼊る⼈にペアインシデントコマンドなどを⾏っている ○ インシデントコマンダーとしてのオンボーディング資料を拡充 ● それぞれのチームに戻った際に、知識や経験を形式知化し、他のメンバーへ展開する仕組みは構築できていない ○ 組織全体で信頼性に取り組む⽂化を醸成するフェーズへと移⾏はもう少し時間がかかりそう ● ポストモーテムの改善 ○ 今回の登壇では対象にしなかった ○ 効果的なポストモーテムにするための改善や、恒久対応が実施しきれていないなど改善出来るポイントはある

Slide 38

Slide 38 text

プロジェクトを通しての学び気づき‧学び（エンジニア視点） 38 ● 過去に整えていたフローが段々と機能不全に陥っていた、平時準備が⼤事 ○ プロダクトの複雑化やステークホルダーの増加により、実は伝える先が増えていたなど ○ エンジニアの増加により、フローを精緻に全員が実⾏できるようになることの難しさがあった ○ 平時での準備不⾜ ● プロセス整備だけではうまくいかない ○ プロセスがワークするために⼀時的に「属⼈化」を許容した ○ ⼀⽅で責任も⽣まれる。なぜこのフローなのか？も語る i. 責任を果たすためにに、その領域を学習しベストプラクティスを学ぶ ● 対話する相⼿に理解してもらうために「なぜ？」も共有する。同時に相⼿のなぜも考える。 ○ エンジニアのなぜ？とビジネスサイドのなぜ？は違う ○ エンジニアのなぜこう思うのか？は積極的に伝える

Slide 39

Slide 39 text

プロジェクトを通しての学び気づき‧学び（マネージャー視点） 39 ● 各社イネーブルメントに困っている印象があるが、まず何⼈か選んでスキル向上を狙うのはいいのでは ○ 今回はある程度うまく⾏ったのは、毎⽇時間を取ったことが重要だった（と思う） ○ 領域を変えれば応⽤できそう i. セキュリティ ii. パフォーマンスメトリクス iii. コスト監視 ○ 継続的な投資としての「時間確保」が重要 ● 「対話のデザイン」と「期待値のマネジメント」はもう少し探索できそう ○ 「認知のズレ」をもっと早く検知するには？は、組織デザインで⼀定解消出来るのではないか？という問い ○ 週次のふりかえりに定期的に、ビジネスサイドに⼊ってもらうなどはありそう