Slide 1

Slide 1 text

© LayerX Inc. C on fid en tial プロダクトチームへのSystem Risk Records 導入・運用事例の紹介 2024/10/30 多田貞剛(@taddy_919) SRE NEXT 2024を振り返って 〜学びをもとにした取り組み事例紹介〜

Slide 2

Slide 2 text

© LayerX Inc. 2 バクラク事業部 PlatformEngineering部 DevOpsチーム 多田 貞剛 (Sadayoshi Tada)/ taddy 自己紹介 ● SIerやスタートアップを経て5社目 ○ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919   tasogare0919

Slide 3

Slide 3 text

目次 Agenda 1. 定期システムモニタリングにおける課題 2. System Risk Recordsとは 3. 弊社内での導入・運用事例紹介 4. まとめ

Slide 4

Slide 4 text

定期システムモニタリングにおける課題

Slide 5

Slide 5 text

© LayerX Inc. 5 定期システムモニタリングの運用イメージ 定期システムモニタリングにおける課題 定期的にシステムのメトリクスやログを確認し、怪しい挙動があった場 合、Slackへの投稿やバックログに積んでいた

Slide 6

Slide 6 text

© LayerX Inc. 6 この運用で感じていた課題感 定期システムモニタリングにおける課題 ● Slackで調査するメンバーがアサインされた際、対応ステータスが 見えづらかった ● バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた ● 対応した結果を共有されるが他のメンバーはどんな対応したかは大 まかに把握しているものの、どういう調査や修正の判断をしたかは 見えづらかった

Slide 7

Slide 7 text

System Risk Recordsとは

Slide 8

Slide 8 text

8 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは ● SRE NEXT 2024で株式会社diniiの浦山さんが紹介された取り 組み ○ 発表資料 ○ Zennの記事 ○ Youtube ● Google SpreadsheetとGoogle Docsでのテンプレートが公開 されている

Slide 9

Slide 9 text

9 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk Records より引用 System Risk Recordsのイメージ(一覧画面)

Slide 10

Slide 10 text

10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk Records より引用 System Risk Recordsのイメージ(詳細画面) ● 概要 ● リスクの認知〜原因特定までのログ ● 原因 ● 対策方針 ● 対策ログ ● Next Action

Slide 11

Slide 11 text

11 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは ● 弊社でもNotionを使っているため、発表を参考にSystem Risk Recordsを取り入れやすいと感じた ● 定期モニタリングの課題に対する改善として参考になった

Slide 12

Slide 12 text

弊社内での導入・運用事例紹介

Slide 13

Slide 13 text

© LayerX Inc. 13 弊社の運用イメージ(Notionのアイテムプロパティ) 弊社内での導入・運用事例紹介 ● 公開済みテンプレートをベースに 設定した ● 追加したプロパティとして以下が ある ○ DatadogのURL ○ 調査後修正する対象のバック ログのリンク ○ ポストモーテム後のアクショ ンアイテムのリンク

Slide 14

Slide 14 text

© LayerX Inc. 14 弊社の運用イメージ(詳細画面) 弊社内での導入・運用事例紹介 ● こちらもテンプレートをベース に記載する項目を設定した ○ 概要 ○ リスクの認知〜原因特定 までのログ ○ 原因 ○ 対策 ○ Next Action

Slide 15

Slide 15 text

© LayerX Inc. 15 System Risk Records導入後の変化や課題 弊社内での導入・運用事例紹介 ● アサインメンバーの対応状況がNotionに残るようになった ○ 調査後修正を行う場合、バックログで対応を行うフローができた ○ どういうプロセスを経て調査・修正の対応が行われたかが関係 者が確認できるようになった ● 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度 が可視化されるようになった ● 1ヶ月強ほど運用して約50件ほど登録されている ○ リスクの粒度が細かすぎたり、既に恒久対応が完了しているもの もあり管理方針を見直す

Slide 16

Slide 16 text

まとめ

Slide 17

Slide 17 text

© LayerX Inc. 17 ● SRE NEXT 2024で学んだ、System Risk Recordsを自社に 持ち帰って実践した事例を紹介しました ● これからのやっていき!もあるので、開発チームと協力して取り組ん でいきます まとめ まとめ