Slide 1

Slide 1 text

© LayerX Inc. C on fid en tial バクラクでのSystem Risk Records導⼊による 変化と改善の取り組み 2025/03/25 多⽥貞剛(@taddy_919) LayerX SRE & Cloud Native Night!

Slide 2

Slide 2 text

© LayerX Inc. 2 バクラク事業部 PlatformEngineering部 SREチーム 多⽥ 貞剛 (Sadayoshi Tada)/ taddy ⾃⼰紹介 ● SIerやスタートアップを経て5社⽬ ○ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919   tasogare0919

Slide 3

Slide 3 text

© LayerX Inc. 3 本発表の前提 本発表の前提 ● 本発表は以前発表した内容の続きになります ● 前回の発表をさらいつつ、最近の取り組みを共有させていただきま す

Slide 4

Slide 4 text

目次 Agenda 1. 定期モニタリングにおける課題 2. System Risk Recordsとは 3. 導⼊時に⾏ったこと 4. 導⼊後の運⽤状況や改善事例紹介 5. まとめ

Slide 5

Slide 5 text

定期モニタリングにおける課題

Slide 6

Slide 6 text

© LayerX Inc. 6 以前の定期システムモニタリング運⽤イメージ 定期システムモニタリングにおける課題 定期的にシステムのメトリクスやログを確認し、怪しい挙動があった場 合、Slackへの投稿やバックログに積んでいた

Slide 7

Slide 7 text

© LayerX Inc. 7 運⽤で感じていた課題感 定期システムモニタリングにおける課題 ● Slackで調査するメンバーがアサインされた際、対応ステータスが⾒ えづらかった ● バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた ● 対応した結果を共有されるが他のメンバーはどんな対応したかは⼤ まかに把握しているものの、どういう調査や修正の判断をしたかは ⾒えづらかった

Slide 8

Slide 8 text

System Risk Recordsとは

Slide 9

Slide 9 text

9 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは ● SRE NEXT 2024で株式会社diniiの浦⼭さんが紹介された取り組み ○ 発表資料 ○ Zennの記事 ○ Youtube ● Google SpreadsheetとGoogle Docsでのテンプレートが公開されてい る

Slide 10

Slide 10 text

10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk Records より引⽤ System Risk Recordsのイメージ(⼀覧画⾯)

Slide 11

Slide 11 text

11 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk Records より引⽤ System Risk Recordsのイメージ(詳細画⾯) ● 概要 ● リスクの認知〜原因特定までのログ ● 原因 ● 対策⽅針 ● 対策ログ ● Next Action

Slide 12

Slide 12 text

12 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは ● 弊社でもdiniiさんと同様にNotionを使っており、発表を参考に System Risk Recordsを取り⼊れやすいと感じた ● 当時プロダクトの定期モニタリングで抱えていた課題に対する改善と して参考になった ○ 関わりのあるプロダクトチームの運⽤の中に取り込むことにした

Slide 13

Slide 13 text

導⼊時に⾏ったこと

Slide 14

Slide 14 text

© LayerX Inc. 14 System Risk Records導⼊にあたって⾏ったこと 導⼊時に⾏ったこと ● リスクを起票する、Notionテンプレートとリスクを可視化する、 Notionデータベースを⽤意 ● System Risk Recordsの起票および状況を確認する、定期イベントを プロダクトチームと策定 ○ 週次でエラーログやシステムメトリクスをプロダクトチーム主体 で確認‧調査する時間を持っているので、その時間に⾏うことに した

Slide 15

Slide 15 text

© LayerX Inc. 15 Notionデータベースのイメージ 導⼊時に⾏ったこと

Slide 16

Slide 16 text

© LayerX Inc. 16 Notionのアイテムプロパティのイメージ 導⼊時に⾏ったこと ● 公開済みテンプレートをベースに 設定した ● 追加したプロパティとして以下が ある ○ DatadogのURL ○ 調査後修正する対象のバックロ グのリンク ○ ポストモーテム後のアクション アイテムのリンク

Slide 17

Slide 17 text

© LayerX Inc. 17 Notionテンプレートイメージ 導⼊時に⾏ったこと ● こちらもテンプレートをベー スに記載する項⽬を設定した ○ 概要 ○ リスクの認知〜原因特定ま でのログ ○ 原因 ○ 対策 ○ Next Action

Slide 18

Slide 18 text

© LayerX Inc. 18 System Risk Records導入で改善できたこと 導入時に行ったこと ● アサインメンバーの対応状況がNotionに残るようになった ○ 調査後修正を行う場合、バックログで対応を行うフローができた ○ 後から見た時に他の関係者が調査・修正のプロセスを確認できるよう になった ● 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度が 可視化されるようになった

Slide 19

Slide 19 text

導⼊後の運⽤や改善事例紹介

Slide 20

Slide 20 text

© LayerX Inc. 20 作った運⽤フローでの課題 導⼊後の運⽤や改善事例紹介 ● リスクの粒度が細かすぎたり、短期で調査‧解消できるリスクを積ん でもらった結果、登録されたアイテムが1ヶ⽉強ほどで約50件になっ ていた ● System Risk Recordsの起票と確認を週次で⾏っていたが、プロダク トチームの負担になっていた

Slide 21

Slide 21 text

© LayerX Inc. 21 プロダクトチームと⾏った、運⽤の⾒直し 導⼊後の運⽤や改善事例紹介 ● System Risk Recordsに登録するアイテムの⽅針をプロダクトチーム とすり合わせした ○ 短期的に修正することが明らかなことはバックログで扱う ○ 短期的な調査で原因究明ができず、中⻑期的に原因と対策を検討す るリスクを登録する ● System Risk Recordsの起票は任意のタイミングで実施し、確認を⽉ 次に変更 ● System Risk Recordsの棚卸し ○ 昨年末に緊急度が低かったり、中⻑期で注視すべきリスクではない ものを整理した

Slide 22

Slide 22 text

© LayerX Inc. 22 運⽤によって起こった変化 導⼊後の運⽤や改善事例紹介 ● 個別メンバーの暗黙知になっていた事象をチーム全体で認識する動き がでてきた ○ チームでどう問題に対応するかを考える場になっている ● プロダクトチームの慣習の中にリスクの⾃律的な管理‧登録

Slide 23

Slide 23 text

© LayerX Inc. 23 System Risk Recordsの運⽤から⽣まれた改善 導⼊後の運⽤や改善事例紹介 ● プロダクトチームが関与する、サブシステ ムでメモリ増加を観測したが、短期的な調 査で原因を特定できなかった ○ System Risk Recordsに登録して注視する ようにした ● メモリ増加の詳細な調査を⾏うために Datadog APMやProfilerを導⼊ ● その後、継続的なアイテム状況確認でメモ リ増加傾向の調査を⾏い、原因を特定でき つつある

Slide 24

Slide 24 text

© LayerX Inc. 24 現状の課題 導⼊後の運⽤や改善事例紹介 ● ⼀定運⽤が回り始めているが、課題もある ○ 特定のメンバーにアサインが偏ってしまってしまい、進捗が滞る場合 がある ■ 対応の優先度を上げるためにメンバーアサインを変更相談したり、状況 確認を⼊れている

Slide 25

Slide 25 text

© LayerX Inc. 25 今後の展望 導⼊後の運⽤や改善事例紹介 ● 今後の展望としてプロダクトのロードマップ検討にも参照してもらえ るような連携を果たしていきたい ○ プロダクトの中⻑期計画を検討する際に、参照してもらって役⽴つも のに育てていきたい

Slide 26

Slide 26 text

まとめ

Slide 27

Slide 27 text

© LayerX Inc. 27 ● System Risk Recordsを継続的に取り組んでみての振り返りと得られ たことをお話しました ● プロダクトチームと協同で改善に取り組む⼿法として良いと感じてい るため、今後も継続して取り組みます まとめ まとめ