Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Change...
Search
SadayoshiTada
March 25, 2025
Technology
800
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
2025/03/25開催のLayerX SRE & Cloud Native Night!発表資料です。
SadayoshiTada
March 25, 2025
More Decks by SadayoshiTada
See All by SadayoshiTada
バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Agentic AI
taddy_919
2
1.7k
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
4.5k
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
1.2k
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
9.5k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
790
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
3.9k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.5k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.6k
スタートアップ企業でのAWS マルチアカウント運用の実践と普及/Practice and dissemination of AWS multi-account operation in a start-up company
taddy_919
1
5.9k
Other Decks in Technology
See All in Technology
手塩にかけりゃいいってもんじゃない
ming_ayami
0
470
Chainlitで作るお手軽チャットUI
ynt0485
0
210
エンジニアリング戦略の作り方 / Crafting Engineering Strategy
iwashi86
21
6.6k
2026TECHFRESH畢業分享會 - 葬送的通靈師:化系統與用戶雜訊成行動訊號
line_developers_tw
PRO
0
860
SONiC Scale-Up Working Group から探る Scale-UpやUltraEthernet機能の実装方法
ebiken
PRO
2
130
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
110
Oracle AI Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
6
1.5k
チームで進めるAI駆動アジャイル×ウォーターフォール
kumaiu
0
150
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
840
小さくはじめるSLI/SLO ~育てながら組織に定着させる実践知~ / Starting Small with SLI/SLOs: Building Adoption Through Continuous Growth
nari_ex
7
1.8k
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
2k
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
2
1.7k
Featured
See All Featured
The Curious Case for Waylosing
cassininazir
1
380
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
560
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
200
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
170
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
2
850
Unsuck your backbone
ammeep
672
58k
New Earth Scene 8
popppiees
3
2.3k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
Optimizing for Happiness
mojombo
378
71k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
160
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
250
Transcript
© LayerX Inc. C on fid en tial バクラクでのSystem Risk
Records導⼊による 変化と改善の取り組み 2025/03/25 多⽥貞剛(@taddy_919) LayerX SRE & Cloud Native Night!
© LayerX Inc. 2 バクラク事業部 PlatformEngineering部 SREチーム 多⽥ 貞剛 (Sadayoshi
Tada)/ taddy ⾃⼰紹介 • SIerやスタートアップを経て5社⽬ ◦ 2022/03〜 株式会社LayerX SNS 𝕏 taddy_919 tasogare0919
© LayerX Inc. 3 本発表の前提 本発表の前提 • 本発表は以前発表した内容の続きになります • 前回の発表をさらいつつ、最近の取り組みを共有させていただきま
す
目次 Agenda 1. 定期モニタリングにおける課題 2. System Risk Recordsとは 3. 導⼊時に⾏ったこと
4. 導⼊後の運⽤状況や改善事例紹介 5. まとめ
定期モニタリングにおける課題
© LayerX Inc. 6 以前の定期システムモニタリング運⽤イメージ 定期システムモニタリングにおける課題 定期的にシステムのメトリクスやログを確認し、怪しい挙動があった場 合、Slackへの投稿やバックログに積んでいた
© LayerX Inc. 7 運⽤で感じていた課題感 定期システムモニタリングにおける課題 • Slackで調査するメンバーがアサインされた際、対応ステータスが⾒ えづらかった •
バックログに追加する時、バックログに載せるべきかを判断するプ ロセスがなく取り急ぎ追加し、対応のアイテムが積み上がっていた • 対応した結果を共有されるが他のメンバーはどんな対応したかは⼤ まかに把握しているものの、どういう調査や修正の判断をしたかは ⾒えづらかった
System Risk Recordsとは
9 © LayerX Inc. System Risk Recordsとは System Risk Recordsとは
• SRE NEXT 2024で株式会社diniiの浦⼭さんが紹介された取り組み ◦ 発表資料 ◦ Zennの記事 ◦ Youtube • Google SpreadsheetとGoogle Docsでのテンプレートが公開されてい る
10 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(⼀覧画⾯)
11 © LayerX Inc. System Risk Recordsの紹介 [Template] System Risk
Records より引⽤ System Risk Recordsのイメージ(詳細画⾯) • 概要 • リスクの認知〜原因特定までのログ • 原因 • 対策⽅針 • 対策ログ • Next Action
12 © LayerX Inc. 発表を聞いての所感 System Risk Recordsとは • 弊社でもdiniiさんと同様にNotionを使っており、発表を参考に
System Risk Recordsを取り⼊れやすいと感じた • 当時プロダクトの定期モニタリングで抱えていた課題に対する改善と して参考になった ◦ 関わりのあるプロダクトチームの運⽤の中に取り込むことにした
導⼊時に⾏ったこと
© LayerX Inc. 14 System Risk Records導⼊にあたって⾏ったこと 導⼊時に⾏ったこと • リスクを起票する、Notionテンプレートとリスクを可視化する、
Notionデータベースを⽤意 • System Risk Recordsの起票および状況を確認する、定期イベントを プロダクトチームと策定 ◦ 週次でエラーログやシステムメトリクスをプロダクトチーム主体 で確認‧調査する時間を持っているので、その時間に⾏うことに した
© LayerX Inc. 15 Notionデータベースのイメージ 導⼊時に⾏ったこと
© LayerX Inc. 16 Notionのアイテムプロパティのイメージ 導⼊時に⾏ったこと • 公開済みテンプレートをベースに 設定した •
追加したプロパティとして以下が ある ◦ DatadogのURL ◦ 調査後修正する対象のバックロ グのリンク ◦ ポストモーテム後のアクション アイテムのリンク
© LayerX Inc. 17 Notionテンプレートイメージ 導⼊時に⾏ったこと • こちらもテンプレートをベー スに記載する項⽬を設定した ◦
概要 ◦ リスクの認知〜原因特定ま でのログ ◦ 原因 ◦ 対策 ◦ Next Action
© LayerX Inc. 18 System Risk Records導入で改善できたこと 導入時に行ったこと • アサインメンバーの対応状況がNotionに残るようになった
◦ 調査後修正を行う場合、バックログで対応を行うフローができた ◦ 後から見た時に他の関係者が調査・修正のプロセスを確認できるよう になった • 異常な挙動に対する調査・修正に対して、今後のリスクとその優先度が 可視化されるようになった
導⼊後の運⽤や改善事例紹介
© LayerX Inc. 20 作った運⽤フローでの課題 導⼊後の運⽤や改善事例紹介 • リスクの粒度が細かすぎたり、短期で調査‧解消できるリスクを積ん でもらった結果、登録されたアイテムが1ヶ⽉強ほどで約50件になっ ていた
• System Risk Recordsの起票と確認を週次で⾏っていたが、プロダク トチームの負担になっていた
© LayerX Inc. 21 プロダクトチームと⾏った、運⽤の⾒直し 導⼊後の運⽤や改善事例紹介 • System Risk Recordsに登録するアイテムの⽅針をプロダクトチーム
とすり合わせした ◦ 短期的に修正することが明らかなことはバックログで扱う ◦ 短期的な調査で原因究明ができず、中⻑期的に原因と対策を検討す るリスクを登録する • System Risk Recordsの起票は任意のタイミングで実施し、確認を⽉ 次に変更 • System Risk Recordsの棚卸し ◦ 昨年末に緊急度が低かったり、中⻑期で注視すべきリスクではない ものを整理した
© LayerX Inc. 22 運⽤によって起こった変化 導⼊後の運⽤や改善事例紹介 • 個別メンバーの暗黙知になっていた事象をチーム全体で認識する動き がでてきた ◦
チームでどう問題に対応するかを考える場になっている • プロダクトチームの慣習の中にリスクの⾃律的な管理‧登録
© LayerX Inc. 23 System Risk Recordsの運⽤から⽣まれた改善 導⼊後の運⽤や改善事例紹介 • プロダクトチームが関与する、サブシステ
ムでメモリ増加を観測したが、短期的な調 査で原因を特定できなかった ◦ System Risk Recordsに登録して注視する ようにした • メモリ増加の詳細な調査を⾏うために Datadog APMやProfilerを導⼊ • その後、継続的なアイテム状況確認でメモ リ増加傾向の調査を⾏い、原因を特定でき つつある
© LayerX Inc. 24 現状の課題 導⼊後の運⽤や改善事例紹介 • ⼀定運⽤が回り始めているが、課題もある ◦ 特定のメンバーにアサインが偏ってしまってしまい、進捗が滞る場合
がある ▪ 対応の優先度を上げるためにメンバーアサインを変更相談したり、状況 確認を⼊れている
© LayerX Inc. 25 今後の展望 導⼊後の運⽤や改善事例紹介 • 今後の展望としてプロダクトのロードマップ検討にも参照してもらえ るような連携を果たしていきたい ◦
プロダクトの中⻑期計画を検討する際に、参照してもらって役⽴つも のに育てていきたい
まとめ
© LayerX Inc. 27 • System Risk Recordsを継続的に取り組んでみての振り返りと得られ たことをお話しました •
プロダクトチームと協同で改善に取り組む⼿法として良いと感じてい るため、今後も継続して取り組みます まとめ まとめ