Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Search
Shogo Fukami
November 17, 2025
350
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Shogo Fukami
November 17, 2025
More Decks by Shogo Fukami
See All by Shogo Fukami
堅牢なフロントエンドテスト基盤を構築するために行った取り組み
shogo4131
10
3.9k
フロントエンド UIコンポーネント Shadcn/uiの良さを伝えたい!
shogo4131
0
310
本業 + 副業2社で働くエンジニアの時間術
shogo4131
0
270
スタートアップで学ぶフルリモート開発の進め方
shogo4131
0
630
フリーランスエンジニア辞めてみた!
shogo4131
0
700
Jotaiをプロジェクトに導入してみた
shogo4131
0
120
MUIは不要? React次世代コンポーネントライブラリ Mantine!!!
shogo4131
0
220
Featured
See All Featured
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.3k
Git: the NoSQL Database
bkeepers
PRO
432
67k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
350
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
2k
The Cost Of JavaScript in 2023
addyosmani
55
10k
The Limits of Empathy - UXLibs8
cassininazir
1
360
sira's awesome portfolio website redesign presentation
elsirapls
0
280
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
560
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Transcript
駆け出しSREが半年で作り上げた 仕組みと学びのまとめ Shogo Fukami
⾃⼰紹介 名前: Shogo Fukami 所属: 株式会社カナリー 役割: テクニカルリードエンジニア(テックリード) 趣味: 週2で温泉‧サウナ
温泉ソムリエ認定 X: @react_nextjs
「SLO / SLIを策定して運⽤してください。」 「アラートの仕組みを作ってください。」
アプリケーションエンジニアの僕 「何それ美味しいの?」 状態でした
意識することなくSREのキャリアをスタートしました
課題 SLO/SLI: そもそもアプリケーションの信頼性が測れない ‧何をもって「OK」なのか基準が不明確 アラート基盤: 障害を正しく検知できない / ノイズ多い ‧「狼少年」状態のアラート →
本当の障害を⾒逃すリスク 影響 サービスの品質レベルが不明、事故の⾒逃し or アラート疲れ、
やったこと(SLO/SLI基盤) SLI定義 Datadogでの実装 SLO算出⽅法の整備 成功リクエスト率 レイテンシ Web Core Vitals エラー率
エラーバジェットアラート バーンレートアラート ダッシュボード作成 ローリング/カレンダーウィンドウ エラー予算管理
難しかったこと(SLO/SLI) PdMとのSLI/SLOの合意形成が難しい サービスレベルの⽬線合わせの必要性 対応: 反復的なアプローチで解決 ビジネス価値 ≒ お客様体験 ≒ 技術指標
① 定義候補 → ② サンプル可視化 → ③ ⼩さく運⽤ → ④ ⾒直し
やったこと(アラート基盤構築) 既存アラート棚卸しとノイズ削減 (重複‧無効‧閾値⾒直し) SentryとDatadogをDatadogに⼀本化 (集約/運⽤負荷軽減) Datadog Workflow AutomationでAIを使⽤した⼀次対応 フロー整備
難しかったこと(アラート基盤) フロントエンドのアラートは多変数: ブラウザ/OS/Bot/JSランタイムなど⼀次調査が⼤変でした 対応: Workflow AutomationでAI化調査を挟み、再現条件/影響範囲を⾃動要約 効果: 調査時間短縮、誤検知削減、優先度付けが明確に
半年で得た学び アプリケーション開発と違いSREは守りの分野だが、事業の速度を⽀える攻めの基盤でもある エンジニアを5年ぐらいやってると未経験の分野でも⼀定以上の成果は出せる いいサービスを継続していくにしてもSREの領域はアプリケーションエンジニアでも⼀度は経験し た⽅が良い
まとめ / Thank you 計測 → 合意 → ⾃動化で 「⾒える化」と「静かな運⽤」を実現
次の⼀歩: 皆さんのサービスでも SLI定義から始めてみてください ご清聴ありがとうございました