Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Search
Shogo Fukami
November 17, 2025
0
230
駆け出しSREが半年で作り上げた仕組みと学びのまとめ
Shogo Fukami
November 17, 2025
Tweet
Share
More Decks by Shogo Fukami
See All by Shogo Fukami
堅牢なフロントエンドテスト基盤を構築するために行った取り組み
shogo4131
8
2.8k
フロントエンド UIコンポーネント Shadcn/uiの良さを伝えたい!
shogo4131
0
260
本業 + 副業2社で働くエンジニアの時間術
shogo4131
0
240
スタートアップで学ぶフルリモート開発の進め方
shogo4131
0
580
フリーランスエンジニア辞めてみた!
shogo4131
0
650
Jotaiをプロジェクトに導入してみた
shogo4131
0
88
MUIは不要? React次世代コンポーネントライブラリ Mantine!!!
shogo4131
0
180
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
YesSQL, Process and Tooling at Scale
rocio
174
15k
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
3
420
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
2.8k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
110
30 Presentation Tips
portentint
PRO
1
180
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
What does AI have to do with Human Rights?
axbom
PRO
0
1.9k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.2k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
34
Transcript
駆け出しSREが半年で作り上げた 仕組みと学びのまとめ Shogo Fukami
⾃⼰紹介 名前: Shogo Fukami 所属: 株式会社カナリー 役割: テクニカルリードエンジニア(テックリード) 趣味: 週2で温泉‧サウナ
温泉ソムリエ認定 X: @react_nextjs
「SLO / SLIを策定して運⽤してください。」 「アラートの仕組みを作ってください。」
アプリケーションエンジニアの僕 「何それ美味しいの?」 状態でした
意識することなくSREのキャリアをスタートしました
課題 SLO/SLI: そもそもアプリケーションの信頼性が測れない ‧何をもって「OK」なのか基準が不明確 アラート基盤: 障害を正しく検知できない / ノイズ多い ‧「狼少年」状態のアラート →
本当の障害を⾒逃すリスク 影響 サービスの品質レベルが不明、事故の⾒逃し or アラート疲れ、
やったこと(SLO/SLI基盤) SLI定義 Datadogでの実装 SLO算出⽅法の整備 成功リクエスト率 レイテンシ Web Core Vitals エラー率
エラーバジェットアラート バーンレートアラート ダッシュボード作成 ローリング/カレンダーウィンドウ エラー予算管理
難しかったこと(SLO/SLI) PdMとのSLI/SLOの合意形成が難しい サービスレベルの⽬線合わせの必要性 対応: 反復的なアプローチで解決 ビジネス価値 ≒ お客様体験 ≒ 技術指標
① 定義候補 → ② サンプル可視化 → ③ ⼩さく運⽤ → ④ ⾒直し
やったこと(アラート基盤構築) 既存アラート棚卸しとノイズ削減 (重複‧無効‧閾値⾒直し) SentryとDatadogをDatadogに⼀本化 (集約/運⽤負荷軽減) Datadog Workflow AutomationでAIを使⽤した⼀次対応 フロー整備
難しかったこと(アラート基盤) フロントエンドのアラートは多変数: ブラウザ/OS/Bot/JSランタイムなど⼀次調査が⼤変でした 対応: Workflow AutomationでAI化調査を挟み、再現条件/影響範囲を⾃動要約 効果: 調査時間短縮、誤検知削減、優先度付けが明確に
半年で得た学び アプリケーション開発と違いSREは守りの分野だが、事業の速度を⽀える攻めの基盤でもある エンジニアを5年ぐらいやってると未経験の分野でも⼀定以上の成果は出せる いいサービスを継続していくにしてもSREの領域はアプリケーションエンジニアでも⼀度は経験し た⽅が良い
まとめ / Thank you 計測 → 合意 → ⾃動化で 「⾒える化」と「静かな運⽤」を実現
次の⼀歩: 皆さんのサービスでも SLI定義から始めてみてください ご清聴ありがとうございました