Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SLOの導入で失敗したこと.pdf
Search
ryotaro kobayashi
April 17, 2022
Technology
0
130
SLOの導入で失敗したこと.pdf
ryotaro kobayashi
April 17, 2022
Tweet
Share
More Decks by ryotaro kobayashi
See All by ryotaro kobayashi
なぜあなたのオブザーバビリティ導入は頓挫するのか
ryota_hnk
5
640
Information_from_Rancher_JP.pdf
ryota_hnk
0
63
Rancherのイイところとアレなところ.pdf
ryota_hnk
0
71
Splunk_on_Rancher_のススメ.pdf
ryota_hnk
0
65
cloudstackとの思い出.pdf
ryota_hnk
0
68
EC2のApache-PHPで動いてたバッチシステムをECS-Fargateに移行して運用してる話.pdf
ryota_hnk
0
610
脱Excel_OSSを組み合わせた構成管理自動化.pdf
ryota_hnk
0
62
監視ってなんだっけ_.pdf
ryota_hnk
0
120
みんなで考えるDevOps.pdf
ryota_hnk
0
66
Other Decks in Technology
See All in Technology
PLaMo2シリーズのvLLM実装 / PFN LLM セミナー
pfn
PRO
2
730
5年間のFintech × Rails実践に学ぶ - 基本に忠実な運用で築く高信頼性システム / 5 Years Fintech Rails Retrospective
ohbarye
9
3.4k
北海道の人に知ってもらいたいGISスポット / gis-spot-in-hokkaido-2025
sakaik
0
190
SOC2取得の全体像
shonansurvivors
1
340
LLMアプリケーション開発におけるセキュリティリスクと対策 / LLM Application Security
flatt_security
7
1.5k
ZOZOのAI活用実践〜社内基盤からサービス応用まで〜
zozotech
PRO
0
130
FastAPIの魔法をgRPC/Connect RPCへ
monotaro
PRO
0
470
それでも私はContextに値を詰めたい | Go Conference 2025 / go conference 2025 fill context
budougumi0617
4
900
BirdCLEF+2025 Noir 5位解法紹介
myso
0
150
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
3
20k
Why React!?? Next.jsそしてReactを改めてイチから選ぶ
ypresto
9
3.6k
PythonとLLMで挑む、 4コマ漫画の構造化データ化
esuji5
0
120
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
513
110k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Being A Developer After 40
akosma
90
590k
Embracing the Ebb and Flow
colly
88
4.8k
Writing Fast Ruby
sferik
629
62k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Mobile First: as difficult as doing things right
swwweet
224
9.9k
4 Signs Your Business is Dying
shpigford
185
22k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1.2k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
Transcript
SLOの導入で 失敗したこと 2021/12/20 ryotaro(twitter:@ryota_hnk)
Agenda 01 02 03 04 組織構成とSREチーム SLOの導入方法 振り返り 自己紹介
1. 自己紹介
• 求人検索サービスのSRE • おっさんだけど業界歴は浅い フリーター → COBOLer → Oracle DBA
→ インフラエンジニ ア → SRE • 好きな技術:TCP/IP • 苦手な技術:正規表現 ryotaro @ryota_hnk
これからお話しすることは所属組織を代 表する意見ではなく、あくまでも個人とし ての振り返りです。 組織にSLOを導入する際の参考としてご 活用いただけると幸いです。
2. 組織構成とSRE
• 各サービスごとにチームが分かれてる • 各チームが独立して運用している(イン フラ含めて) • SREは各チームに共通的な基盤や仕組 みを提供する • SREは各サービスに間接的に関わって
いる • SREチーム≠運用チーム SREの立ち位置 UI/UX チーム SRE チーム 広告 チーム データ 基盤 チーム etc
3. SLOの導入
• いろんな書籍や事例を参考に考えた • 各チームと話し合い、 CUJを中心とした SLOを作成 • エラーバジェットは水曜起算の 1週間 •
エラーバジェットが枯渇した場合は、そ のスプリントはリリース禁止 • ルールを整備して、各チームにSLO運 用をお願いした(SREは運用補助) SLOを策定
• ユーザーが 1 つの目的を達成するため に行うサービスとの一連のインタラクショ ン(1 回のクリックやマルチステップ パイ プラインなど) •
複数サービスを跨ぐため、 SLOは複数 チームでの共同運用 となった(SREはそ の補助) CUJ(Critical User Journey) PCで求人一覧を見る PCから求人広告を出す
4. 半年間の振返り
• POやMgrにはリリース禁止が痛す ぎた • リリース禁止が相次ぐと事業計画 に支障がでる • リリース作業を禁止されると、その スプリントの計画が崩れる 「リリース禁止」というワードが強すぎた
• エラーバジェット枯渇時には信頼 性回復に努める • 話し合ってポストモーテムを作成 し、再発防止に努める やりたかったこと 現実
• リリース禁止が障害の原因ではな いチームにも適用されて割を食う • 守ることに目がいって、 SLO自体を 変えようとしなくなる オーナーシップ不在 • 各チームで協力して
SLOを運用 • SLO違反時には情報を共有しあっ て解決 • SLO自体がおかしいと思ったら、 話し合いで変更する やりたかったこと 現実
• とりあえずDiscordに集まっただけ • 障害の原因になっていないチーム は時間のロスになる SLO違反の対応フローが整ってなかった • SLO違反時には各チームで協力 して対応、調査 やりたかったこと
現実
• 起算日はエラーバジェットが少な いので、起算日に障害が起きると あっという間に枯渇からリリース禁 止 • 逆に週末はエラーバジェットが溜 まってるので多少のエラーは大丈 夫というチート •
リリースミスしてすぐに切り戻しても リリース禁止になった時の悲しさ エラーバジェットに起算日を設けた • スプリントを1週間(水曜スタート)に した。スクラム開発が基本なので、 スプリントの計画に盛り込みやす いように • 次のスプリントで障害対策をできる ので、チームの機動力が上がる やりたかったこと 現実
• 「え?リリース禁止?」だけが飛び交う Slack • リリース禁止が障害のペナルティに なった • SLIで品質をみて欲しい人生だった • 「俺たちは普通に運用監視も障害対
策もできてるのに、SLOを導入するメ リットがわからんです」 想いが伝えられなかった • システム健全性の可視化 • 機能開発か信頼性向上、どちらに リソースを割くかのパラメータに SLOを使う やりたかったこと 現実
Thanks! 総括 • 詰め込みすぎたのかなという印象 • 段階的導入も放置されるリスクがある • 「人にやってもらう」難しさ • テキストだと伝わらないのか
伝えすぎてしまうのか