Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SLOの導入で失敗したこと.pdf
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
ryotaro kobayashi
April 17, 2022
Technology
150
0
Share
SLOの導入で失敗したこと.pdf
ryotaro kobayashi
April 17, 2022
More Decks by ryotaro kobayashi
See All by ryotaro kobayashi
組織で育むオブザーバビリティ
ryota_hnk
0
210
なぜあなたのオブザーバビリティ導入は頓挫するのか
ryota_hnk
5
760
Information_from_Rancher_JP.pdf
ryota_hnk
0
78
Rancherのイイところとアレなところ.pdf
ryota_hnk
0
86
Splunk_on_Rancher_のススメ.pdf
ryota_hnk
0
77
cloudstackとの思い出.pdf
ryota_hnk
0
82
EC2のApache-PHPで動いてたバッチシステムをECS-Fargateに移行して運用してる話.pdf
ryota_hnk
0
680
脱Excel_OSSを組み合わせた構成管理自動化.pdf
ryota_hnk
0
79
監視ってなんだっけ_.pdf
ryota_hnk
0
140
Other Decks in Technology
See All in Technology
AWS認定資格は本当に意味があるのか?
nrinetcom
PRO
1
230
自分のハンドルは自分で握れ! ― 自分のケイパビリティを増やし、メンバーのケイパビリティ獲得を支援する ― / Take the wheel yourself
takaking22
1
590
システムは「動く」だけでは足りない 実装編 - 非機能要件・分散システム・トレードオフをコードで見る
nwiizo
4
400
QGISプラグイン CMChangeDetector
naokimuroki
1
280
Rebirth of Software Craftsmanship in the AI Era
lemiorhan
PRO
3
870
CloudSec JP #005 後締め ~ソフトウェアサプライチェーン攻撃から開発者のシークレットを守る~
lhazy
0
210
Introduction to Sansan Meishi Maker Development Engineer
sansan33
PRO
0
390
2026年に相応しい 最先端プラグインホストの設計<del>と実装</del>
atsushieno
0
120
インフラを Excel 管理していた組織が 3 ヶ月で IaC 化されるまで
geekplus_tech
3
190
Bluesky Meetup in Tokyo vol.4 - 2023to2026
shinoharata
0
190
プロンプトエンジニアリングを超えて:自由と統制のあいだでつくる Platform × Context Engineering
yuriemori
0
210
Zero-Downtime Migration: Moving a Massive, Historic iOS App from CocoaPods to SPM and Tuist without Stopping Feature Delivery
kagemiku
0
240
Featured
See All Featured
Marketing to machines
jonoalderson
1
5.2k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.4k
Skip the Path - Find Your Career Trail
mkilby
1
100
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
240
Agile that works and the tools we love
rasmusluckow
331
21k
Writing Fast Ruby
sferik
630
63k
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
160
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
200
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
310
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.2k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2k
Transcript
SLOの導入で 失敗したこと 2021/12/20 ryotaro(twitter:@ryota_hnk)
Agenda 01 02 03 04 組織構成とSREチーム SLOの導入方法 振り返り 自己紹介
1. 自己紹介
• 求人検索サービスのSRE • おっさんだけど業界歴は浅い フリーター → COBOLer → Oracle DBA
→ インフラエンジニ ア → SRE • 好きな技術:TCP/IP • 苦手な技術:正規表現 ryotaro @ryota_hnk
これからお話しすることは所属組織を代 表する意見ではなく、あくまでも個人とし ての振り返りです。 組織にSLOを導入する際の参考としてご 活用いただけると幸いです。
2. 組織構成とSRE
• 各サービスごとにチームが分かれてる • 各チームが独立して運用している(イン フラ含めて) • SREは各チームに共通的な基盤や仕組 みを提供する • SREは各サービスに間接的に関わって
いる • SREチーム≠運用チーム SREの立ち位置 UI/UX チーム SRE チーム 広告 チーム データ 基盤 チーム etc
3. SLOの導入
• いろんな書籍や事例を参考に考えた • 各チームと話し合い、 CUJを中心とした SLOを作成 • エラーバジェットは水曜起算の 1週間 •
エラーバジェットが枯渇した場合は、そ のスプリントはリリース禁止 • ルールを整備して、各チームにSLO運 用をお願いした(SREは運用補助) SLOを策定
• ユーザーが 1 つの目的を達成するため に行うサービスとの一連のインタラクショ ン(1 回のクリックやマルチステップ パイ プラインなど) •
複数サービスを跨ぐため、 SLOは複数 チームでの共同運用 となった(SREはそ の補助) CUJ(Critical User Journey) PCで求人一覧を見る PCから求人広告を出す
4. 半年間の振返り
• POやMgrにはリリース禁止が痛す ぎた • リリース禁止が相次ぐと事業計画 に支障がでる • リリース作業を禁止されると、その スプリントの計画が崩れる 「リリース禁止」というワードが強すぎた
• エラーバジェット枯渇時には信頼 性回復に努める • 話し合ってポストモーテムを作成 し、再発防止に努める やりたかったこと 現実
• リリース禁止が障害の原因ではな いチームにも適用されて割を食う • 守ることに目がいって、 SLO自体を 変えようとしなくなる オーナーシップ不在 • 各チームで協力して
SLOを運用 • SLO違反時には情報を共有しあっ て解決 • SLO自体がおかしいと思ったら、 話し合いで変更する やりたかったこと 現実
• とりあえずDiscordに集まっただけ • 障害の原因になっていないチーム は時間のロスになる SLO違反の対応フローが整ってなかった • SLO違反時には各チームで協力 して対応、調査 やりたかったこと
現実
• 起算日はエラーバジェットが少な いので、起算日に障害が起きると あっという間に枯渇からリリース禁 止 • 逆に週末はエラーバジェットが溜 まってるので多少のエラーは大丈 夫というチート •
リリースミスしてすぐに切り戻しても リリース禁止になった時の悲しさ エラーバジェットに起算日を設けた • スプリントを1週間(水曜スタート)に した。スクラム開発が基本なので、 スプリントの計画に盛り込みやす いように • 次のスプリントで障害対策をできる ので、チームの機動力が上がる やりたかったこと 現実
• 「え?リリース禁止?」だけが飛び交う Slack • リリース禁止が障害のペナルティに なった • SLIで品質をみて欲しい人生だった • 「俺たちは普通に運用監視も障害対
策もできてるのに、SLOを導入するメ リットがわからんです」 想いが伝えられなかった • システム健全性の可視化 • 機能開発か信頼性向上、どちらに リソースを割くかのパラメータに SLOを使う やりたかったこと 現実
Thanks! 総括 • 詰め込みすぎたのかなという印象 • 段階的導入も放置されるリスクがある • 「人にやってもらう」難しさ • テキストだと伝わらないのか
伝えすぎてしまうのか