Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Cookpad Lounge #4 SRE 座談会 SLI/SLO
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Okumura Takahiro
June 17, 2021
Technology
880
0
Share
Cookpad Lounge #4 SRE 座談会 SLI/SLO
https://cookpad.connpass.com/event/215427/
でお話した、クックパッドにおける SLI/SLO に関する取り組みについての資料です。
Okumura Takahiro
June 17, 2021
More Decks by Okumura Takahiro
See All by Okumura Takahiro
あなたの知らない データベースのロギングの世界 / logging queries
hfm
10
3.4k
MHAの次 / Next to MHA
hfm
2
2.5k
Dynamic certificate internals with ngx_mruby #nagoyark03
hfm
5
910
動的証明書読み込み ngx_mruby編 #hoscon / GMO HosCon 2016
hfm
10
4.2k
漂流する中の節目 / Career Keynote 2016 at GMO Pepabo
hfm
1
10k
Learning Configuration Management Tool / Itamae Meetup 2015
hfm
1
1.6k
Vagrant勉強会 at ペパボ (2014/2/27)
hfm
0
930
Other Decks in Technology
See All in Technology
Oracle Exadata Database Service on Cloud@Customer X11M (ExaDB-C@C) サービス概要
oracle4engineer
PRO
2
8k
20260513_生成AIを専属DSに_AI分析結果の検品テクニック_ハンズオン_交通事故データ
doradora09
PRO
0
220
Terragrunt x Snowflake + dbt で作るマルチテナントなデータ基盤構築プラットフォーム
gak_t12
0
140
100マイクロサービスのTerraform/Kubernetes管理地獄から抜け出すためのAI活用術
markie1009
0
150
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
100k
ワールドカフェ再び、そしてゴール・ルール・ロール・ツール / World Café Revisited, and the Goals-Rules-Roles-Tools
ks91
PRO
0
160
ボトムアップ限界を越える - 20チームを束る "Drive Map" / Beyond Bottom-Up: A 'Drive Map' for 20 Teams
kaonavi
0
210
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
720
みんなの考えた最強のデータ基盤アーキテクチャ'26前期〜前夜祭〜ルーキーズ_資料_遠藤な
endonanana
0
340
AIエージェントの支払い基盤 AgentCore Payments概要
kmiya84377
2
180
RedmineをAIで効率的に使う検証
yoshiokacb
0
100
Claude Code / Codex / Kiro に AWS 権限を 渡すとき、何を設計すべきか
k_adachi_01
5
1.4k
Featured
See All Featured
Speed Design
sergeychernyshev
33
1.6k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
16k
Prompt Engineering for Job Search
mfonobong
0
300
Chasing Engaging Ingredients in Design
codingconduct
0
190
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Evolving SEO for Evolving Search Engines
ryanjones
0
190
How to Think Like a Performance Engineer
csswizardry
28
2.6k
How to train your dragon (web standard)
notwaldorf
97
6.6k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
A Modern Web Designer's Workflow
chriscoyier
698
190k
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.1k
Transcript
Cookpad Lounge #4 SLI/SLO
本日のテーマ: SLI/SLO を導入した話 クックパッドマート(以降、マート)というサービスで SLI/SLO を用 いた信頼性のトラッキングを始めています。 クックパッド(以降、レシピサービス)への導入は現在進行中で す。 マートで感じた課題は何か、どのように導入してどう運用してい
るのか、現状の所感などを話します。
その前に...2020年クックパッドの SLI/SLO 2つの課題: 1. SRE チームが信頼性指標を確立・追跡できていない 2. 開発・SRE 間で信頼性の共通認識(合意形成)が曖昧 まず
1 のために、各サービスに一律で SLI/SLO (ALB のリクエ スト成功率と p90 レスポンスタイム) を設定した。
SLI/SLO の追跡 hako-console という内製の Web アプリケーションコンソールが あり、そこから SLI/SLO の Grafana
ダッシュボードがリンクされ ている > Web アプリケーションを把握するためのコンソール > https://techlife.cookpad.com/entry/2018/04/02/140846
hako-console
SLI/SLO dashboard for each service
SLI/SLO services list
一方その頃マートでは(導入動機) 2020年、急成長するマート側からの要請もあり、@hfm は embedded SRE としてマート中心に活動していた。 急成長に伴い、障害やアラートが目立つようになり、サービスの 信頼性に関する共通認識の曖昧さに課題を感じた。 「マートはいま大丈夫なの?やばいの?」を測るモノサシとして SLI/SLO
が使えると思い、導入を進めた。
playback: 2020年のクックパッドの SLI/SLO 2つの課題: 1. SRE チームが信頼性指標を確立・追跡できていない 2. 開発・SRE 間で信頼性の共通認識(合意形成)が曖昧
結果的に 2 をマートで先行していくことになった。
SLI/SLO の提案、議論、策定 Google Docs に SLI/SLO の草案を作り、開発リーダーや事業 責任者にレビューしてもらい、合意を得た。 トラッキングすべき SLI/SLO
の策定や、エラーバジェットポリ シー、障害ポリシー、エスカレーションポリシーなど継続的な運 用をするためのポリシーも提案に含まれる。 • https://sre.google/workbook/slo-document/ • https://sre.google/workbook/error-budget-policy/
提案ドキュメント
マートの SLI/SLO ダッシュボード
マートにおける SLI/SLO の運用 定期的な SLI/SLO の確認は SRE チームでも行っている。 また、マートチームでも自分たちで定期的に確認しており、また 違反時における信頼性の回復活動も自分たちで行えている。
ここまでのまとめと所感 マートの急成長に伴い、信頼性の共通認識を構築する必要を 感じたことから、SLI/SLO を提案・導入し、信頼性のトラッキング を始めた。 数値 (SLI/SLO) に加え、運用に関する各種ポリシーに大きな価 値を感じている。「SLO 違反時に、誰がいつ何をすべきか」をあ
らかじめ取り決めることで、SRE チームからスケールアウトして 運用が続けられている。
展望:レシピサービスへの SLI/SLO 導入 現在、レシピサービスでも信頼性に対する課題が生じており、 SLI/SLO の導入を進めている。大きなサービスなので巻き込む べき人も多く、大変だがやりがいは大きい。 また、アラーティングが整備しきれておらず、もっといい感じに SLI/SLO をトラッキングできる環境を用意して、開発側に提供し
ていきたい。
We are hiring https://cookpad.jobs