Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
成り立ちから押さえるSRE
Search
iwamot
September 09, 2022
Technology
2
690
成り立ちから押さえるSRE
2022-09-09
ENECHANGE Tech Talk (社内勉強会)
iwamot
September 09, 2022
Tweet
Share
More Decks by iwamot
See All by iwamot
AWS Protonの概要
iwamot
0
46
ENECHANGEが実現した管理者の工数負担を削減しながらもAWSセキュリティを強化した方法とは
iwamot
0
100
Web APIのAWS Lambda移行で工夫したこと
iwamot
4
3k
ECS on FargateへのSeekable OCI導入レポート
iwamot
0
450
サービスクォータ、ちゃんと監視してますか?
iwamot
0
920
AWS Well-Architected Toolで信頼性をレビューした結果
iwamot
0
440
テックカンパニーとしてのENECHANGEの中期目標
iwamot
0
79
AIの活用状況と今後の展望
iwamot
0
62
ENECHANGE社のAWSセキュリティ改革ストーリー
iwamot
0
130
Other Decks in Technology
See All in Technology
楽しくGoを学び合う、LayerXの勉強会文化 / LayerX's study culture of having fun and learning Go together
ar_tama
2
350
年間一億円削減した時系列データベースのアーキテクチャ改善~不確実性の高いプロジェクトへの挑戦~
lycorptech_jp
PRO
3
2.9k
「我々はどこに向かっているのか」を問い続けるための仕組みづくり / Establishing a System for Continuous Inquiry about where we are
daitasu
0
170
AOAI Dev Day LLMシステム開発 Tips集
hirosatogamo
15
3.8k
Luupの開発組織におけるインシデントマネジメントの変遷 ver.RoadtoSRENEXT2024
grimoh
1
270
DevIO2024_レガシー運用からの脱却 -クラウド活用の実践事例とベストプラクティス-
jun2882
0
210
ゆめみのアクセシビリティの現在地と今後
ryokatsuse
3
290
CEL(Common Expression Language)で書いた条件にマッチしたIAM Policyを見つける / iam-policy-finder
fujiwara3
0
710
AIアシスタントの活用で品質の向上と開発ワークフローのスピードアップ
nagix
1
210
AutomatedLabを使って内部ペンテストを勉強しよう! -やられ社内ネットワークの自動構築-
n_etupirka
1
610
AOAI Dev Day - Opening Session
yoshidashingo
2
470
How to Think Like a Performance Engineer
csswizardry
4
590
Featured
See All Featured
It's Worth the Effort
3n
181
27k
A designer walks into a library…
pauljervisheath
201
24k
Web development in the modern age
philhawksworth
203
10k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
353
29k
The Straight Up "How To Draw Better" Workshop
denniskardys
229
130k
Docker and Python
trallard
37
2.9k
Designing with Data
zakiwarfel
96
5k
Being A Developer After 40
akosma
72
580k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
277
13k
How GitHub (no longer) Works
holman
305
140k
Unsuck your backbone
ammeep
666
57k
Agile that works and the tools we love
rasmusluckow
325
20k
Transcript
成り立ちから押さえるSRE 2022-09-09 ENECHANGE Tech Talk (社内勉強会) CTO室 岩本隆史 (@iwamot)
SRE略史 2003: Ben Treynor (Benjamin Treynor Sloss) 氏がGoogleに入社 Productionチームのマネジメントを担当 DevとOpsの対立を解決する「エラーバジェット」を発案
運用プラクティスを「Site Reliability Engineering (SRE)」と命名 2014: SRECon14にて同氏が基調講演 (YouTube) 2015: メルカリのインフラチームがSREチームに名称変更 2016: 『Site Reliability Engineering』出版 2018: 『The Site Reliability Workbook』出版
DevとOpsの対立 Dev: 好きなものを好きなときに邪魔なしにローンチしたい 信頼性が軽視されすぎ Ops: いったん動いたシステムは一切変更したくない 信頼性が重視されすぎ
Ben Treynor氏の気づき 100%を信頼性の目標とすることは誤り ユーザー~サービス間の可用性は99.999%よりもはるかに低い PC・Wi-Fi・ISP・電力網など多くの別システムが介在する 岩本註:CloudFrontのSLAは月間稼働率99.9%
エラーバジェットの発案 信頼性の目標が99.9%なら、0.1%のエラーは許容できる この0.1%をエラーの予算とみなす 予算を超えない限り、機能をローンチしてよい 予算を超えたら、信頼性の回復にのみフォーカスする DevとOpsが同じ目標を共有できる
SRECon14基調講演で示されたSRE (1) Hire only coders SREにはソフトウェアエンジニアリングのスキルが必要
SRECon14基調講演で示されたSRE (2) Have an SLA for your service Measure and
report performance against SLA Use Error Budgets and gate launches on them
SRECon14基調講演で示されたSRE (3) Common staffing pool for SRE and DEV Excess
Ops work overflows to DEV team Cap SRE operational load at 50% Share 5% of ops work with DEV team 運用作業 (トイル) が勤務時間の50%を超えたらDevに差し戻す トイルの例:割り込み対応・オンコール・リリース 残りの時間は主にトイル削減に費やす トイルはサービスの成長に比例する (採用では追いつかない)
SRECon14基調講演で示されたSRE (4) Oncall teams at least 8 people, or 6x2
Maximum of 2 events per on-call shift 多ければ忙しすぎ、少なければ時間の無駄
SRECon14基調講演で示されたSRE (5) Post mortem for every event Post mortems are
blameless and focus on process and technology, not people 学びがなければインシデントが繰り返される 非難は問題を隠蔽する文化を醸成する
Googleでの実例 (2011) ネットワーク運用チームの人的リソースが不足し始めた トイルが原因と気づき、自動化を進めた 1年後、手動対応は例外となった システムの信頼性がはるかに向上した 出典:ごく普通のエンジニアリング運用チームを強力な SRE チームに 変える
各プラクティスの関係性 (岩本の理解) 信頼性の目標 (SLO, Service Level Objective) 策定が最重要 信頼性を維持・改善する施策 トイルの削減
(50%ルール) 非難のないポストモーテム 適切な負荷のオンコール
参考記事 e34fmの#3からSREについての概要を文字起こししてみた Introducing Google Customer Reliability Engineering (CRE)