Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
超入門SRE 2025
Search
ryuichi1208
February 26, 2025
1.5k
4
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
超入門SRE 2025
ryuichi1208
February 26, 2025
More Decks by ryuichi1208
See All by ryuichi1208
入門 再発防止策
ryuichi1208
17
6.9k
金曜日デプロイ、するかしないか.pdf
ryuichi1208
1
74
会話で作る信頼性
ryuichi1208
0
180
シグナル(Unix)と仲良くなる
ryuichi1208
1
43
AI前提のサービス運用について再考する
ryuichi1208
6
1.4k
A Shallow Dive into the World of TCP
ryuichi1208
1
670
入門リトライ
ryuichi1208
20
8.3k
Goで作って学ぶWebSocket
ryuichi1208
5
4.2k
コード化されていない稼働中のサーバを移設_再構築する技術
ryuichi1208
20
15k
Featured
See All Featured
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
560
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.9k
Optimizing for Happiness
mojombo
378
71k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
My Coaching Mixtape
mlcsv
0
140
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Building Applications with DynamoDB
mza
96
7.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.7k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
340
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
600
30 Presentation Tips
portentint
PRO
1
320
Beyond borders and beyond the search box: How to win the global "messy middle" with AI-driven SEO
davidcarrasco
3
150
Transcript
超⼊⾨SRE 2025 SREって結局必要あるんだっけ?編 渡部⿓⼀ 2025/02/26 はじめてのIT勉強会
• 名前: 渡部⿓⼀ • 株式会社IVRy SRE • SRE NEXT Co-Chair
• 蒲町あたりに住んでます • 障害対応、EOL対応 • 2回⽬の登壇 ◦ 去年も同じようなタイトルで話しました ⾃⼰紹介
ソフトウェアを障害なく運⽤したい!
ソフトウェアは複雑
⼀般的なエンジニアの本棚(N=1)
全部読めば完璧!
そんなことはない
• ソフトウェアは複数のコンポーネントから成り⽴つ ◦ ブラウザから⾒えるHTML、ユーザーデータを保存するDB • 特定の分野だけに詳しいだけでは実際にそれでお⾦を稼ぐのは難しい • 当たり前だが本から得られる知識だけでの運⽤は難しい • 本読んだだけでプロダクション環境の運⽤をやると?
ソフトウェアの複雑性
None
• 座学でなんとかやってきたエンジニアが受けがちな洗礼 ◦ 私も受けた • たくさん本を読んだだけでは実運⽤は違う • ソフトウェアにはたくさんの専⾨分野が存在する • 全分野を学び経験をたくさん積んだら障害0でサービス運⽤できるのか?
結構あるある
ではない
障害は発⽣して当たり前
• 世界中の天才たちが作っているインターネットも時々壊れる • GoogleだってAmazonだって壊れる ◦ 例) Gmail届かない、サイトに繋がらない... • 世界的にすごい⼈たちが集まっている企業でそれ •
その中で障害が発⽣しないサービスを⽬指すとどうなるか? 障害は発⽣して当たり前
A社: スタートアップ B社: 新規参⼊してくる会社
イケてるいい感じのサービスを作れた! 競合もいなそうだしめっちゃ売って⾏くぞ!
ユーザー数は順調増加! 今度CM放映でさらに成⻑加速!
CM放映
None
CMが流れた瞬間アクセス増加でサーバ落ちた CMにお⾦かけたけど落ちてたせいでユーザー も全然増えなかった...
アクセス捌けないと困るので新機能開発は ⼀旦やめて全員で対応しよう
A社がやってる業界まだまだ伸びそう! 参⼊しよう!
3ヶ⽉後
サーバ強化、パフォーマンスチューニング! 絶対に落ちないサーバができたぞ!
圧倒的成⻑! ユーザー獲得!
全然ユーザー増えない... B社のやつ後発でめっちゃ機能豊富だ...
• 機能開発が重要なフェーズで耐障害性を過剰に上げてしまった • ⼀⽅でどこが過剰かの判断は難しい • ⾃分たちでサービスレベルを定義していい感じに運⽤する必要が出てくる • それはつまりSRE 負けてしまう可能性がある
SREって何?
• 信頼性⼯学の専⾨家としてサービスの信頼性と向き合っていく • 信頼性 ◦ 要求された機能を安定して果たすことができる能⼒のこと ◦ 電話をかけたら絶対に相⼿に着信がなる = 信頼性が⾼い
◦ アクセスしてもエラーばかりのWebサイト = 信頼性が低い SRE(site reliability engineer)
どうやって信頼性をエンジニアリングしていくのか
• SLI/SLO • SLI = サービスレベル指標 ◦ ECサイトで⾔うなら商品ページが表⽰されるまでの時間 • SLO
= サービスレベル⽬標 ◦ SLIの具体的な⽬標レベルを設定する ▪ p99で500ms以下を⽉間99.9%で達成させる ◦ あくまでも⾃分たちがユーザーに提供していきたい体験をSLOとする サービスレベルを定義しそれを元に運⽤をしていく
ユーザーが満⾜するいい感じのところ⾒つけよう
None
ご清聴ありがとうございました