Slide 1

Slide 1 text

超⼊⾨SRE 2025 SREって結局必要あるんだっけ?編 渡部⿓⼀ 2025/02/26 はじめてのIT勉強会

Slide 2

Slide 2 text

● 名前: 渡部⿓⼀ ● 株式会社IVRy SRE ● SRE NEXT Co-Chair ● 蒲町あたりに住んでます ● 障害対応、EOL対応 ● 2回⽬の登壇 ○ 去年も同じようなタイトルで話しました ⾃⼰紹介

Slide 3

Slide 3 text

ソフトウェアを障害なく運⽤したい!

Slide 4

Slide 4 text

ソフトウェアは複雑

Slide 5

Slide 5 text

⼀般的なエンジニアの本棚(N=1)

Slide 6

Slide 6 text

全部読めば完璧!

Slide 7

Slide 7 text

そんなことはない

Slide 8

Slide 8 text

● ソフトウェアは複数のコンポーネントから成り⽴つ ○ ブラウザから⾒えるHTML、ユーザーデータを保存するDB ● 特定の分野だけに詳しいだけでは実際にそれでお⾦を稼ぐのは難しい ● 当たり前だが本から得られる知識だけでの運⽤は難しい ● 本読んだだけでプロダクション環境の運⽤をやると? ソフトウェアの複雑性

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

● 座学でなんとかやってきたエンジニアが受けがちな洗礼 ○ 私も受けた ● たくさん本を読んだだけでは実運⽤は違う ● ソフトウェアにはたくさんの専⾨分野が存在する ● 全分野を学び経験をたくさん積んだら障害0でサービス運⽤できるのか? 結構あるある

Slide 11

Slide 11 text

ではない

Slide 12

Slide 12 text

障害は発⽣して当たり前

Slide 13

Slide 13 text

● 世界中の天才たちが作っているインターネットも時々壊れる ● GoogleだってAmazonだって壊れる ○ 例) Gmail届かない、サイトに繋がらない... ● 世界的にすごい⼈たちが集まっている企業でそれ ● その中で障害が発⽣しないサービスを⽬指すとどうなるか? 障害は発⽣して当たり前

Slide 14

Slide 14 text

A社: スタートアップ B社: 新規参⼊してくる会社

Slide 15

Slide 15 text

イケてるいい感じのサービスを作れた! 競合もいなそうだしめっちゃ売って⾏くぞ!

Slide 16

Slide 16 text

ユーザー数は順調増加! 今度CM放映でさらに成⻑加速!

Slide 17

Slide 17 text

CM放映

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

CMが流れた瞬間アクセス増加でサーバ落ちた CMにお⾦かけたけど落ちてたせいでユーザー も全然増えなかった...

Slide 20

Slide 20 text

アクセス捌けないと困るので新機能開発は ⼀旦やめて全員で対応しよう

Slide 21

Slide 21 text

A社がやってる業界まだまだ伸びそう! 参⼊しよう!

Slide 22

Slide 22 text

3ヶ⽉後

Slide 23

Slide 23 text

サーバ強化、パフォーマンスチューニング! 絶対に落ちないサーバができたぞ!

Slide 24

Slide 24 text

圧倒的成⻑! ユーザー獲得!

Slide 25

Slide 25 text

全然ユーザー増えない... B社のやつ後発でめっちゃ機能豊富だ...

Slide 26

Slide 26 text

● 機能開発が重要なフェーズで耐障害性を過剰に上げてしまった ● ⼀⽅でどこが過剰かの判断は難しい ● ⾃分たちでサービスレベルを定義していい感じに運⽤する必要が出てくる ● それはつまりSRE 負けてしまう可能性がある

Slide 27

Slide 27 text

SREって何?

Slide 28

Slide 28 text

● 信頼性⼯学の専⾨家としてサービスの信頼性と向き合っていく ● 信頼性 ○ 要求された機能を安定して果たすことができる能⼒のこと ○ 電話をかけたら絶対に相⼿に着信がなる = 信頼性が⾼い ○ アクセスしてもエラーばかりのWebサイト = 信頼性が低い SRE(site reliability engineer)

Slide 29

Slide 29 text

どうやって信頼性をエンジニアリングしていくのか

Slide 30

Slide 30 text

● SLI/SLO ● SLI = サービスレベル指標 ○ ECサイトで⾔うなら商品ページが表⽰されるまでの時間 ● SLO = サービスレベル⽬標 ○ SLIの具体的な⽬標レベルを設定する ■ p99で500ms以下を⽉間99.9%で達成させる ○ あくまでも⾃分たちがユーザーに提供していきたい体験をSLOとする サービスレベルを定義しそれを元に運⽤をしていく

Slide 31

Slide 31 text

ユーザーが満⾜するいい感じのところ⾒つけよう

Slide 32

Slide 32 text

No content

Slide 33

Slide 33 text

ご清聴ありがとうございました