Slide 1

Slide 1 text

1 超入門 SRE 何事もバランスが大事編 渡部 龍一/ GMO PEPABO inc. はじめてのIT勉強会 in 仙台(2024)

Slide 2

Slide 2 text

技術部プラットフォームグループ 2021年 中途入社 2 自己紹介 渡部 龍一 Watanabe Ryuichi ● GMOペパボ/仙台からリモート ● ロール: SRE ● SNS: @ryuichi_1208 ● 好きなこと: EOL対応、障害対応 ● SRE NEXTスタッフ

Slide 3

Slide 3 text

3 SRE、聞いたことありますか?

Slide 4

Slide 4 text

4 ● SRE(Site Reliability Engineering)とは、元々Googleが提唱したシステム管理とサービ ス運⽤に対するアプローチ ○ SREは、ソフトウェアエンジニアに運⽤チームの設計を依頼した時にできあがるもの ○ 直訳するとサイト信頼性⼯学 ■ 信頼性⼯学とは「故障」という品質を扱う学問 ■ 「事業の経済的損失」につながる可能性のある障害を全体的に最⼩にすることが⽬的 ○ Site Reliability Engineerで職種を指したりする ● Webサイトの信頼性を重要視したエンジニアリングを⾏ったり組織に対して導⼊ SREとは

Slide 5

Slide 5 text

5 なんで必要なの?

Slide 6

Slide 6 text

6 A社というスタートアップ企業と B社という新規参⼊をしてきた企業

Slide 7

Slide 7 text

7 まだ競合もいないサービスを作れた! 最高のチームで最高のサービスをやっていくぞ! A社

Slide 8

Slide 8 text

8 ユーザー数も順調に伸びて売り上げも好調! 今度テレビCMでさらなるユーザー獲得を狙うぞ! A社

Slide 9

Slide 9 text

9 CM放映後

Slide 10

Slide 10 text

10 CM流れた瞬間アクセス殺到で繋がらなくなった CMによるユーザー増加も見込みよりも下回ってしまった ... 新機能をリリースしたいけどアクセスを捌けないとユーザー増えな いしチームメンバー全員で対応しよう ... A社

Slide 11

Slide 11 text

11 この業界まだまだユーザー増えそう! 新機能開発しまくって宣伝してユーザー獲得するぞ! A社 B社

Slide 12

Slide 12 text

12 A社 B社 アクセス捌けるようになったが機能面で B社に劣ってしまっ ている。。。 新規ユーザーも増えないし困った。。。

Slide 13

Slide 13 text

13 ● SREは信頼性をエンジニアリングしていく ○ Webサイトを運営しながら短いサイクルで新機能のリリースを⾏うことを⽬標としていく ○ SLO‧SLIを定義しサービスレベルの⽬標や指標を決めて運⽤していく ■ 例えば⽬標としていた稼働率よりも低い時間しか稼働してないなら改善のために機能開発を⽌める ■ ⽬標よりも⾼い時間稼働しているなら多少のサービスダウンは機能開発を継続する ■ ビジネス影響を考慮して⽬標数値を決めることをSREがサービスオーナーと決定していく SREがいると

Slide 14

Slide 14 text

14 ● 信頼性に繋がることはなんでもやるという気概 ● CUJ/SLI/SLO、エラーバジェットの設定 ● CI/CDの整備 ● 監視、オブザーバビリティの実装 ● 障害対応、オンコール対応、ポストモーテム ● コスト削減 SREの活動内容例

Slide 15

Slide 15 text

15 ⾊々やれて楽しい!

Slide 16

Slide 16 text

16 もっと知りたい

Slide 17

Slide 17 text

17

Slide 18

Slide 18 text

18

Slide 19

Slide 19 text

19 SRE NEXT@東京に向けて各地でイベントを開催 福岡、仙台、京都、広島で実施 そのイベントが今週の土曜日に開催されます! 参加者募集中!

Slide 20

Slide 20 text

20 ご静聴ありがとうございました