Slide 1

Slide 1 text

1 SREという働き方 渡部 龍一 / GMO PEPABO inc.

Slide 2

Slide 2 text

2 ● SREとは「Site Reliability Engineering」の頭文字をとった言葉 ● 日本語では「サイト信頼性エンジニアリング」 ● チームトポロジーの分類で考えると2つの側面があるチーム ○ イネイブリングチーム ○ プラットフォームチーム プラットフォームグループにおけるSRE

Slide 3

Slide 3 text

3 やってること

Slide 4

Slide 4 text

4 ● PdM + SREチーム + アプリケーションチームで週次で実施 ● サービスの信頼性に関する内容を共有する会 ○ 可用性に関連するイベントの共有 (メンテやアプデ)、各SLIの確認 ○ SLO違反した際は事前に定義したポリシーに従って担当者をアサインして対応 ○ インフラのコストなどもこの会で確認し削減出来そうなものがないかを確認 ● SLI/SLOは四半期ごとに見直しを実施 SLI/SLOキープ

Slide 5

Slide 5 text

5 ● パブリッククラウド(AWS/GCP)とプライベートクラウドの管理 ○ キャパシティプランニング ○ Terraform/Puppet/Ansibleの実装/レビュー ○ 監視システムの設計 /構築やアラートの設定 ○ コストの最適化 ○ オンコール対応 インフラ管理

Slide 6

Slide 6 text

6 ● 便利CLIツール ○ プライベートクラウド向けツール ● 監視ツール ○ MackerelプラグインやPrometheusプラグインを実装 ● Kubernetes関連 ○ kubectlのプラグイン ○ カスタムコントローラー ● 便利SlackBot ○ ChatOPSが盛んなのでSlackから使える便利Botを実装 ● パフォーマンスチューニング ○ N+1の改善/スロークエリ対応 ソフトウェアエンジニアリング

Slide 7

Slide 7 text

7 ● k8s Operatorで運用負担減&ハイブリッドクラウドのコスト最適化をした話 ● オンプレk8sとEKSの並行運用の実際 ● SUZURIのマルチクラウド化で乗り越えたクラウド毎の「差分」を紹介します ● Amazon EFS を利用して管理運用をスリム化する ● 入門障害対応 ● オンコール体制をアップデートした話 チームメンバーの登壇資料/テックブログとか

Slide 8

Slide 8 text

8 最後に

Slide 9

Slide 9 text

9 ● 中途 ○ https://open.talentio.com/r/1/c/pepabo/pages/45336 ● 新卒 ○ https://recruit.pepabo.com/features/graduate/ 採用やってます!