事業を横断したSRE組織の課題解決を加速する取り組み
by
homirun
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
1 事業を横断したSRE組織の 課題解決を加速する取り組み ほみるん a.k.a 新宮 隆太 / GMO PEPABO inc. 2023.04.14 Pepabo Tech Conference #20 春のSREまつり
Slide 2
Slide 2 text
技術部 プラットフォームグループ 2021年 新卒入社 2 自己紹介 新宮 隆太 Shingu Ryuta ● あだ名: ほみるん ● 新卒3年目 ● 自宅にKubernetesクラスタを飼ってます ● Twitter : @h0mirun_deux
Slide 3
Slide 3 text
3 アジェンダ 1. 事業を横断したSRE組織について 2. 取り組みの紹介 3. まとめ
Slide 4
Slide 4 text
4 1. 事業を横断したSRE組織について
Slide 5
Slide 5 text
5 基本的にサービスは事業部で開発している GMOペパボのエンジニア組織 1. 事業を横断したSRE組織について 採用目的2021 技術部編 https://tech.pepabo.com/2021/06/25/hiring-tech-division-2021/
Slide 6
Slide 6 text
6 横断組織である技術部 GMOペパボのエンジニア組織 1. 事業を横断したSRE組織について Pepabo Tech Talk -入社1年以内のメンバーが語る、ペパボの SREチームの取り組み - ペパボのSREについて https://tech.pepabo.com/pdf/pepabo-sre-202104.pdf
Slide 7
Slide 7 text
7 技術部 プラットフォームグループ 普段担当するサービスごとでチームが別れている 1. 事業を横断したSRE組織について プラットフォームグループ minneチーム SUZURIチーム ECチーム
Slide 8
Slide 8 text
8 技術部 プラットフォームグループ サービスから独立したSREチーム • 各サービスのSLI/SLOの策定・運用 • ソフトウェアエンジニアリングを用いたサービス運用効率化 • メトリクスを元にしたパフォーマンスチューニング • インフラ周り • オンコール対応 1. 事業を横断したSRE組織について より具体的なSRE活動はPHP Conference 2022の動画を御覧ください!
Slide 9
Slide 9 text
9 2. 取り組みの紹介
Slide 10
Slide 10 text
10 勉強会 定期的な読書会・勉強会の実施 2. 取り組みの紹介
Slide 11
Slide 11 text
定期的な読書会・勉強会の実施 11 勉強会 2. 取り組みの紹介
Slide 12
Slide 12 text
定期的な読書会・勉強会の実施 12 勉強会 2. 取り組みの紹介
Slide 13
Slide 13 text
定期的な読書会・勉強会の実施 13 勉強会 2. 取り組みの紹介 など... 弊社テックブログに過去の記録があるのでぜひ見てください!
Slide 14
Slide 14 text
14 SoS会(スクラム・オブ・スクラム) 各事業部担当チーム間の情報共有の場 • 各チーム近況報告 • オンコール対応の共有 • 困りごとの相談 2. 取り組みの紹介
Slide 15
Slide 15 text
15 全員オンコール 夜間・休日のオンコールは担当チームの枠を超えて全サービスを見る体制 2. 取り組みの紹介 プラットフォームグループ minneチーム SUZURIチーム ECチーム minne事業部の サービス SUZURI事業部の サービス EC事業部の サービス 平日昼
Slide 16
Slide 16 text
16 全員オンコール 夜間・休日のオンコールは担当チームの枠を超えて全サービスを見る体制 2. 取り組みの紹介 プラットフォームグループ minneチーム SUZURIチーム ECチーム minne事業部の サービス SUZURI事業部の サービス EC事業部の サービス 夜間・休日
Slide 17
Slide 17 text
17 全員オンコール 夜間・休日のオンコールは担当チームの枠を超えて全サービスを見る体制 • オンコール負荷の軽減 • オンコール待機時間が平均化されるように • 不要なアラートの精査・自動化の優先度が上昇 • サービス特有の事情はドキュメント化 詳しくは、弊社テックブログを見てください! 2. 取り組みの紹介
Slide 18
Slide 18 text
18 オンコールトレーニング 過去のアラートを使って、どのように解決していくとよいかを考えるトレーニング • チームにジョインしたばかりのメンバーがオンコールに入りやすくなる • 普段担当していないサービスへの理解が進む 2. 取り組みの紹介
Slide 19
Slide 19 text
19 オンコールトレーニング - レギュレーション 出題者と回答者に分かれて実施する 1. 出題者は発生した事象例を回答者に説明 2. 取り組みの紹介 この監視が落ちたら まず何をしますか? 出題者 回答者
Slide 20
Slide 20 text
20 オンコールトレーニング - レギュレーション 出題者と回答者に分かれて実施する 1. 出題者は発生した事象例を回答者に説明 2. 回答者は自分の考えを説明して原因と対策を回答 2. 取り組みの紹介 まずユーザー影響を確認していきます! 具体的には... 出題者 回答者
Slide 21
Slide 21 text
21 オンコールトレーニング - レギュレーション 出題者と回答者に分かれて実施する 1. 出題者は発生した事象例を回答者に説明 2. 回答者は自分の考えを説明して原因と対策を回答 3. 出題者が回答者の回答に対してフィードバック 2. 取り組みの紹介 よさそうです! 更に良くするなら.... 出題者 回答者
Slide 22
Slide 22 text
22 3. まとめ
Slide 23
Slide 23 text
23 今回お話したこと • サービスを横断したSRE組織が各サービスのエンジニアと協力して、サービスの 信頼性を向上させている。 • サービス横断組織の強みを活かすために、様々な取り組みを行っている。 3. まとめ
Slide 24
Slide 24 text
ご静聴ありがとうございました! 24