$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織
Search
Akira Goto
August 03, 2024
Technology
6
6.1k
Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織
SRE Next 2024 での登壇資料です。
https://sre-next.dev/2024
Akira Goto
August 03, 2024
Tweet
Share
More Decks by Akira Goto
See All by Akira Goto
今日から始めるカジュアルなソースコード解析 / JJUG CCC 2019 Spring
akiragoto
1
1.1k
Other Decks in Technology
See All in Technology
開発者向けツールを魔改造してセキュリティ診断ツールを作っている話 - 第1回 セキュリティ若手の会 LT
pizzacat83
0
400
2024年のModern Data Stackを振り返ろう~分野別の目玉アップデート情報まとめ~
sagara
0
340
【ASW21-01】STAMPSTPAで導き出した課題に対する対策立案手法の提案
hianraku9498
0
600
イベントをどう管理するか
mikanichinose
1
120
12/2(月)のBedrockアプデ速報(re:Invent 2024 Daily re:Cap #1 with AWS Heroes)
minorun365
PRO
2
310
GeminiとUnityで実現するインタラクティブアート
hokkey621
0
640
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
5
52k
Will Positron accelerate us?
lycorptech_jp
PRO
1
130
多様なロール経験が導いたエンジニアキャリアのナビゲーション
coconala_engineer
1
160
「品質とスピードはトレード・オンできる」に向き合い続けた2年半を振り返る / Quality and speed can be traded on.
mii3king
0
730
MySQL 8.0 から PostgreSQL 16 への移行と RLS 導入までの道のりと学び
baseballyama
0
1k
Oracle Base Database Service:サービス概要のご紹介
oracle4engineer
PRO
0
15k
Featured
See All Featured
Visualization
eitanlees
145
15k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
Statistics for Hackers
jakevdp
796
220k
Building an army of robots
kneath
302
43k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
How to Think Like a Performance Engineer
csswizardry
21
1.2k
Git: the NoSQL Database
bkeepers
PRO
427
64k
The Pragmatic Product Professional
lauravandoore
32
6.3k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
How STYLIGHT went responsive
nonsquared
95
5.2k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.2k
Transcript
#srenext_b Central SREとEmbedded SREの ハイブリッド体制で目指す 最高のSRE組織 SRE Next 2024 後藤
祥 (Akira Goto)
#srenext_b 自己紹介 後藤 祥 (Akira Goto) エムスリー株式会社 SREチーム TL
経歴 • 新卒でSIerに入社 • エムスリーに転職しEmbedded SREとして2年間開発 チームを経験 • Central SREに異動 同時にTLとしてチームマネジメントも開始して2年ほど経 過したところ 2
#srenext_b 今日一番伝えたいこと SREの組織体制に唯一の正解はない 自社にあった"最高"な体制を 目指していきましょう!! 3
#srenext_b 目次 1. エムスリーの開発組織の概要 2. ハイブリッド体制への変遷 3. ハイブリッド体制のSREの実践 4. 今後のSRE組織の展望
5. まとめ 4
#srenext_b エムスリーの開発組織の概要 5
#srenext_b エムスリーについて 6 Platform × Product 健康で幸せな毎日を もっとよくするために 私たちはプラットフォームとプロダクトの力を用いて様々な医 療課題の解決に取り組んでいます。主に医療従事者に対して
アプローチしながらも、同時にその先の一般の方々に対して もサービス提供を行い、総合的に人々の健康的な毎日を少し でも改善することを目指し様々なプロダクトの開発を行ってお ります。多くの医療者をユーザーに抱えるエムスリーだからこ そできるやり方で、多くの人々の健康に対して貢献していま す。 エムスリーエンジニアリンググループ紹介資料 https://speakerdeck.com/m3_engineering/introduction-of-m3-engineering-group-2022
#srenext_b 開発組織の特徴 • 事業ドメインや役割に合わせた多数のチーム 7 Unit1 (製薬企業) Unit3 (新領域) Unit4
(サイトプロモ) Unit5 (コンシューマ) Unit6 (キャリア) Unit7 (BIR) Unit9 (治験) デジカル デジスマ 事業チーム (9) SRE 基盤 マルチデバイス セキュリティ QA データ基盤 AI機械学習 グループ会社支援 グローバル支援 プロダクト支援 横断チーム (10)
#srenext_b 開発組織の特徴 • チームごとの裁量が大きく、技術選定も各チームで実施する ◦ 言語、FW、クラウドサービスなどチームで最適なものを選択 • 特徴が異なる多数のプロダクトを開発している ◦
電子カルテや決済アプリは診療に必須で高度な安定性が求められる ◦ 講演会のライブ配信はトラフィックが集中するのでスパイク耐性が必要 8
#srenext_b 現在のSREの体制 9 Central SRE SREチームに所属 7名 (一部Embedded SREを兼務)
全社横断的な施策の推進 クラウドインフラ全体の管理 Embedded SREのサポート Embedded SRE 各開発チームに所属 1チームに2〜4名ほど チーム内の活動の主体的な推進 担当プロダクトのSRE全般 (モニタリング、オンコールなど)
#srenext_b ハイブリッド体制への変遷 10
#srenext_b SRE組織の変遷 11 オンプレミス時代 クラウド移行時代 クラウド主流時代 インフラチームが SRE的な役割も含めて 集中的に管轄 (Central
SREのみ) Embedded SRE発足 クラウドインフラ管理や SRE的な役割を徐々に チームへと移譲 Central SREと Embedded SREの ハイブリッド体制の確立
#srenext_b Embedded SREの立ち上げ 12 要員をどう確保するか 新規採用によるメンバー増 既存メンバーへのEnabling 初期はCentral SREと密に連携 軽微なものから徐々に業務を移譲
どのように始めるか 誰が主体的に進めるか チームが主体性をもって体制構築 あくまでチーム内で要員を立てる
#srenext_b ハイブリッド体制のSREの実践 13
#srenext_b ハイブリッド体制のメリット/デメリット 14 チーム専任のSREによるプロダクトの特性に合った細かい対応が可能 適切な業務の移譲によってCentral SREへの負荷集中が避けられる 作業や意思決定の多くがチーム内で完結するためスピードが上がる 知見やポストモーテムが各チームに散らばり共有されにくい プロダクトの動作に影響を与える変更をまとめて把握しづらい モニタリングやインシデント対応のツール/サービスを統一しづらい
#srenext_b 役割分担のバランス 15 Embedded SRE分散向き Central SRE集中向き 組織規模 大規模 比較的小規模
プロダクト マルチプロダクト 特性が異なるプロダクト 単一プロダクト 技術スタック 幅が広い 統一されている (したい) 共通プラットフォームがある SRE 要員 多い 少ない • Embedded SREに分散していく状態を目指している ◦ 開発チームの裁量を大きくするため
#srenext_b 役割分担の具体例 16 Embedded SRE Central SRE サービスのリリース CI/CDパイプラインの作成 アラートやモニタリングの整備
共通NWの管理 CI/CDインフラの管理 モニタリングSaaS等の管理
#srenext_b 集中管理すべきかどうか? 「ベースラインを設定したいか」が1つの判断軸 満たすべき状態を目指して仕組みづくりやサポートをする 17
#srenext_b 今後のSRE組織の展望について 18
#srenext_b 今後の展望 • 現在の体制の改善 ◦ Embedded SRE:プロダクトSREとしてより成熟した状態を目指す ◦ Central SRE:ハブとなって各Embedded
SREをサポートする • 「次の大きな変化」を見据えた体制の改善 ◦ フルクラウド化、マルチクラウド化 ◦ グループ会社への拡大、グローバル展開 ◦ その他、テクノロジーの大きなパラダイムシフト 19
#srenext_b コミュニケーションの活性化 • SREが集まって相談や知見共有する場を月1で設けた ◦ DBバージョンアップの不具合共有、SRE体制の強化に向けた議論など ◦ 集まって話す場を作るという点で意義があった •
今後やっていきたいこと ◦ 非同期コミュニケーションの活性化 ◦ 出入り自由のOffice Hour ◦ 蓄積された情報の効果的な活用 20 共有会をより効果的にするために考えたあれやこれ https://www.m3tech.blog/entry/2023/12/08/110000
#srenext_b Embedded SREへの落下傘 Central SREが開発チームに期間限定で参画する仕組みを試行中 21 負荷状況に応じたリソース調整 Central SREからの知見の伝達 プロダクトに近い現場での経験
ベースラインへの底上げ Embedded SREの状況・知見の獲得
#srenext_b まとめ • 弊社のハイブリッドなSRE体制について紹介しました。 • SRE組織の体制について本発表も含めて実事例やプラクティスは多 くありますが唯一の正解はありません。 • あまり型にハマりすぎず自社にとって”最高”な形を目指して改善し ていくことが重要です。
22