Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織
Search
Akira Goto
August 03, 2024
Technology
6
6.3k
Central SREとEmbedded SREのハイブリッド体制で目指す最高のSRE組織
SRE Next 2024 での登壇資料です。
https://sre-next.dev/2024
Akira Goto
August 03, 2024
Tweet
Share
More Decks by Akira Goto
See All by Akira Goto
今日から始めるカジュアルなソースコード解析 / JJUG CCC 2019 Spring
akiragoto
1
1.1k
Other Decks in Technology
See All in Technology
20241218_今年はSLI/SLOの導入を頑張ってました!
zepprix
0
100
2024年にチャレンジしたことを振り返るぞ
mitchan
0
150
多様なメトリックとシステムの健全性維持
masaaki_k
0
120
多領域インシデントマネジメントへの挑戦:ハードウェアとソフトウェアの融合が生む課題/Challenge to multidisciplinary incident management: Issues created by the fusion of hardware and software
bitkey
PRO
2
120
終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024
yositosi
27
23k
re:Invent 2024 Innovation Talks(NET201)で語られた大切なこと
shotashiratori
0
320
TypeScript開発にモジュラーモノリスを持ち込む
sansantech
PRO
2
670
.NET 9 のパフォーマンス改善
nenonaninu
0
1.3k
生成AIのガバナンスの全体像と現実解
fnifni
1
210
【re:Invent 2024 アプデ】 Prompt Routing の紹介
champ
0
160
宇宙ベンチャーにおける最近の情シス取り組みについて
axelmizu
0
120
クレカ・銀行連携機能における “状態”との向き合い方 / SmartBank Engineer LT Event
smartbank
2
100
Featured
See All Featured
Making Projects Easy
brettharned
116
6k
4 Signs Your Business is Dying
shpigford
182
21k
Code Review Best Practice
trishagee
65
17k
Unsuck your backbone
ammeep
669
57k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Producing Creativity
orderedlist
PRO
342
39k
Code Reviewing Like a Champion
maltzj
521
39k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
BBQ
matthewcrist
85
9.4k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
Building Adaptive Systems
keathley
38
2.3k
Typedesign – Prime Four
hannesfritz
40
2.4k
Transcript
#srenext_b Central SREとEmbedded SREの ハイブリッド体制で目指す 最高のSRE組織 SRE Next 2024 後藤
祥 (Akira Goto)
#srenext_b 自己紹介 後藤 祥 (Akira Goto) エムスリー株式会社 SREチーム TL
経歴 • 新卒でSIerに入社 • エムスリーに転職しEmbedded SREとして2年間開発 チームを経験 • Central SREに異動 同時にTLとしてチームマネジメントも開始して2年ほど経 過したところ 2
#srenext_b 今日一番伝えたいこと SREの組織体制に唯一の正解はない 自社にあった"最高"な体制を 目指していきましょう!! 3
#srenext_b 目次 1. エムスリーの開発組織の概要 2. ハイブリッド体制への変遷 3. ハイブリッド体制のSREの実践 4. 今後のSRE組織の展望
5. まとめ 4
#srenext_b エムスリーの開発組織の概要 5
#srenext_b エムスリーについて 6 Platform × Product 健康で幸せな毎日を もっとよくするために 私たちはプラットフォームとプロダクトの力を用いて様々な医 療課題の解決に取り組んでいます。主に医療従事者に対して
アプローチしながらも、同時にその先の一般の方々に対して もサービス提供を行い、総合的に人々の健康的な毎日を少し でも改善することを目指し様々なプロダクトの開発を行ってお ります。多くの医療者をユーザーに抱えるエムスリーだからこ そできるやり方で、多くの人々の健康に対して貢献していま す。 エムスリーエンジニアリンググループ紹介資料 https://speakerdeck.com/m3_engineering/introduction-of-m3-engineering-group-2022
#srenext_b 開発組織の特徴 • 事業ドメインや役割に合わせた多数のチーム 7 Unit1 (製薬企業) Unit3 (新領域) Unit4
(サイトプロモ) Unit5 (コンシューマ) Unit6 (キャリア) Unit7 (BIR) Unit9 (治験) デジカル デジスマ 事業チーム (9) SRE 基盤 マルチデバイス セキュリティ QA データ基盤 AI機械学習 グループ会社支援 グローバル支援 プロダクト支援 横断チーム (10)
#srenext_b 開発組織の特徴 • チームごとの裁量が大きく、技術選定も各チームで実施する ◦ 言語、FW、クラウドサービスなどチームで最適なものを選択 • 特徴が異なる多数のプロダクトを開発している ◦
電子カルテや決済アプリは診療に必須で高度な安定性が求められる ◦ 講演会のライブ配信はトラフィックが集中するのでスパイク耐性が必要 8
#srenext_b 現在のSREの体制 9 Central SRE SREチームに所属 7名 (一部Embedded SREを兼務)
全社横断的な施策の推進 クラウドインフラ全体の管理 Embedded SREのサポート Embedded SRE 各開発チームに所属 1チームに2〜4名ほど チーム内の活動の主体的な推進 担当プロダクトのSRE全般 (モニタリング、オンコールなど)
#srenext_b ハイブリッド体制への変遷 10
#srenext_b SRE組織の変遷 11 オンプレミス時代 クラウド移行時代 クラウド主流時代 インフラチームが SRE的な役割も含めて 集中的に管轄 (Central
SREのみ) Embedded SRE発足 クラウドインフラ管理や SRE的な役割を徐々に チームへと移譲 Central SREと Embedded SREの ハイブリッド体制の確立
#srenext_b Embedded SREの立ち上げ 12 要員をどう確保するか 新規採用によるメンバー増 既存メンバーへのEnabling 初期はCentral SREと密に連携 軽微なものから徐々に業務を移譲
どのように始めるか 誰が主体的に進めるか チームが主体性をもって体制構築 あくまでチーム内で要員を立てる
#srenext_b ハイブリッド体制のSREの実践 13
#srenext_b ハイブリッド体制のメリット/デメリット 14 チーム専任のSREによるプロダクトの特性に合った細かい対応が可能 適切な業務の移譲によってCentral SREへの負荷集中が避けられる 作業や意思決定の多くがチーム内で完結するためスピードが上がる 知見やポストモーテムが各チームに散らばり共有されにくい プロダクトの動作に影響を与える変更をまとめて把握しづらい モニタリングやインシデント対応のツール/サービスを統一しづらい
#srenext_b 役割分担のバランス 15 Embedded SRE分散向き Central SRE集中向き 組織規模 大規模 比較的小規模
プロダクト マルチプロダクト 特性が異なるプロダクト 単一プロダクト 技術スタック 幅が広い 統一されている (したい) 共通プラットフォームがある SRE 要員 多い 少ない • Embedded SREに分散していく状態を目指している ◦ 開発チームの裁量を大きくするため
#srenext_b 役割分担の具体例 16 Embedded SRE Central SRE サービスのリリース CI/CDパイプラインの作成 アラートやモニタリングの整備
共通NWの管理 CI/CDインフラの管理 モニタリングSaaS等の管理
#srenext_b 集中管理すべきかどうか? 「ベースラインを設定したいか」が1つの判断軸 満たすべき状態を目指して仕組みづくりやサポートをする 17
#srenext_b 今後のSRE組織の展望について 18
#srenext_b 今後の展望 • 現在の体制の改善 ◦ Embedded SRE:プロダクトSREとしてより成熟した状態を目指す ◦ Central SRE:ハブとなって各Embedded
SREをサポートする • 「次の大きな変化」を見据えた体制の改善 ◦ フルクラウド化、マルチクラウド化 ◦ グループ会社への拡大、グローバル展開 ◦ その他、テクノロジーの大きなパラダイムシフト 19
#srenext_b コミュニケーションの活性化 • SREが集まって相談や知見共有する場を月1で設けた ◦ DBバージョンアップの不具合共有、SRE体制の強化に向けた議論など ◦ 集まって話す場を作るという点で意義があった •
今後やっていきたいこと ◦ 非同期コミュニケーションの活性化 ◦ 出入り自由のOffice Hour ◦ 蓄積された情報の効果的な活用 20 共有会をより効果的にするために考えたあれやこれ https://www.m3tech.blog/entry/2023/12/08/110000
#srenext_b Embedded SREへの落下傘 Central SREが開発チームに期間限定で参画する仕組みを試行中 21 負荷状況に応じたリソース調整 Central SREからの知見の伝達 プロダクトに近い現場での経験
ベースラインへの底上げ Embedded SREの状況・知見の獲得
#srenext_b まとめ • 弊社のハイブリッドなSRE体制について紹介しました。 • SRE組織の体制について本発表も含めて実事例やプラクティスは多 くありますが唯一の正解はありません。 • あまり型にハマりすぎず自社にとって”最高”な形を目指して改善し ていくことが重要です。
22