Slide 1

Slide 1 text

#srenext_b
 Central SREとEmbedded SREの
 ハイブリッド体制で目指す
 最高のSRE組織
 SRE Next 2024
 後藤 祥 (Akira Goto)


Slide 2

Slide 2 text

#srenext_b
 自己紹介
 後藤 祥 (Akira Goto)
 エムスリー株式会社 SREチーム TL
 
 経歴
 ● 新卒でSIerに入社
 ● エムスリーに転職しEmbedded SREとして2年間開発 チームを経験
 ● Central SREに異動
 同時にTLとしてチームマネジメントも開始して2年ほど経 過したところ
 
 2

Slide 3

Slide 3 text

#srenext_b
 今日一番伝えたいこと
 SREの組織体制に唯一の正解はない
 自社にあった"最高"な体制を
 目指していきましょう!!
 3

Slide 4

Slide 4 text

#srenext_b
 目次
 1. エムスリーの開発組織の概要
 2. ハイブリッド体制への変遷
 3. ハイブリッド体制のSREの実践
 4. 今後のSRE組織の展望
 5. まとめ
 4

Slide 5

Slide 5 text

#srenext_b
 エムスリーの開発組織の概要
 5

Slide 6

Slide 6 text

#srenext_b
 エムスリーについて
 6 Platform × Product 健康で幸せな毎日を もっとよくするために 私たちはプラットフォームとプロダクトの力を用いて様々な医 療課題の解決に取り組んでいます。主に医療従事者に対して アプローチしながらも、同時にその先の一般の方々に対して もサービス提供を行い、総合的に人々の健康的な毎日を少し でも改善することを目指し様々なプロダクトの開発を行ってお ります。多くの医療者をユーザーに抱えるエムスリーだからこ そできるやり方で、多くの人々の健康に対して貢献していま す。 エムスリーエンジニアリンググループ紹介資料 
 https://speakerdeck.com/m3_engineering/introduction-of-m3-engineering-group-2022 


Slide 7

Slide 7 text

#srenext_b
 開発組織の特徴
 ● 事業ドメインや役割に合わせた多数のチーム
 7 Unit1 (製薬企業)
 Unit3 (新領域)
 Unit4 (サイトプロモ) 
 Unit5 (コンシューマ) 
 Unit6 (キャリア)
 Unit7 (BIR)
 Unit9 (治験)
 デジカル
 デジスマ
 事業チーム (9)
 SRE
 基盤
 マルチデバイス
 セキュリティ
 QA
 データ基盤
 AI機械学習
 グループ会社支援
 グローバル支援
 プロダクト支援
 横断チーム (10)


Slide 8

Slide 8 text

#srenext_b
 開発組織の特徴
 ● チームごとの裁量が大きく、技術選定も各チームで実施する
 ○ 言語、FW、クラウドサービスなどチームで最適なものを選択
 
 ● 特徴が異なる多数のプロダクトを開発している
 ○ 電子カルテや決済アプリは診療に必須で高度な安定性が求められる
 ○ 講演会のライブ配信はトラフィックが集中するのでスパイク耐性が必要
 8

Slide 9

Slide 9 text

#srenext_b
 現在のSREの体制
 9 Central SRE
 SREチームに所属
 7名 (一部Embedded SREを兼務) 
 
 全社横断的な施策の推進
 クラウドインフラ全体の管理
 Embedded SREのサポート
 
 Embedded SRE
 各開発チームに所属
 1チームに2〜4名ほど
 
 チーム内の活動の主体的な推進 
 担当プロダクトのSRE全般
 (モニタリング、オンコールなど)
 


Slide 10

Slide 10 text

#srenext_b
 ハイブリッド体制への変遷
 10

Slide 11

Slide 11 text

#srenext_b
 SRE組織の変遷
 11 オンプレミス時代
 クラウド移行時代
 クラウド主流時代
 インフラチームが
 SRE的な役割も含めて
 集中的に管轄
 (Central SREのみ)
 Embedded SRE発足
 クラウドインフラ管理や
 SRE的な役割を徐々に
 チームへと移譲
 Central SREと
 Embedded SREの
 ハイブリッド体制の確立


Slide 12

Slide 12 text

#srenext_b
 Embedded SREの立ち上げ
 12 要員をどう確保するか
 新規採用によるメンバー増
 既存メンバーへのEnabling
 初期はCentral SREと密に連携
 軽微なものから徐々に業務を移譲
 どのように始めるか
 誰が主体的に進めるか
 チームが主体性をもって体制構築
 あくまでチーム内で要員を立てる


Slide 13

Slide 13 text

#srenext_b
 ハイブリッド体制のSREの実践
 13

Slide 14

Slide 14 text

#srenext_b
 ハイブリッド体制のメリット/デメリット
 14 チーム専任のSREによるプロダクトの特性に合った細かい対応が可能
 適切な業務の移譲によってCentral SREへの負荷集中が避けられる
 作業や意思決定の多くがチーム内で完結するためスピードが上がる
 知見やポストモーテムが各チームに散らばり共有されにくい
 プロダクトの動作に影響を与える変更をまとめて把握しづらい
 モニタリングやインシデント対応のツール/サービスを統一しづらい


Slide 15

Slide 15 text

#srenext_b
 役割分担のバランス
 15 Embedded SRE分散向き Central SRE集中向き 組織規模 大規模 比較的小規模 プロダクト マルチプロダクト 特性が異なるプロダクト 単一プロダクト 技術スタック 幅が広い 統一されている (したい) 共通プラットフォームがある SRE 要員 多い 少ない ● Embedded SREに分散していく状態を目指している
 ○ 開発チームの裁量を大きくするため


Slide 16

Slide 16 text

#srenext_b
 役割分担の具体例
 16 Embedded SRE
 Central SRE
 サービスのリリース
 CI/CDパイプラインの作成
 アラートやモニタリングの整備
 共通NWの管理
 CI/CDインフラの管理
 モニタリングSaaS等の管理


Slide 17

Slide 17 text

#srenext_b
 集中管理すべきかどうか?
 「ベースラインを設定したいか」が1つの判断軸
 満たすべき状態を目指して仕組みづくりやサポートをする
 17

Slide 18

Slide 18 text

#srenext_b
 今後のSRE組織の展望について
 18

Slide 19

Slide 19 text

#srenext_b
 今後の展望
 ● 現在の体制の改善
 ○ Embedded SRE:プロダクトSREとしてより成熟した状態を目指す
 ○ Central SRE:ハブとなって各Embedded SREをサポートする
 
 ● 「次の大きな変化」を見据えた体制の改善
 ○ フルクラウド化、マルチクラウド化
 ○ グループ会社への拡大、グローバル展開
 ○ その他、テクノロジーの大きなパラダイムシフト
 19

Slide 20

Slide 20 text

#srenext_b
 コミュニケーションの活性化
 ● SREが集まって相談や知見共有する場を月1で設けた
 ○ DBバージョンアップの不具合共有、SRE体制の強化に向けた議論など
 ○ 集まって話す場を作るという点で意義があった
 
 ● 今後やっていきたいこと
 ○ 非同期コミュニケーションの活性化
 ○ 出入り自由のOffice Hour
 ○ 蓄積された情報の効果的な活用
 20 共有会をより効果的にするために考えたあれやこれ 
 https://www.m3tech.blog/entry/2023/12/08/110000 


Slide 21

Slide 21 text

#srenext_b
 Embedded SREへの落下傘
 Central SREが開発チームに期間限定で参画する仕組みを試行中
 21 負荷状況に応じたリソース調整
 Central SREからの知見の伝達
 プロダクトに近い現場での経験
 ベースラインへの底上げ
 Embedded SREの状況・知見の獲得 


Slide 22

Slide 22 text

#srenext_b
 まとめ
 ● 弊社のハイブリッドなSRE体制について紹介しました。
 ● SRE組織の体制について本発表も含めて実事例やプラクティスは多 くありますが唯一の正解はありません。
 ● あまり型にハマりすぎず自社にとって”最高”な形を目指して改善し ていくことが重要です。
 22