Slide 1

Slide 1 text

No content

Slide 2

Slide 2 text

株式会社サイバーエージェント
 メディア統括本部サービスリライアビリティグループ  マネージャー
 CyberAgent Developer Expert of SRE
 柘植 翔太 Tsuge Shota
 @tsugeshota 
 @shotaTsuge


Slide 3

Slide 3 text

00
Introduction


Slide 4

Slide 4 text

Introduction
 本セッションで話すこと
 ・SRE組織俯瞰  サイバーエージェントグループでの SREパターンとSREsの傾向
 ・横断SREsの組織戦略
  組織としての成り立ちとフェーズ毎の体制、役割の 変化
  横断組織としてプロダクトチームへ SREを推進するための組織開発
 
 ・横断的SRE推進
  SRE成熟度評価の概要と活用によって 得られたこと
  今後の展望
 00


Slide 5

Slide 5 text

Introduction
 表記の注意
 ・SRE  Site Reliability Engineering
  本セッションでは、 職種ではなく概念の総称を表す
 ・SREs
  概念ではなく職種や組織
  本セッションでは、SRE推進に取り組むエンジニアや組織を表す 
 00


Slide 6

Slide 6 text

サイバーエージェントグループのSRE組織俯瞰
 事業部横断SREsとしての組織戦略
 横断アプローチによるSRE推進
 今後の展望
 01
 02
 03
 04
 CONTENTS


Slide 7

Slide 7 text

01
サイバーエージェントグループの
 SRE組織俯瞰


Slide 8

Slide 8 text

サイバーエージェントグループの SRE組織俯瞰
 01
 ※ 弊社コーポレートサイト参照 


Slide 9

Slide 9 text

01
 サイバーエージェントグループの SRE組織俯瞰
 メディア事業
 インターネット
 広告事業
 ゲーム事業
 ・「ABEMA」
 ・「Ameba」 
 ・「タップル」等
 ・AI 事業
 ・AI 技術の研究・開発
 ・DX 事業等
 ・「グランブルーファンタジー」 
 ・「ウマ娘 プリティーダービー」 
 ・「戦国炎舞 -KIZNA-」等


Slide 10

Slide 10 text

サイバーエージェントグループの SRE組織俯瞰
 データで見るサイバーエージェントグループのSRE
 ・SREの組織と実装パターン   ・SREの組織俯瞰
  
 ・SREsの活用技術傾向
 01


Slide 11

Slide 11 text

サイバーエージェントグループの SRE組織俯瞰
 データで見るサイバーエージェントグループのSRE
 ・SREの組織と実装パターン   ・SREの組織俯瞰
  
 ・SREsの活用技術傾向
 01


Slide 12

Slide 12 text

01
 サイバーエージェントグループの SRE組織俯瞰
 ①単一プロダクト専任 SREs
 ②子会社専任SREs
 ③事業部横断SREs
 SRE組織パターン


Slide 13

Slide 13 text

Product SRE
 Embedded SRE
 Platform SRE
 SRE Center of Practice
 各プロダクトの開発チームに所属し、信頼性向上へ取り組むSREs
 Enablementフェーズ:SREを組織へ浸透し、自立支援に取り組むSREs
 Evangelistフェーズ:SREの強化や改善を行うSREs
 共通基盤の信頼性や開発生産性向上へ取り組むSREs
 横断的に展開できるSREプラクティス開発や導入へ取り組むSREs
 緊急かつ高重要度の案件毎にチーム編成し、案件完遂に取り組むSREs
 01
 サイバーエージェントグループの SRE組織俯瞰
 SRE実装パターン
 Movable Embedded SRE


Slide 14

Slide 14 text

サイバーエージェントグループの SRE組織俯瞰
 データで見るサイバーエージェントグループのSRE
 ・SREの組織と実装パターン   ・SREの組織俯瞰
  
 ・SREsの活用技術傾向
 01


Slide 15

Slide 15 text

メディア事業
 01
 サイバーエージェントグループの SRE組織俯瞰


Slide 16

Slide 16 text

新卒と中途の割合は、おおよそ半々
 多くの新卒SREsが活躍している
 入社5年以上が、6割を超えている
 現在は、メディアの割合が多いが、ゲー ムやAIでの需要も増えている
 01
 サイバーエージェントグループの SRE組織俯瞰
 入社年数
 入社形態
 事業部管轄


Slide 17

Slide 17 text

8割のSRE組織が、複数プロダクトの
 SRE推進に取り組んでいる
 5割のSRE組織が、4人以下
 01
 サイバーエージェントグループの SRE組織俯瞰
 組織
 パターン
 所属人数
 チーム立ち 上げ年数
 立ち上げて4年以上のSRE組織が、
 7割を超えている


Slide 18

Slide 18 text

SRE実装パターン
 Product SREとEnabling SREが多い傾向
 全ての事業部横断SREsが、SRE Center of Practiceを実装している
 01
 サイバーエージェントグループの SRE組織俯瞰


Slide 19

Slide 19 text

ファーストキャリア
 ファーストキャリアの8割が、バックエンドやインフラエンジニア
 新卒SREsの割合も増えてきている
 01
 サイバーエージェントグループの SRE組織俯瞰


Slide 20

Slide 20 text

サイバーエージェントグループの SRE組織俯瞰
 データで見るサイバーエージェントグループのSRE
 ・SREの組織と実装パターン   ・SREの組織俯瞰
  
 ・SREsの活用技術傾向
 01


Slide 21

Slide 21 text

1.プラットフォーム
 2.監視
 全SRE組織が、AWSを活用している
 また、7割以上のSRE組織が、Kubernetesを活用している
 Datadogは、SLO監視や可観測性ツールとしての活用も
 多い傾向がみられた
 01
 サイバーエージェントグループの SRE組織俯瞰


Slide 22

Slide 22 text

3.On-Call
 4.CI/CD
 9割のSRE組織が、On-Callソリューションを
 活用している
 長期運用しているサービスでは、Jenkinsの活用が多い傾向
 にあったが、Argo CDとPipeCDの活用も増えている
 01
 サイバーエージェントグループの SRE組織俯瞰


Slide 23

Slide 23 text

5.IaC/CaC
 全SRE組織が、Terraformを活用している
 6.k8s Manifest/deploy管理
 01
 サイバーエージェントグループの SRE組織俯瞰
 Helm、Kustomizeの活用が多い傾向にある


Slide 24

Slide 24 text

7.DB
 全SRE組織が、Redisを活用している
 MySQLとMongoDBの活用が多い傾向にある
 01
 サイバーエージェントグループの SRE組織俯瞰


Slide 25

Slide 25 text

8.CDN
 9.開発言語(SREsが業務で使っている) 
 全SRE組織が、Amazon CloudFrontを活用している
 全SRE組織が、shell scriptを活用している
 また、Go、Pythonの活用が多い傾向にある
 01
 サイバーエージェントグループの SRE組織俯瞰


Slide 26

Slide 26 text

01
 サイバーエージェントグループの SRE組織俯瞰
 SRE Technology Map 2023 公開中


Slide 27

Slide 27 text

02
事業部横断SREsとしての組織戦略


Slide 28

Slide 28 text

02
 事業部横断SREsとしての組織戦略 
 SRGの担当領域(一部抜粋)
 ※ 過去には、ABEMAやタップルや新R25なども担当


Slide 29

Slide 29 text

事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 
 2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト


Slide 30

Slide 30 text

事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 
 2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト


Slide 31

Slide 31 text

事業部横断SREsとしての組織戦略 
 メディア事業のインフラ組織(〜2015年)
 ・SRGの前身となるインフラ組織
  オンプレ中心の昔ながらのインフラエンジニア 
   → クラウド活用中心のサービスインフラエンジニアへシフト 
 
 ・役割
  サーバのラッキングや OS、ミドルウェアのセットアップ 
   → Provisioning、Scalability、Performance、Monitoring、On-Call、Security…
 
 ・課題
  メディアサービス、基盤システムの 運用やアラートノイズに疲弊 
  個々のサービス知識やスキルセットへの 依存が大きい
 02


Slide 32

Slide 32 text

事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 
 2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト


Slide 33

Slide 33 text

事業部横断SREsとしての組織戦略 
 担当チーム制
 02
 Event Normal
 参照高負荷サービス
 SREs
 TEAM A
 TEAM B
 TEAM C
 TEAM D
 基盤プロダクト A
 基盤プロダクト B
 基盤プロダクト C
 更新高負荷サービス
 配信高負荷サービス
 共通基盤サービス
 … サービス A
 プロダクト A
 プロダクト B
 … サービス B
 … 子会社 A
 サービス A
 サービス B
 … サービス C
 … 基盤プロダクト D
 サービス A
 サービス B
 サービス C
 … サービス D


Slide 34

Slide 34 text

事業部横断SREsとしての組織戦略 
 メディア事業横断のSRE組織へシフト(2016年〜)
 ・担当チーム制のSRE組織(2016年〜2019年)
  2015年末に、SREを目指そうと組織名を SRGへ変更
  負荷パターンやドメインなどの サービス特性毎にチーム編成 
  
 ・役割
  Provisioning、Scalability、Performance、Monitoring、On-Call、Security… 
   → プロダクトでのSRE実行
 
 ・課題
  サービス特性毎の担当チーム制の為、 退職や組織変更による影響が大きい 
  チーム毎に独立しており、横断組織としての シナジーが出しにくい 
 02


Slide 35

Slide 35 text

事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 
 2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト


Slide 36

Slide 36 text

事業部横断SREsとしての組織戦略 
 プロジェクト制
 02
 サービス A
 SREs 
 (Movable)Enbedded SRE
 SRE Center of Practice
 Enabling SRE
 サービス B
 子会社 A
 プロダクト A
 … サービス C
 プロジェクト C
 … プロダクト B
 プロジェクト B
 プロダクト C
 … プロジェクト A
 ※ プロジェクトは、四半期もしくは半期毎に各プロダクトチームと対話し更新 


Slide 37

Slide 37 text

事業部横断SREsとしての組織戦略 
 メディア事業横断のSRE組織へシフト(2016年〜)
 ・プロジェクト制のSRE組織へシフト(2020年〜)
  プロダクトチームが、 自律的にSRE改善が行える体制づくり へシフト
  自分達の組織にあった SREを再定義する
   信頼性を機能として扱うためのプラクティスや組織文化 
   信頼性を直接的/間接的に改善していくためのプラクティス 
 ・役割
  プロダクトチームへSREをインストールする
  SREを推進するための役割で、 SREを実行する役割ではない 
   → SREsとして提供する価値を明確化する必要がある 
 02


Slide 38

Slide 38 text

事業部横断SREsとしての組織戦略 
 SREsとして提供する価値の明確化
 02
 プロジェクトニーズへのコミットメント 
 ・システム刷新
 ・コスト、運用最適化
  ・監視、インシデント対応、
  ・ポストモーテム、トイル撲滅、IaCなど
 ・SLO導入
 ・新規サービス立ち上げ支援
 ・負荷対策
 SREサポート
 ・スポット、インシデント対応
 ・各種相談
  ・インフラ設計、技術選定など
 ・プラクティス開発提供、組織間連携支援など
 ・現状分析によるリスク管理
  ・SRE成熟度評価、CA W-Aなど
 ・SRE組織立ち上げ、Enabling支援
 (Movable)Embedded SRE
 SRE Center of Practice / Enabling SRE
 (社内向けSRE as a Serviceの提供)


Slide 39

Slide 39 text

事業部横断SREsとしての組織戦略 
 SRE推進する上での課題
 ・SRE推進するには、現在地を知る必要がある
  現在地を知らなければ、理想状態へ近づくことができない 
   → 各断層の理想状態がわかれば、改善すべきことと 
     優先順位が決めやすい 
 
 ・物理的に全プロダクトへEmbeddedする
  ことは難しい
  事業部全体を俯瞰しデータ化することで、事業として 
  の優先順位が決めやすい 
   → プロダクト責任者とのコンセンサスや 
     横断的なSRE推進がしやすい
 
 
 02
 モニタリング 
 インシデント対応 
 ポストモーテム / 根本原因分析 
 テスト及びリリース手順 
 キャパシティブランニング 
 開発
 プロダクト
 Fig. サービス信頼性の断層 


Slide 40

Slide 40 text

03
横断アプローチによるSRE推進


Slide 41

Slide 41 text

横断アプローチによる SRE推進
 SRE成熟度評価
 03


Slide 42

Slide 42 text

横断アプローチによる SRE推進
 能力成熟度モデル統合をベースに作成
 03
 ※ サービス信頼性の断層等を参考に必要項目をリスト化し、評価しやすくする為に極力シンプルにしている 


Slide 43

Slide 43 text

横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと 
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 3.改善実施
 ・改善計画を元に実施


Slide 44

Slide 44 text

横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと 
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 ・改善計画を元に実施
 3.改善実施


Slide 45

Slide 45 text

横断アプローチによる SRE推進
 Lv.3 ガイドライン
 ・各項目のベストプラクティスを考える上での観点を質問にしたもの  汎用化するために、敢えて抽象的な質問にしている 
  成熟度レベル評価や改善の参考として、ナレッジ提供も行う 
 ・全てを満たしている必要はない
  各プロダクトにおいての理想状態( Lv.3)は違う
 03


Slide 46

Slide 46 text

横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと 
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 ・改善計画を元に実施
 3.改善実施


Slide 47

Slide 47 text

横断アプローチによる SRE推進
 サービスレベル目標:Lv.3
 ・定義
  SLOとユーザーの満足度を関連付けている 
 
 ・計測
  ユーザーに近い位置から計測されており、 SLOの悪化とサービス影響が紐づいている 
 
 ・振り返り
  SLOを振り返る機会が定期的に設定されている 
 
  ※ 一部抜粋
 03


Slide 48

Slide 48 text

横断アプローチによる SRE推進
 監視:Lv.3
 ・要件定義  監視の目的が定義され、要件にあった監視ソリューションが選択されている 
 ・メトリクス
  メトリクスの取得頻度や保存期間が適切に設定されている 
 
 ・アラート
  アラートメッセージに必要な情報が整理されている 
  送られたアラートログを元に、定期的にアラート設定は見直されている 
 ・コスト
  監視にかかっているコストが可視化され、定期的に見直しされている 
 
  ※ 一部抜粋
 03


Slide 49

Slide 49 text

横断アプローチによる SRE推進
 インシデント対応:Lv.3
 ・インシデントレベルと役割  ユーザー影響に伴ったインシデントレベルが定義されており、インシデントレベル毎に 
  業務時間外での対応方針やメンテナンスイン基準が定義されている 
 
 ・オンコール、検知とトリアージ
  休暇や手当などのオンコールに対する補償が用意されている 
  ユーザの問い合わせよりも早く、インシデント発生を検知することができている 
 
 ・情報共有、事後対応
  必要に応じて、ユーザに対してインシデント状況の報告が行えている 
 
   ※ 一部抜粋
 03


Slide 50

Slide 50 text

横断アプローチによる SRE推進
 ポストモーテム:Lv.3
 ・インシデント発生時  ポストモーテムを書くかどうかの基準が定められている 
 
 ・記載内容
  システム影響だけではなく、ユーザー影響まで記載されている 
 
 ・振り返り
  ポストモーテム自体の過不足や書くことへの負荷について振り返りできている 
 
  ※ 一部抜粋
 03


Slide 51

Slide 51 text

横断アプローチによる SRE推進
 トイルの撲滅:Lv.3
 ・トイルの整理  トイルに該当する運用作業が定められており、共通認識できている 
  トイルに該当する運用作業が継続的に可視化されている 
 
 ・トイルの改善
  機能開発と同じ枠組みで計画的にトイルの改善が行えている 
  トイルバジェットなど改善優先度を上げられる仕組みがあるか 
 
  ※ 一部抜粋
 03


Slide 52

Slide 52 text

横断アプローチによる SRE推進
 改善計画の作成
 ・四半期 or 半期毎の改善計画を作成  組織や個人の目標へ組み込むため 
  Lv.1の項目から、優先的に改善計画を立てる 
 ・改善担当者を決める
  オーナーが決まっていないと改善が進まないため 
 
 ・議事録に残す
  現状と理想状態の認識合わせのため 
 03


Slide 53

Slide 53 text

横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと 
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 ・改善計画を元に実施
 3.改善実施


Slide 54

Slide 54 text

横断アプローチによる SRE推進
 改善実施と現在の推進状況
 ・SREsだけで改善をしない  プロダクトチームが、 自律的にSRE改善が行えることが重要
  一緒に、SRE改善することは問題ない 
 
 ・SRG担当の全主要サービスへ導入済  約20サービス(プロダクト数としては、 60以上)
  SRG担当外への導入も推進中 
 
 ・リスクの高いものから優先的に改善  ポストモーテム、インシデント対応、監視 
  横断的な改善計画と目標の定量化が重要 
 03
 モニタリング 
 インシデント対応 
 ポストモーテム / 根本原因分析 
 テスト及びリリース手順 
 キャパシティブランニング 
 開発
 プロダクト


Slide 55

Slide 55 text

横断アプローチによる SRE推進
 1年での改善実績(2022/03〜2023/03)
 ・優先的に、ポストモーテム、インシデント対応、監視を改善
  SRG担当の全主要プロダクトのポストモーテム、インシデント対応、監視を Lv.2以上へ改善
 03
 Lv.1 → Lv.2
 Lv.2 → Lv.3
 サービスレベル目標 
 3
 1
 監視
 2
 6
 インシデント対応
 5
 5
 ポストモーテム
 6
 5
 トイルの撲滅
 2
 1
 監視、インシデント対応の改善 
 ・ETTD(推定検出時間)短縮 
 ・ETTR(推定復旧時間)短縮 
 
 ポストモーテムの改善  
 ・ETTF(次の障害発生までの時 間)延長


Slide 56

Slide 56 text

横断アプローチによる SRE推進
 評価してみての気づき
 ・チェックリストは、Enablementに不向き
  チェックリストを埋めることが目的になりやすい 
  チェックリストにできるものは、チェック自体を自動化すべき 
 ・基準や定義のドキュメントが足りていない
  共通言語化ができていないことが多かった 
  プロダクトについて、みんなで向き合う時間が作れてよかった 
 
 ・真似したい取り組みを発掘できた
  素晴らしいプラクティスにたくさん出会えた 
 03


Slide 57

Slide 57 text

04
今後の展望


Slide 58

Slide 58 text

今後の展望
 SRE成熟度評価
 ・スケール可能な体制の強化  SRE成熟度評価者による評価の差異を最小限にしたい 
  オンボーディングとオフボーディングの整備 
 
 ・品質向上  SRG以外のSREsや組織との連携強化と各項目の Lv.3のブラッシュアップ
  SRE成熟度改善を促進させるパッケージの追加提供 
 
 ・サイバーエージェントグループ全体への導入改善
  全主要プロダクトのポストモーテム、インシデント対応、監視を Lv.2以上へ改善
  サイバーエージェントグループ全体へ、 SREをインストールする
 04


Slide 59

Slide 59 text

今後の展望
 SRGの強化領域
 ・Business Observabilityの強化  SRE推進によるビジネスインパクトの 観測強化
 
 ・Enabling SREの強化
  SRE推進・リスク管理パッケージの開発提供などによる 信頼性強化
  AI活用によるトイル撲滅やインシデント対応、負荷対策などの 運用最適化
 
 ・Cloud FinOpsの強化
  自律的なコスト意識文化確立と コスト最適化
 04


Slide 60

Slide 60 text

ご視聴ありがとうございました