Slide 1

Slide 1 text

安心・安全なサービスを提供するための 横断的なSRE推進の取り組み 株式会社サイバーエージェント 柘植 翔太

Slide 2

Slide 2 text

柘植翔太 @shotaTsuge •株式会社サイバーエージェント メディア統括本部サービスリライアビリティグループ(SRG) マネージャー(事業責任者)兼 SRE CyberAgent Developer Expert of SRE •社歴 2014新卒入社 バックエンドエンジニア -> インフラエンジニア -> SRE Ameba、AWA、WinTicket、社内基盤など50以上の メディアサービス・システムを担当 •その他 社外活動:SRE NEXT 2024 Co-Chair https://ca-srg.dev

Slide 3

Slide 3 text

本セッションで話すこと •SRE組織俯瞰 サイバーエージェントグループでのSREパターンとSREsの傾向 •横断SREsの組織戦略 組織フェーズ毎の体制と役割の変化 SREsとして提供する価値を最大化するための組織開発 •「攻め」を「守る」ための取り組み SRE成熟度評価とSRE信頼度計測の概要と活用によって得られたこと

Slide 4

Slide 4 text

表記の注意 •SRE Site Reliability Engineering 本セッションでは、職種ではなく概念の総称を表す •SREs 概念ではなく職種や組織 本セッションでは、SRE推進に取り組むエンジニアや組織を表す

Slide 5

Slide 5 text

1.サイバーエージェントとは 2.サイバーエージェントグループのSRE組織俯瞰 3.事業部横断SREsとしての組織戦略 4.「攻め」を「守る」ためのSREsとしての取り組み 5.今後の展望

Slide 6

Slide 6 text

サイバーエージェントとは

Slide 7

Slide 7 text

サイバーエージェントとは • ビジョン 21世紀を代表する会社を創る •代表取締役 藤田 晋 Fujita Susumu(創業者) • 沿革 1998年 設立 2000年 東証マザーズに上場 2014年 東証一部に上場 2022年 東証プライム市場へ • 連結役職員数 7,336名(2023年12月末時点) •ミッションステートメント cf. 新規投資家向け資料

Slide 8

Slide 8 text

サイバーエージェントとは •インターネット産業に軸足をおいた、3本柱の事業ポートフォリオ 連結子会社数:90社(2023年9月時点) cf. 新規投資家向け資料

Slide 9

Slide 9 text

サイバーエージェントとは •弊社が目指す存在意義を明文化した「パーパス」を2021年10月に制定 cf. 新規投資家向け資料

Slide 10

Slide 10 text

サイバーエージェントとは •幅広い事業サービスを提供 cf. 弊社コーポレートサイト

Slide 11

Slide 11 text

サイバーエージェントグループの SRE組織俯瞰

Slide 12

Slide 12 text

サイバーエージェントグループのSRE組織俯瞰 •SREの組織と実装パターン •SREの組織俯瞰 •SREsの活用技術傾向

Slide 13

Slide 13 text

サイバーエージェントグループのSRE組織俯瞰 •SREの組織と実装パターン •SREの組織俯瞰 •SREsの活用技術傾向

Slide 14

Slide 14 text

サイバーエージェントグループのSRE組織俯瞰 •SRE組織パターン ①単一プロダクト専任SREs ②子会社専任SREs ③事業部横断SREs cf. SRE Technology Map

Slide 15

Slide 15 text

サイバーエージェントグループのSRE組織俯瞰 •SRE実装パターン Product SRE Embedded SRE Platform SRE SRE Center of Practice 各プロダクトの開発チームに所属し、信頼性向上へ取り組むSREs Enablementフェーズ:SREを組織へ浸透し、自立支援に取り組むSREs Evangelistフェーズ:SREの強化や改善を行うSREs 共通基盤の信頼性や開発生産性向上へ取り組むSREs 横断的に展開できるSREプラクティス開発や導入へ取り組むSREs 緊急かつ高重要度の案件毎にチーム編成し、案件完遂に取り組むSREs Movable Embedded SRE cf. SRE Technology Map

Slide 16

Slide 16 text

サイバーエージェントグループのSRE組織俯瞰 •SREの組織と実装パターン •SREの組織俯瞰 •SREsの活用技術傾向

Slide 17

Slide 17 text

サイバーエージェントグループのSRE組織俯瞰 cf. SRE Technology Map •メディア事業

Slide 18

Slide 18 text

サイバーエージェントグループのSRE組織俯瞰 現在は、メディアの割合が多いが、 ゲームやAIでの需要も増えている 事業部管轄 8割のSRE組織が、複数プロダクトの SRE推進に取り組んでいる 組織 パターン 5割のSRE組織が、4人以下 所属人数 cf. SRE Technology Map

Slide 19

Slide 19 text

サイバーエージェントグループのSRE組織俯瞰 •SRE実装パターン Product SREとEnabling SREが多い傾向 全ての事業部横断SREsが、SRE Center of Practiceを実装している cf. SRE Technology Map

Slide 20

Slide 20 text

サイバーエージェントグループのSRE組織俯瞰 •SREの組織と実装パターン •SREの組織俯瞰 •SREsの活用技術傾向

Slide 21

Slide 21 text

サイバーエージェントグループのSRE組織俯瞰 1.プラットフォーム 2.監視 全SRE組織が、AWSを活用している また、7割以上のSRE組織が、Kubernetesを活用している Datadogは、SLO監視や可観測性ツールとしての活用も 多い傾向がみられた cf. SRE Technology Map

Slide 22

Slide 22 text

サイバーエージェントグループのSRE組織俯瞰 cf. SRE Technology Map 3.On-Call 4.CI/CD 9割のSRE組織が、On-Callソリューションを 活用している 長期運用しているサービスでは、Jenkinsの活用が多い傾向 にあったが、Argo CDとPipeCDの活用も増えている

Slide 23

Slide 23 text

サイバーエージェントグループのSRE組織俯瞰 cf. SRE Technology Map 5.IaC/CaC 全SRE組織が、Terraformを活用している 6.CDN 全SRE組織が、Amazon CloudFrontを活用している

Slide 24

Slide 24 text

サイバーエージェントグループのSRE組織俯瞰 cf. SRE Technology Map 7.Database 全SRE組織が、Redisを活用している MySQLとMongoDBの活用が多い傾向にある

Slide 25

Slide 25 text

サイバーエージェントグループのSRE組織俯瞰 cf. SRE Technology Map 8.負荷・障害試験ツール Locust、Apache JMeterの活用が多い傾向にある 近年は、Grafana k6の活用も増加傾向にある 9.Postmortem ドキュメントソリューションの活用が多い傾向にある

Slide 26

Slide 26 text

サイバーエージェントグループのSRE組織俯瞰 cf. SRE Technology Map 10.インシデント管理 ドキュメントソリューション活用が多い傾向にあったが、 Datadog Incident Managementの活用も増えている

Slide 27

Slide 27 text

サイバーエージェントグループのSRE組織俯瞰 •SRE Technology Mapの紹介 弊社のSREチームの取り組みや事業部ごとの体制、カルチャーついて網羅的にまとめたもの https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

Slide 28

Slide 28 text

事業部横断SREsとしての 組織戦略

Slide 29

Slide 29 text

事業部横断SREsとしての組織戦略 •サービスリライアビリティグループ(SRG) メディア事業横断のSRE組織 Ameba、AWA、CL、WnTicket、社内基盤サービスなど、100以上のサービス・システムを担当 ※ 過去には、ABEMAやタップルや新R25なども担当

Slide 30

Slide 30 text

事業部横断SREsとしての組織戦略 •SRGの組織遍歴 〜2015年:メディア事業のインフラ組織 2015年〜:メディア事業横断のSRE組織へシフト 2022年〜:横断SRE組織を事業化し、メディア事業外へのSRE支援も推進 社内向けSRE as a Serviceを提供(担当プロダクト制を廃止し、プロジェクト制へシフト) 〜2015年 SRGの前身となる インフラ組織 2016〜2019年 担当チーム制のSRE組織 2020年〜 プロジェクト制のSRE組織 メディア事業の インフラ組織 メディア事業横断のSRE組織へシフト

Slide 31

Slide 31 text

事業部横断SREsとしての組織戦略 •担当チーム制のSRE組織における課題 サービス特性毎の担当チーム制の為、退職や組織変更による影響が大きい チーム毎に独立しており、横断組織としてのシナジーが出しにくい Event Normal
 参照高負荷サービス SREs TEAM A TEAM B TEAM C TEAM D 基盤プロダクト A 基盤プロダクト B 基盤プロダクト C 更新高負荷サービス 配信高負荷サービス 共通基盤サービス … サービス A
 プロダクト A プロダクト B … サービス B … 子会社 A
 サービス A サービス B … サービス C … 基盤プロダクト D サービス A サービス B サービス C … サービス D

Slide 32

Slide 32 text

事業部横断SREsとしての組織戦略 •プロジェクト制のSRE組織へシフト(2020年〜) プロジェクトは、四半期もしくは半期毎に各プロダクトチームと対話し更新 サービス A SREs  (Movable)Enbedded SRE SRE Center of Practice Enabling SRE サービス B 子会社 A プロダクト A … サービス C プロジェクト C … プロダクト B プロジェクト B プロダクト C … プロジェクト A


Slide 33

Slide 33 text

事業部横断SREsとしての組織戦略 •プロジェクト制のSRE組織へシフト(2020年〜) プロダクトチームが、自律的にSRE改善が行える体制づくりへシフト 自分達の組織にあったSREを再定義する 信頼性を機能として扱うためのプラクティスや組織文化 信頼性を直接的/間接的に改善していくためのプラクティス •役割 プロダクトチームへSREをインストールする SREを推進するための役割で、SREを実行する役割ではない •課題 SREsとして提供する価値を明確化する必要がある 事業管轄を超えてSREを推進(信頼性を担保)していきたい

Slide 34

Slide 34 text

事業部横断SREsとしての組織戦略 •横断SRE組織を事業化(2022年〜) SREsとして提供する価値の明確化(社内向けSRE as a Serviceの提供) プロジェクトニーズへのコミットメント ・システム刷新 ・コスト、運用最適化  ・監視、インシデント対応、  ・ポストモーテム、トイル撲滅、IaCなど ・SLO導入 ・新規サービス立ち上げ支援 ・負荷対策 SREサポート ・スポット、インシデント対応 ・各種相談  ・インフラ設計、技術選定など ・プラクティス開発提供、組織間連携支援など ・現状分析によるリスク管理  ・SRE成熟度評価、CA W-A、ケイパビリティ分析など ・SRE組織立ち上げ、Enabling支援 ・コーチング、リスキリングなど (Movable)Embedded SRE SRE Center of Practice / Enabling SRE

Slide 35

Slide 35 text

事業部横断SREsとしての組織戦略 •横断SRE組織を事業化(2022年〜) SREsとしての価値の可視化(プロジェクト管理の強化)

Slide 36

Slide 36 text

「攻め」を「守る」ための SREsとしての取り組み

Slide 37

Slide 37 text

サイバーエージェントには 「リスクを最小限に抑えながらも、ビジネス目標を達成するために、最新 のツールやテクノロジーを積極的に導入する」 という技術カルチャーがあります。 そういった「攻め」を「守る」ために、サービスやプロダクトの信頼性や可用性を担保す る役割を担っています。 例えばクラウド環境におけるWell-Architectedやトラブルシューティングなどがそれにあたり ます。 cf. サービスの信頼性と可用性を担保するSREが目指す「サイバーエージェント流ベストプラクティス」模索の道のり

Slide 38

Slide 38 text

「攻め」を「守る」ためのSREsとしての取り組み •「攻め」を「守る」ためにも、まずは現在地を知る必要がある 現在地を知らなければ、理想状態へ近づくことができない 各断層の理想状態がわかれば、改善すべきことと優先順位が決めやすい •物理的に全プロダクトへEmbeddedすることは難しい 事業部全体を俯瞰しデータ化することで、 事業としての優先順位が決めやすい SRE成熟度評価とSRE信頼度計測というアプローチを開発し、 SRE改善に取り組んでいる Fig. サービス信頼性の断層 モニタリング インシデント対応 ポストモーテム / 根本原因分析 テスト及びリリース手順 キャパシティブランニング 開発 プロダクト

Slide 39

Slide 39 text

「攻め」を「守る」ためのSREsとしての取り組み •SRE成熟度評価とSRE信頼度計測 目的:リスク管理とSRE導入・改善推進 ・ターゲット  ・技術、事業責任者向け  ・任意のプロダクトへ導入 ・質問項目の違い  ・あくまで指標であり、対応必須項目でない 目的:役員管轄毎のシステム信頼性(リスク)の把握 ・ターゲット  ・役員向け  ・注力プロダクトへ導入 ・質問項目の違い  ・対応必須項目のみ(条件によっては一部例外あり) SRE成熟度評価 SRE信頼度計測

Slide 40

Slide 40 text

SRE成熟度評価

Slide 41

Slide 41 text

SRE成熟度評価 •能力成熟度モデル統合をベースに作成 サービス信頼性の断層等を参考に必要項目をリスト化し、評価しやすくする為に 極力シンプルにしている

Slide 42

Slide 42 text

SRE成熟度評価 •SRE成熟度の評価と改善の流れ 1.準備 ・SRE成熟度評価の説明 ・実施プロダクトの共有 2.評価と計画 ・各項目の成熟度レベルと 理想状態の認識合わせ ・改善計画の作成 ・四半期 or 半期毎に再評価 3.改善実施 ・改善計画を元に実施

Slide 43

Slide 43 text

SRE成熟度評価 •SRE成熟度評価のガイドライン 下記、項目(一部抜粋)に対して口頭でヒアリングを実施していく 各プロダクトにおいての理想状態(Lv.3)は違う

Slide 44

Slide 44 text

SRE成熟度評価 •SRE成熟度評価の改善実施 Lv.2を満たすための必須項目も設定しており、優先的に改善を実施していく SRE成熟度評価や改善の参考として、ナレッジ提供も行う

Slide 45

Slide 45 text

SRE成熟度評価 •得られた気づき SREsだけで改善をしない プロダクトチームが、自律的にSRE改善が行えることが重要 一緒に、SRE改善することは問題ない リスクの高いものから優先的に改善 ポストモーテム、インシデント対応、監視から優先的に改善を実施 横断的な改善計画と目標の定量化が重要 •得られた成果 SRE成熟レベルが向上することによって 技術的チャレンジがしやすい環境へ(リスク管理が行える) ナレッジの最適化につながる SRE成熟度評価を通して、ナレッジを蓄積できる 特定のプロダクトで行っている取り組みをプラクティス化し 横展開することが可能になる モニタリング インシデント対応 ポストモーテム / 根本原因分析 テスト及びリリース手順 キャパシティブランニング 開発 プロダクト Fig. サービス信頼性の断層

Slide 46

Slide 46 text

SRE信頼度計測

Slide 47

Slide 47 text

SRE信頼度計測 •4つのカテゴリのケイパビリティを計測 「セキュリティ」「キャパシティプランニング」「可用性」「運用最適化」 下記、項目(一部抜粋)に対してYes/Noで回答 回答時に、評価に対する根拠としてのドキュメントなどの成果物も回収

Slide 48

Slide 48 text

SRE信頼度計測 •SRE信頼度計測によって得られたデータの分析 1. 各プロダクト毎に計測用Google Sheetsを用意し、SRE信頼度を計測 2. 計測用Google Sheetsの計測結果をGoogle Apps Scriptで、分析用Google Sheetsへ集約 3. Looker Studioを活用して事業部や項目毎の傾向を分析 計測用Google Sheets 分析用Google Sheets Google Apps Script Looker Studio

Slide 49

Slide 49 text

SRE信頼度計測 •SRE信頼度計測によって得られたデータの分析 実施プロダクトを4段階(S/A/B/C)で評価 事業部毎やカテゴリ、項目毎の傾向を分析し、効率的な改善に役立てている 1.事業部毎の評価傾向 2.項目毎の評価傾向

Slide 50

Slide 50 text

SRE信頼度計測 •得られた気づき 技術スタックやシステム設計が同じでも、評価が同じとは限らない 組織文化や開発体制の違いによって評価に差異があった 会社全体でのリスクを最適化することができる 注力プロダクトの課題 = 会社のリスクが可視化でき、改善計画がたてられる •得られた成果 技術投資判断の参考資料となる 事業部や評価項目毎の傾向が分析出来るので、優先的に技術投資すべきポイントが把握できる 会社レベルでのSRE文化のEnablementにつながる 取り組みを通して、役員へのSRE文化のEnablingが行える

Slide 51

Slide 51 text

今後の展望

Slide 52

Slide 52 text

今後の展望 •Business Observabilityの強化 SRE推進によるビジネスインパクトの観測強化 •Cloud FinOpsの成熟度向上 自律的なコスト意識文化確立とコスト最適化 •Enabling SREの強化 SRE人材の育成強化のためのSREリスキリング提供 •リスクマネジメントの強化 SRE成熟度評価とSRE信頼度計測の活用を推進し、技術チャレンジを後押しできる地盤の強化

Slide 53

Slide 53 text

ご清聴ありがとうございました