$30 off During Our Annual Pro Sale. View Details »

データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み / ca-sre-promotion

データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み / ca-sre-promotion

CyberAgent Developer Conference 2023での登壇資料です。
動画はこちらから
https://www.youtube.com/watch?v=6nvClgWf8Po
動画内で紹介しているSRE Technology Mapはこちらから
https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

セッション概要
サイバーエージェントグループには、様々なSRE組織があり、日々サービスの信頼性向上に取り組んでいます。 本セッションでは、横断SRE組織であるサービスリライアビリティグループが、担当しているメディアサービスへ横断的にSRE推進するために行っている組織戦略と取り組みについてご紹介します。 また、サイバーエージェントグループのSRE組織やSREsの活動傾向についてもご紹介します。

shotaTsuge

June 29, 2023
Tweet

More Decks by shotaTsuge

Other Decks in Technology

Transcript

  1. View Slide

  2. 株式会社サイバーエージェント

    メディア統括本部サービスリライアビリティグループ  マネージャー

    CyberAgent Developer Expert of SRE

    柘植 翔太 Tsuge Shota

    @tsugeshota 

    @shotaTsuge


    View Slide

  3. 00
Introduction


    View Slide

  4. Introduction

    本セッションで話すこと

    ・SRE組織俯瞰
     サイバーエージェントグループでの SREパターンとSREsの傾向

    ・横断SREsの組織戦略

     組織としての成り立ちとフェーズ毎の体制、役割の 変化

     横断組織としてプロダクトチームへ SREを推進するための組織開発


    ・横断的SRE推進

     SRE成熟度評価の概要と活用によって 得られたこと

     今後の展望

    00


    View Slide

  5. Introduction

    表記の注意

    ・SRE
     Site Reliability Engineering

     本セッションでは、 職種ではなく概念の総称を表す

    ・SREs

     概念ではなく職種や組織

     本セッションでは、SRE推進に取り組むエンジニアや組織を表す 

    00


    View Slide

  6. サイバーエージェントグループのSRE組織俯瞰

    事業部横断SREsとしての組織戦略

    横断アプローチによるSRE推進

    今後の展望

    01

    02

    03

    04

    CONTENTS


    View Slide

  7. 01
サイバーエージェントグループの

    SRE組織俯瞰


    View Slide

  8. サイバーエージェントグループの SRE組織俯瞰

    01

    ※ 弊社コーポレートサイト参照

    View Slide

  9. 01
 サイバーエージェントグループの SRE組織俯瞰

    メディア事業

    インターネット

    広告事業

    ゲーム事業

    ・「ABEMA」

    ・「Ameba」 

    ・「タップル」等

    ・AI 事業

    ・AI 技術の研究・開発

    ・DX 事業等

    ・「グランブルーファンタジー」

    ・「ウマ娘 プリティーダービー」 

    ・「戦国炎舞 -KIZNA-」等


    View Slide

  10. サイバーエージェントグループの SRE組織俯瞰

    データで見るサイバーエージェントグループのSRE

    ・SREの組織と実装パターン
     
    ・SREの組織俯瞰

     

    ・SREsの活用技術傾向

    01


    View Slide

  11. サイバーエージェントグループの SRE組織俯瞰

    データで見るサイバーエージェントグループのSRE

    ・SREの組織と実装パターン
     
    ・SREの組織俯瞰

     

    ・SREsの活用技術傾向

    01


    View Slide

  12. 01
 サイバーエージェントグループの SRE組織俯瞰

    ①単一プロダクト専任 SREs
 ②子会社専任SREs
 ③事業部横断SREs

    SRE組織パターン


    View Slide

  13. Product SRE

    Embedded SRE

    Platform SRE

    SRE Center of
    Practice

    各プロダクトの開発チームに所属し、信頼性向上へ取り組むSREs

    Enablementフェーズ:SREを組織へ浸透し、自立支援に取り組むSREs

    Evangelistフェーズ:SREの強化や改善を行うSREs

    共通基盤の信頼性や開発生産性向上へ取り組むSREs

    横断的に展開できるSREプラクティス開発や導入へ取り組むSREs

    緊急かつ高重要度の案件毎にチーム編成し、案件完遂に取り組むSREs

    01
 サイバーエージェントグループの SRE組織俯瞰

    SRE実装パターン

    Movable
    Embedded SRE


    View Slide

  14. サイバーエージェントグループの SRE組織俯瞰

    データで見るサイバーエージェントグループのSRE

    ・SREの組織と実装パターン
     
    ・SREの組織俯瞰

     

    ・SREsの活用技術傾向

    01


    View Slide

  15. メディア事業

    01
 サイバーエージェントグループの SRE組織俯瞰


    View Slide

  16. 新卒と中途の割合は、おおよそ半々

    多くの新卒SREsが活躍している

    入社5年以上が、6割を超えている

    現在は、メディアの割合が多いが、ゲー
    ムやAIでの需要も増えている

    01
 サイバーエージェントグループの SRE組織俯瞰

    入社年数

    入社形態
 事業部管轄


    View Slide

  17. 8割のSRE組織が、複数プロダクトの

    SRE推進に取り組んでいる

    5割のSRE組織が、4人以下

    01
 サイバーエージェントグループの SRE組織俯瞰

    組織

    パターン

    所属人数

    チーム立ち
    上げ年数

    立ち上げて4年以上のSRE組織が、

    7割を超えている


    View Slide

  18. SRE実装パターン

    Product SREとEnabling SREが多い傾向

    全ての事業部横断SREsが、SRE Center of Practiceを実装している

    01
 サイバーエージェントグループの SRE組織俯瞰


    View Slide

  19. ファーストキャリア

    ファーストキャリアの8割が、バックエンドやインフラエンジニア

    新卒SREsの割合も増えてきている

    01
 サイバーエージェントグループの SRE組織俯瞰


    View Slide

  20. サイバーエージェントグループの SRE組織俯瞰

    データで見るサイバーエージェントグループのSRE

    ・SREの組織と実装パターン
     
    ・SREの組織俯瞰

     

    ・SREsの活用技術傾向

    01


    View Slide

  21. 1.プラットフォーム
 2.監視

    全SRE組織が、AWSを活用している

    また、7割以上のSRE組織が、Kubernetesを活用している

    Datadogは、SLO監視や可観測性ツールとしての活用も

    多い傾向がみられた

    01
 サイバーエージェントグループの SRE組織俯瞰


    View Slide

  22. 3.On-Call
 4.CI/CD

    9割のSRE組織が、On-Callソリューションを

    活用している

    長期運用しているサービスでは、Jenkinsの活用が多い傾向

    にあったが、Argo CDとPipeCDの活用も増えている

    01
 サイバーエージェントグループの SRE組織俯瞰


    View Slide

  23. 5.IaC/CaC

    全SRE組織が、Terraformを活用している

    6.k8s Manifest/deploy管理

    01
 サイバーエージェントグループの SRE組織俯瞰

    Helm、Kustomizeの活用が多い傾向にある


    View Slide

  24. 7.DB

    全SRE組織が、Redisを活用している

    MySQLとMongoDBの活用が多い傾向にある

    01
 サイバーエージェントグループの SRE組織俯瞰


    View Slide

  25. 8.CDN
 9.開発言語(SREsが業務で使っている) 

    全SRE組織が、Amazon CloudFrontを活用している

    全SRE組織が、shell scriptを活用している

    また、Go、Pythonの活用が多い傾向にある

    01
 サイバーエージェントグループの SRE組織俯瞰


    View Slide

  26. 01
 サイバーエージェントグループの SRE組織俯瞰

    SRE Technology Map 2023 公開中


    View Slide

  27. 02
事業部横断SREsとしての組織戦略


    View Slide

  28. 02
 事業部横断SREsとしての組織戦略 

    SRGの担当領域(一部抜粋)

    ※ 過去には、ABEMAやタップルや新R25なども担当


    View Slide

  29. 事業部横断SREsとしての組織戦略 

    組織としての成り立ち

    02

    〜2015年

    SRGの前身となる

    インフラ組織

    2016〜2019年

    担当チーム制のSRE組織


    2020年〜

    プロジェクト制のSRE組織

    メディア事業の

    インフラ組織

    メディア事業横断のSRE組織へシフト


    View Slide

  30. 事業部横断SREsとしての組織戦略 

    組織としての成り立ち

    02

    〜2015年

    SRGの前身となる

    インフラ組織

    2016〜2019年

    担当チーム制のSRE組織


    2020年〜

    プロジェクト制のSRE組織

    メディア事業の

    インフラ組織

    メディア事業横断のSRE組織へシフト


    View Slide

  31. 事業部横断SREsとしての組織戦略 

    メディア事業のインフラ組織(〜2015年)

    ・SRGの前身となるインフラ組織

     オンプレ中心の昔ながらのインフラエンジニア 

      → クラウド活用中心のサービスインフラエンジニアへシフト 


    ・役割

     サーバのラッキングや OS、ミドルウェアのセットアップ 

      → Provisioning、Scalability、Performance、Monitoring、On-Call、Security…


    ・課題

     メディアサービス、基盤システムの 運用やアラートノイズに疲弊 

     個々のサービス知識やスキルセットへの 依存が大きい

    02


    View Slide

  32. 事業部横断SREsとしての組織戦略 

    組織としての成り立ち

    02

    〜2015年

    SRGの前身となる

    インフラ組織

    2016〜2019年

    担当チーム制のSRE組織


    2020年〜

    プロジェクト制のSRE組織

    メディア事業の

    インフラ組織

    メディア事業横断のSRE組織へシフト


    View Slide

  33. 事業部横断SREsとしての組織戦略 

    担当チーム制

    02

    Event
    Normal

    参照高負荷サービス

    SREs

    TEAM A
 TEAM B
 TEAM C
 TEAM D

    基盤プロダクト A

    基盤プロダクト B

    基盤プロダクト C

    更新高負荷サービス
 配信高負荷サービス
 共通基盤サービス


    サービス A

    プロダクト A

    プロダクト B


    サービス B


    子会社 A

    サービス A

    サービス B


    サービス C


    基盤プロダクト D

    サービス A

    サービス B

    サービス C


    サービス D


    View Slide

  34. 事業部横断SREsとしての組織戦略 

    メディア事業横断のSRE組織へシフト(2016年〜)

    ・担当チーム制のSRE組織(2016年〜2019年)

     2015年末に、SREを目指そうと組織名を SRGへ変更

     負荷パターンやドメインなどの サービス特性毎にチーム編成 

     

    ・役割

     Provisioning、Scalability、Performance、Monitoring、On-Call、Security… 

      → プロダクトでのSRE実行


    ・課題

     サービス特性毎の担当チーム制の為、 退職や組織変更による影響が大きい 

     チーム毎に独立しており、横断組織としての シナジーが出しにくい 

    02


    View Slide

  35. 事業部横断SREsとしての組織戦略 

    組織としての成り立ち

    02

    〜2015年

    SRGの前身となる

    インフラ組織

    2016〜2019年

    担当チーム制のSRE組織


    2020年〜

    プロジェクト制のSRE組織

    メディア事業の

    インフラ組織

    メディア事業横断のSRE組織へシフト


    View Slide

  36. 事業部横断SREsとしての組織戦略 

    プロジェクト制

    02

    サービス A

    SREs 

    (Movable)Enbedded SRE
 SRE Center of Practice
 Enabling SRE

    サービス B
 子会社 A

    プロダクト A


    サービス C

    プロジェクト C
 …
    プロダクト B

    プロジェクト B

    プロダクト C


    プロジェクト A

    ※ プロジェクトは、四半期もしくは半期毎に各プロダクトチームと対話し更新

    View Slide

  37. 事業部横断SREsとしての組織戦略 

    メディア事業横断のSRE組織へシフト(2016年〜)

    ・プロジェクト制のSRE組織へシフト(2020年〜)

     プロダクトチームが、 自律的にSRE改善が行える体制づくり へシフト

     自分達の組織にあった SREを再定義する

      信頼性を機能として扱うためのプラクティスや組織文化 

      信頼性を直接的/間接的に改善していくためのプラクティス 

    ・役割

     プロダクトチームへSREをインストールする

     SREを推進するための役割で、 SREを実行する役割ではない 

      → SREsとして提供する価値を明確化する必要がある 

    02


    View Slide

  38. 事業部横断SREsとしての組織戦略 

    SREsとして提供する価値の明確化

    02

    プロジェクトニーズへのコミットメント 

    ・システム刷新

    ・コスト、運用最適化

     ・監視、インシデント対応、

     ・ポストモーテム、トイル撲滅、IaCなど

    ・SLO導入

    ・新規サービス立ち上げ支援

    ・負荷対策

    SREサポート

    ・スポット、インシデント対応

    ・各種相談

     ・インフラ設計、技術選定など

    ・プラクティス開発提供、組織間連携支援など

    ・現状分析によるリスク管理

     ・SRE成熟度評価、CA W-Aなど

    ・SRE組織立ち上げ、Enabling支援

    (Movable)Embedded SRE
 SRE Center of Practice / Enabling SRE

    (社内向けSRE as a Serviceの提供)


    View Slide

  39. 事業部横断SREsとしての組織戦略 

    SRE推進する上での課題

    ・SRE推進するには、現在地を知る必要がある

     現在地を知らなければ、理想状態へ近づくことができない 

      → 各断層の理想状態がわかれば、改善すべきことと 

        優先順位が決めやすい 


    ・物理的に全プロダクトへEmbeddedする

     ことは難しい

     事業部全体を俯瞰しデータ化することで、事業として 

     の優先順位が決めやすい 

      → プロダクト責任者とのコンセンサスや 

        横断的なSRE推進がしやすい



    02

    モニタリング 

    インシデント対応 

    ポストモーテム / 根本原因分析 

    テスト及びリリース手順 

    キャパシティブランニング 

    開発

    プロダクト

    Fig. サービス信頼性の断層

    View Slide

  40. 03
横断アプローチによるSRE推進


    View Slide

  41. 横断アプローチによる SRE推進

    SRE成熟度評価

    03


    View Slide

  42. 横断アプローチによる SRE推進

    能力成熟度モデル統合をベースに作成

    03

    ※ サービス信頼性の断層等を参考に必要項目をリスト化し、評価しやすくする為に極力シンプルにしている

    View Slide

  43. 横断アプローチによる SRE推進

    03

    SRE成熟度評価の流れ

    1.準備

    ・SRE成熟度評価の説明

    ・実施プロダクトの共有


    2.評価と計画

    ・各項目の成熟度レベルと 

    理想状態の認識合わせ 

    ・改善計画の作成 

    ・四半期 or 半期毎に再評価 


    3.改善実施

    ・改善計画を元に実施


    View Slide

  44. 横断アプローチによる SRE推進

    03

    SRE成熟度評価の流れ

    1.準備

    ・SRE成熟度評価の説明

    ・実施プロダクトの共有


    2.評価と計画

    ・各項目の成熟度レベルと 

    理想状態の認識合わせ 

    ・改善計画の作成 

    ・四半期 or 半期毎に再評価 


    ・改善計画を元に実施

    3.改善実施


    View Slide

  45. 横断アプローチによる SRE推進

    Lv.3 ガイドライン

    ・各項目のベストプラクティスを考える上での観点を質問にしたもの
     汎用化するために、敢えて抽象的な質問にしている 

     成熟度レベル評価や改善の参考として、ナレッジ提供も行う 

    ・全てを満たしている必要はない

     各プロダクトにおいての理想状態( Lv.3)は違う

    03


    View Slide

  46. 横断アプローチによる SRE推進

    03

    SRE成熟度評価の流れ

    1.準備

    ・SRE成熟度評価の説明

    ・実施プロダクトの共有


    2.評価と計画

    ・各項目の成熟度レベルと 

    理想状態の認識合わせ 

    ・改善計画の作成 

    ・四半期 or 半期毎に再評価 


    ・改善計画を元に実施

    3.改善実施


    View Slide

  47. 横断アプローチによる SRE推進

    サービスレベル目標:Lv.3

    ・定義

     SLOとユーザーの満足度を関連付けている 


    ・計測

     ユーザーに近い位置から計測されており、 SLOの悪化とサービス影響が紐づいている 


    ・振り返り

     SLOを振り返る機会が定期的に設定されている 


     ※ 一部抜粋

    03


    View Slide

  48. 横断アプローチによる SRE推進

    監視:Lv.3

    ・要件定義
     監視の目的が定義され、要件にあった監視ソリューションが選択されている 

    ・メトリクス

     メトリクスの取得頻度や保存期間が適切に設定されている 


    ・アラート

     アラートメッセージに必要な情報が整理されている 

     送られたアラートログを元に、定期的にアラート設定は見直されている 

    ・コスト

     監視にかかっているコストが可視化され、定期的に見直しされている 


     ※ 一部抜粋

    03


    View Slide

  49. 横断アプローチによる SRE推進

    インシデント対応:Lv.3

    ・インシデントレベルと役割
     ユーザー影響に伴ったインシデントレベルが定義されており、インシデントレベル毎に 

     業務時間外での対応方針やメンテナンスイン基準が定義されている 


    ・オンコール、検知とトリアージ

     休暇や手当などのオンコールに対する補償が用意されている 

     ユーザの問い合わせよりも早く、インシデント発生を検知することができている 


    ・情報共有、事後対応

     必要に応じて、ユーザに対してインシデント状況の報告が行えている 


      ※ 一部抜粋

    03


    View Slide

  50. 横断アプローチによる SRE推進

    ポストモーテム:Lv.3

    ・インシデント発生時
     ポストモーテムを書くかどうかの基準が定められている 


    ・記載内容

     システム影響だけではなく、ユーザー影響まで記載されている 


    ・振り返り

     ポストモーテム自体の過不足や書くことへの負荷について振り返りできている 


     ※ 一部抜粋

    03


    View Slide

  51. 横断アプローチによる SRE推進

    トイルの撲滅:Lv.3

    ・トイルの整理
     トイルに該当する運用作業が定められており、共通認識できている 

     トイルに該当する運用作業が継続的に可視化されている 


    ・トイルの改善

     機能開発と同じ枠組みで計画的にトイルの改善が行えている 

     トイルバジェットなど改善優先度を上げられる仕組みがあるか 


     ※ 一部抜粋

    03


    View Slide

  52. 横断アプローチによる SRE推進

    改善計画の作成

    ・四半期 or 半期毎の改善計画を作成
     組織や個人の目標へ組み込むため 

     Lv.1の項目から、優先的に改善計画を立てる 

    ・改善担当者を決める

     オーナーが決まっていないと改善が進まないため 


    ・議事録に残す

     現状と理想状態の認識合わせのため 

    03


    View Slide

  53. 横断アプローチによる SRE推進

    03

    SRE成熟度評価の流れ

    1.準備

    ・SRE成熟度評価の説明

    ・実施プロダクトの共有


    2.評価と計画

    ・各項目の成熟度レベルと 

    理想状態の認識合わせ 

    ・改善計画の作成 

    ・四半期 or 半期毎に再評価 


    ・改善計画を元に実施

    3.改善実施


    View Slide

  54. 横断アプローチによる SRE推進

    改善実施と現在の推進状況

    ・SREsだけで改善をしない
     プロダクトチームが、 自律的にSRE改善が行えることが重要

     一緒に、SRE改善することは問題ない 


    ・SRG担当の全主要サービスへ導入済
     約20サービス(プロダクト数としては、 60以上)

     SRG担当外への導入も推進中 


    ・リスクの高いものから優先的に改善
     ポストモーテム、インシデント対応、監視 

     横断的な改善計画と目標の定量化が重要 

    03

    モニタリング 

    インシデント対応 

    ポストモーテム / 根本原因分析 

    テスト及びリリース手順 

    キャパシティブランニング 

    開発

    プロダクト


    View Slide

  55. 横断アプローチによる SRE推進

    1年での改善実績(2022/03〜2023/03)

    ・優先的に、ポストモーテム、インシデント対応、監視を改善

     SRG担当の全主要プロダクトのポストモーテム、インシデント対応、監視を Lv.2以上へ改善

    03

    Lv.1 → Lv.2
 Lv.2 → Lv.3

    サービスレベル目標 
 3
 1

    監視
 2
 6

    インシデント対応
 5
 5

    ポストモーテム
 6
 5

    トイルの撲滅
 2
 1

    監視、インシデント対応の改善 

    ・ETTD(推定検出時間)短縮 

    ・ETTR(推定復旧時間)短縮 


    ポストモーテムの改善  

    ・ETTF(次の障害発生までの時
    間)延長


    View Slide

  56. 横断アプローチによる SRE推進

    評価してみての気づき

    ・チェックリストは、Enablementに不向き

     チェックリストを埋めることが目的になりやすい 

     チェックリストにできるものは、チェック自体を自動化すべき 

    ・基準や定義のドキュメントが足りていない

     共通言語化ができていないことが多かった 

     プロダクトについて、みんなで向き合う時間が作れてよかった 


    ・真似したい取り組みを発掘できた

     素晴らしいプラクティスにたくさん出会えた 

    03


    View Slide

  57. 04
今後の展望


    View Slide

  58. 今後の展望

    SRE成熟度評価

    ・スケール可能な体制の強化
     SRE成熟度評価者による評価の差異を最小限にしたい 

     オンボーディングとオフボーディングの整備 


    ・品質向上
     SRG以外のSREsや組織との連携強化と各項目の Lv.3のブラッシュアップ

     SRE成熟度改善を促進させるパッケージの追加提供 


    ・サイバーエージェントグループ全体への導入改善

     全主要プロダクトのポストモーテム、インシデント対応、監視を Lv.2以上へ改善

     サイバーエージェントグループ全体へ、 SREをインストールする

    04


    View Slide

  59. 今後の展望

    SRGの強化領域

    ・Business Observabilityの強化
     SRE推進によるビジネスインパクトの 観測強化


    ・Enabling SREの強化

     SRE推進・リスク管理パッケージの開発提供などによる 信頼性強化

     AI活用によるトイル撲滅やインシデント対応、負荷対策などの 運用最適化


    ・Cloud FinOpsの強化

     自律的なコスト意識文化確立と コスト最適化

    04


    View Slide

  60. ご視聴ありがとうございました


    View Slide