Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み / ca-sr...

データで見るサイバーエージェントグループのSREと横断的なSRE推進の取り組み / ca-sre-promotion

CyberAgent Developer Conference 2023での登壇資料です。
動画はこちらから
https://www.youtube.com/watch?v=6nvClgWf8Po
動画内で紹介しているSRE Technology Mapはこちらから
https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

セッション概要
サイバーエージェントグループには、様々なSRE組織があり、日々サービスの信頼性向上に取り組んでいます。 本セッションでは、横断SRE組織であるサービスリライアビリティグループが、担当しているメディアサービスへ横断的にSRE推進するために行っている組織戦略と取り組みについてご紹介します。 また、サイバーエージェントグループのSRE組織やSREsの活動傾向についてもご紹介します。

shotaTsuge

June 29, 2023
Tweet

More Decks by shotaTsuge

Other Decks in Technology

Transcript

  1. 01
 サイバーエージェントグループの SRE組織俯瞰
 メディア事業
 インターネット
 広告事業
 ゲーム事業
 ・「ABEMA」
 ・「Ameba」 


    ・「タップル」等
 ・AI 事業
 ・AI 技術の研究・開発
 ・DX 事業等
 ・「グランブルーファンタジー」 
 ・「ウマ娘 プリティーダービー」 
 ・「戦国炎舞 -KIZNA-」等

  2. Product SRE
 Embedded SRE
 Platform SRE
 SRE Center of Practice


    各プロダクトの開発チームに所属し、信頼性向上へ取り組むSREs
 Enablementフェーズ:SREを組織へ浸透し、自立支援に取り組むSREs
 Evangelistフェーズ:SREの強化や改善を行うSREs
 共通基盤の信頼性や開発生産性向上へ取り組むSREs
 横断的に展開できるSREプラクティス開発や導入へ取り組むSREs
 緊急かつ高重要度の案件毎にチーム編成し、案件完遂に取り組むSREs
 01
 サイバーエージェントグループの SRE組織俯瞰
 SRE実装パターン
 Movable Embedded SRE

  3. 事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 


    2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト

  4. 事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 


    2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト

  5. 事業部横断SREsとしての組織戦略 
 メディア事業のインフラ組織(〜2015年)
 ・SRGの前身となるインフラ組織
  オンプレ中心の昔ながらのインフラエンジニア 
   → クラウド活用中心のサービスインフラエンジニアへシフト 
 


    ・役割
  サーバのラッキングや OS、ミドルウェアのセットアップ 
   → Provisioning、Scalability、Performance、Monitoring、On-Call、Security…
 
 ・課題
  メディアサービス、基盤システムの 運用やアラートノイズに疲弊 
  個々のサービス知識やスキルセットへの 依存が大きい
 02

  6. 事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 


    2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト

  7. 事業部横断SREsとしての組織戦略 
 担当チーム制
 02
 Event Normal
 参照高負荷サービス
 SREs
 TEAM A


    TEAM B
 TEAM C
 TEAM D
 基盤プロダクト A
 基盤プロダクト B
 基盤プロダクト C
 更新高負荷サービス
 配信高負荷サービス
 共通基盤サービス
 … サービス A
 プロダクト A
 プロダクト B
 … サービス B
 … 子会社 A
 サービス A
 サービス B
 … サービス C
 … 基盤プロダクト D
 サービス A
 サービス B
 サービス C
 … サービス D

  8. 事業部横断SREsとしての組織戦略 
 メディア事業横断のSRE組織へシフト(2016年〜)
 ・担当チーム制のSRE組織(2016年〜2019年)
  2015年末に、SREを目指そうと組織名を SRGへ変更
  負荷パターンやドメインなどの サービス特性毎にチーム編成 
  


    ・役割
  Provisioning、Scalability、Performance、Monitoring、On-Call、Security… 
   → プロダクトでのSRE実行
 
 ・課題
  サービス特性毎の担当チーム制の為、 退職や組織変更による影響が大きい 
  チーム毎に独立しており、横断組織としての シナジーが出しにくい 
 02

  9. 事業部横断SREsとしての組織戦略 
 組織としての成り立ち
 02
 〜2015年
 SRGの前身となる
 インフラ組織
 2016〜2019年
 担当チーム制のSRE組織
 


    2020年〜
 プロジェクト制のSRE組織
 メディア事業の
 インフラ組織
 メディア事業横断のSRE組織へシフト

  10. 事業部横断SREsとしての組織戦略 
 プロジェクト制
 02
 サービス A
 SREs 
 (Movable)Enbedded SRE
 SRE

    Center of Practice
 Enabling SRE
 サービス B
 子会社 A
 プロダクト A
 … サービス C
 プロジェクト C
 … プロダクト B
 プロジェクト B
 プロダクト C
 … プロジェクト A
 ※ プロジェクトは、四半期もしくは半期毎に各プロダクトチームと対話し更新 

  11. 事業部横断SREsとしての組織戦略 
 メディア事業横断のSRE組織へシフト(2016年〜)
 ・プロジェクト制のSRE組織へシフト(2020年〜)
  プロダクトチームが、 自律的にSRE改善が行える体制づくり へシフト
  自分達の組織にあった SREを再定義する
   信頼性を機能として扱うためのプラクティスや組織文化

    
   信頼性を直接的/間接的に改善していくためのプラクティス 
 ・役割
  プロダクトチームへSREをインストールする
  SREを推進するための役割で、 SREを実行する役割ではない 
   → SREsとして提供する価値を明確化する必要がある 
 02

  12. 事業部横断SREsとしての組織戦略 
 SREsとして提供する価値の明確化
 02
 プロジェクトニーズへのコミットメント 
 ・システム刷新
 ・コスト、運用最適化
  ・監視、インシデント対応、
  ・ポストモーテム、トイル撲滅、IaCなど


    ・SLO導入
 ・新規サービス立ち上げ支援
 ・負荷対策
 SREサポート
 ・スポット、インシデント対応
 ・各種相談
  ・インフラ設計、技術選定など
 ・プラクティス開発提供、組織間連携支援など
 ・現状分析によるリスク管理
  ・SRE成熟度評価、CA W-Aなど
 ・SRE組織立ち上げ、Enabling支援
 (Movable)Embedded SRE
 SRE Center of Practice / Enabling SRE
 (社内向けSRE as a Serviceの提供)

  13. 事業部横断SREsとしての組織戦略 
 SRE推進する上での課題
 ・SRE推進するには、現在地を知る必要がある
  現在地を知らなければ、理想状態へ近づくことができない 
   → 各断層の理想状態がわかれば、改善すべきことと 
    

    優先順位が決めやすい 
 
 ・物理的に全プロダクトへEmbeddedする
  ことは難しい
  事業部全体を俯瞰しデータ化することで、事業として 
  の優先順位が決めやすい 
   → プロダクト責任者とのコンセンサスや 
     横断的なSRE推進がしやすい
 
 
 02
 モニタリング 
 インシデント対応 
 ポストモーテム / 根本原因分析 
 テスト及びリリース手順 
 キャパシティブランニング 
 開発
 プロダクト
 Fig. サービス信頼性の断層 

  14. 横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと

    
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 3.改善実施
 ・改善計画を元に実施

  15. 横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと

    
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 ・改善計画を元に実施
 3.改善実施

  16. 横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと

    
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 ・改善計画を元に実施
 3.改善実施

  17. 横断アプローチによる SRE推進
 監視:Lv.3
 ・要件定義  監視の目的が定義され、要件にあった監視ソリューションが選択されている 
 ・メトリクス
  メトリクスの取得頻度や保存期間が適切に設定されている 
 


    ・アラート
  アラートメッセージに必要な情報が整理されている 
  送られたアラートログを元に、定期的にアラート設定は見直されている 
 ・コスト
  監視にかかっているコストが可視化され、定期的に見直しされている 
 
  ※ 一部抜粋
 03

  18. 横断アプローチによる SRE推進
 インシデント対応:Lv.3
 ・インシデントレベルと役割  ユーザー影響に伴ったインシデントレベルが定義されており、インシデントレベル毎に 
  業務時間外での対応方針やメンテナンスイン基準が定義されている 
 
 ・オンコール、検知とトリアージ


     休暇や手当などのオンコールに対する補償が用意されている 
  ユーザの問い合わせよりも早く、インシデント発生を検知することができている 
 
 ・情報共有、事後対応
  必要に応じて、ユーザに対してインシデント状況の報告が行えている 
 
   ※ 一部抜粋
 03

  19. 横断アプローチによる SRE推進
 トイルの撲滅:Lv.3
 ・トイルの整理  トイルに該当する運用作業が定められており、共通認識できている 
  トイルに該当する運用作業が継続的に可視化されている 
 
 ・トイルの改善


     機能開発と同じ枠組みで計画的にトイルの改善が行えている 
  トイルバジェットなど改善優先度を上げられる仕組みがあるか 
 
  ※ 一部抜粋
 03

  20. 横断アプローチによる SRE推進
 改善計画の作成
 ・四半期 or 半期毎の改善計画を作成  組織や個人の目標へ組み込むため 
  Lv.1の項目から、優先的に改善計画を立てる 


    ・改善担当者を決める
  オーナーが決まっていないと改善が進まないため 
 
 ・議事録に残す
  現状と理想状態の認識合わせのため 
 03

  21. 横断アプローチによる SRE推進
 03
 SRE成熟度評価の流れ
 1.準備
 ・SRE成熟度評価の説明
 ・実施プロダクトの共有
 
 2.評価と計画
 ・各項目の成熟度レベルと

    
 理想状態の認識合わせ 
 ・改善計画の作成 
 ・四半期 or 半期毎に再評価 
 
 ・改善計画を元に実施
 3.改善実施

  22. 横断アプローチによる SRE推進
 改善実施と現在の推進状況
 ・SREsだけで改善をしない  プロダクトチームが、 自律的にSRE改善が行えることが重要
  一緒に、SRE改善することは問題ない 
 
 ・SRG担当の全主要サービスへ導入済

     約20サービス(プロダクト数としては、 60以上)
  SRG担当外への導入も推進中 
 
 ・リスクの高いものから優先的に改善  ポストモーテム、インシデント対応、監視 
  横断的な改善計画と目標の定量化が重要 
 03
 モニタリング 
 インシデント対応 
 ポストモーテム / 根本原因分析 
 テスト及びリリース手順 
 キャパシティブランニング 
 開発
 プロダクト

  23. 横断アプローチによる SRE推進
 1年での改善実績(2022/03〜2023/03)
 ・優先的に、ポストモーテム、インシデント対応、監視を改善
  SRG担当の全主要プロダクトのポストモーテム、インシデント対応、監視を Lv.2以上へ改善
 03
 Lv.1 → Lv.2


    Lv.2 → Lv.3
 サービスレベル目標 
 3
 1
 監視
 2
 6
 インシデント対応
 5
 5
 ポストモーテム
 6
 5
 トイルの撲滅
 2
 1
 監視、インシデント対応の改善 
 ・ETTD(推定検出時間)短縮 
 ・ETTR(推定復旧時間)短縮 
 
 ポストモーテムの改善  
 ・ETTF(次の障害発生までの時 間)延長

  24. 今後の展望
 SRE成熟度評価
 ・スケール可能な体制の強化  SRE成熟度評価者による評価の差異を最小限にしたい 
  オンボーディングとオフボーディングの整備 
 
 ・品質向上  SRG以外のSREsや組織との連携強化と各項目の

    Lv.3のブラッシュアップ
  SRE成熟度改善を促進させるパッケージの追加提供 
 
 ・サイバーエージェントグループ全体への導入改善
  全主要プロダクトのポストモーテム、インシデント対応、監視を Lv.2以上へ改善
  サイバーエージェントグループ全体へ、 SREをインストールする
 04

  25. 今後の展望
 SRGの強化領域
 ・Business Observabilityの強化  SRE推進によるビジネスインパクトの 観測強化
 
 ・Enabling SREの強化
  SRE推進・リスク管理パッケージの開発提供などによる

    信頼性強化
  AI活用によるトイル撲滅やインシデント対応、負荷対策などの 運用最適化
 
 ・Cloud FinOpsの強化
  自律的なコスト意識文化確立と コスト最適化
 04