Upgrade to Pro — share decks privately, control downloads, hide ads and more …

安心・安全なサービスを提供するための横断的なSRE推進の取り組み

 安心・安全なサービスを提供するための横断的なSRE推進の取り組み

マルチクラウド時代のIT運用最適化2024夏での登壇資料です。
https://www.sbbit.jp/eventinfo/79279

□ スライド内で紹介しているSRE Technology Mapはこちらから
https://www.cyberagent.co.jp/techinfo/info/detail/id=28998

□ セッション概要
サイバーエージェントには「リスクを最小限に抑えながらも、ビジネス目標を達成するために、最新のツールやテクノロジーを積極的に導入する」という技術カルチャーがあります。本講演では、そういった「攻め」を「守る」ために、サービスやプロダクトの信頼性や可用性を担保する役割を担っているSREの取り組みについてお話しします。

shotaTsuge

June 06, 2024
Tweet

More Decks by shotaTsuge

Other Decks in Technology

Transcript

  1. 柘植翔太 @shotaTsuge •株式会社サイバーエージェント メディア統括本部サービスリライアビリティグループ(SRG) マネージャー(事業責任者)兼 SRE CyberAgent Developer Expert of

    SRE •社歴 2014新卒入社 バックエンドエンジニア -> インフラエンジニア -> SRE Ameba、AWA、WinTicket、社内基盤など50以上の メディアサービス・システムを担当 •その他 社外活動:SRE NEXT 2024 Co-Chair https://ca-srg.dev
  2. サイバーエージェントとは • ビジョン 21世紀を代表する会社を創る •代表取締役 藤田 晋 Fujita Susumu(創業者) •

    沿革 1998年 設立 2000年 東証マザーズに上場 2014年 東証一部に上場 2022年 東証プライム市場へ • 連結役職員数 7,336名(2023年12月末時点) •ミッションステートメント cf. 新規投資家向け資料
  3. サイバーエージェントグループのSRE組織俯瞰 •SRE実装パターン Product SRE Embedded SRE Platform SRE SRE Center

    of Practice 各プロダクトの開発チームに所属し、信頼性向上へ取り組むSREs Enablementフェーズ:SREを組織へ浸透し、自立支援に取り組むSREs Evangelistフェーズ:SREの強化や改善を行うSREs 共通基盤の信頼性や開発生産性向上へ取り組むSREs 横断的に展開できるSREプラクティス開発や導入へ取り組むSREs 緊急かつ高重要度の案件毎にチーム編成し、案件完遂に取り組むSREs Movable Embedded SRE cf. SRE Technology Map
  4. 事業部横断SREsとしての組織戦略 •担当チーム制のSRE組織における課題 サービス特性毎の担当チーム制の為、退職や組織変更による影響が大きい チーム毎に独立しており、横断組織としてのシナジーが出しにくい Event Normal
 参照高負荷サービス SREs TEAM A

    TEAM B TEAM C TEAM D 基盤プロダクト A 基盤プロダクト B 基盤プロダクト C 更新高負荷サービス 配信高負荷サービス 共通基盤サービス … サービス A
 プロダクト A プロダクト B … サービス B … 子会社 A
 サービス A サービス B … サービス C … 基盤プロダクト D サービス A サービス B サービス C … サービス D
  5. 事業部横断SREsとしての組織戦略 •プロジェクト制のSRE組織へシフト(2020年〜) プロジェクトは、四半期もしくは半期毎に各プロダクトチームと対話し更新 サービス A SREs  (Movable)Enbedded SRE SRE Center

    of Practice Enabling SRE サービス B 子会社 A プロダクト A … サービス C プロジェクト C … プロダクト B プロジェクト B プロダクト C … プロジェクト A

  6. 事業部横断SREsとしての組織戦略 •横断SRE組織を事業化(2022年〜) SREsとして提供する価値の明確化(社内向けSRE as a Serviceの提供) プロジェクトニーズへのコミットメント ・システム刷新 ・コスト、運用最適化  ・監視、インシデント対応、

     ・ポストモーテム、トイル撲滅、IaCなど ・SLO導入 ・新規サービス立ち上げ支援 ・負荷対策 SREサポート ・スポット、インシデント対応 ・各種相談  ・インフラ設計、技術選定など ・プラクティス開発提供、組織間連携支援など ・現状分析によるリスク管理  ・SRE成熟度評価、CA W-A、ケイパビリティ分析など ・SRE組織立ち上げ、Enabling支援 ・コーチング、リスキリングなど (Movable)Embedded SRE SRE Center of Practice / Enabling SRE
  7. SRE成熟度評価 •得られた気づき SREsだけで改善をしない プロダクトチームが、自律的にSRE改善が行えることが重要 一緒に、SRE改善することは問題ない リスクの高いものから優先的に改善 ポストモーテム、インシデント対応、監視から優先的に改善を実施 横断的な改善計画と目標の定量化が重要 •得られた成果 SRE成熟レベルが向上することによって

    技術的チャレンジがしやすい環境へ(リスク管理が行える) ナレッジの最適化につながる SRE成熟度評価を通して、ナレッジを蓄積できる 特定のプロダクトで行っている取り組みをプラクティス化し 横展開することが可能になる モニタリング インシデント対応 ポストモーテム / 根本原因分析 テスト及びリリース手順 キャパシティブランニング 開発 プロダクト Fig. サービス信頼性の断層
  8. SRE信頼度計測 •SRE信頼度計測によって得られたデータの分析 1. 各プロダクト毎に計測用Google Sheetsを用意し、SRE信頼度を計測 2. 計測用Google Sheetsの計測結果をGoogle Apps Scriptで、分析用Google

    Sheetsへ集約 3. Looker Studioを活用して事業部や項目毎の傾向を分析 計測用Google Sheets 分析用Google Sheets Google Apps Script Looker Studio