Upgrade to Pro — share decks privately, control downloads, hide ads and more …

事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022

事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022

Yusuke Iwanaga

May 14, 2022
Tweet

Other Decks in Technology

Transcript

  1. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    事業の成長と共に歩む
 ABEMA SRE探求の歴史
 2022 My 15th 株式会社サイバーエージェント ABEMA SRE 岩永 勇祐
  2. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    6 1. サービス紹介 2. SREチーム発足の背景 3. 2018~2020年頃の活動 4. 2021年~現在の活動 5. 今後について INDEX
  3. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    ※ 出典 CyberAgent, inc. 2021 年通期決算発表資料
  4. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    運用者視点でみるABEMAの特徴 12 1. 24時間番組表にそった
 リニア配信
 

  5. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    13 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった
 リニア配信
 
 障害時のインパクトが大きい
  6. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    14 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった
 リニア配信
 
 リクエストの波が激しい
  7. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    15 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス
 

  8. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    16 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス
 
 ※ 出典 2018 AbemaTV Developer Conference 通信トラフィックが多い
 (物理的な限界を考慮する必要がある)
  9. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    17 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能
 

  10. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    18 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能
 デバイスに応じた品質管理が必要
  11. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SREチーム発足の背景 19 1. 24時間番組表にそったリニア配信 
 👉 障害時のインパクトが大きい 
 👉 リクエストの波が激しい 
 2. インターネット動画配信サービス 
 👉 通信トラフィックが多い 
 3. 様々なデバイスでの視聴 
 👉 デバイスに応じた品質管理 
 サービス運用の特性

  12. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SREチーム発足の背景 20 サービス運用の特性
 1. サービスの成長
 2. 組織規模の拡大
 3. システムの巨大化
 事業
 1. 24時間番組表にそったリニア配信 
 👉 障害時のインパクトが大きい 
 👉 リクエストの波が激しい 
 2. インターネット動画配信サービス 
 👉 通信トラフィックが多い 
 3. 様々なデバイスでの視聴 
 👉 デバイスに応じた品質管理 

  13. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    2018~2020年の活動 22 基盤システム の
 運用・改善
 SRE
 プラクティスの 導入
 SREチームロール

  14. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    2018~2020年の活動 23 基盤システム の
 運用・改善
 SRE
 プラクティスの 導入
 SREチームロール

  15. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE プラクティスの導入① 24 SLI/SLOの推進準備
 PoC
 選定
 PoC
 実施
 設定~運用
 マニュア ル作成
 ポリシー 策定
 範囲拡張
 ① ② ③ ④ ⑤
  16. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE プラクティスの導入① 25 SLI/SLOの推進準備
 PoC
 選定
 PoC
 実施
 設定~運用
 マニュア ル作成
 ポリシー 策定
 範囲拡張
 ① ② ③ ④ ⑤
  17. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE プラクティスの導入① 26 SLI/SLOの推進準備
 開発プロセスに含めたい...🤔
 PoC
 選定
 PoC
 実施
 設定~運用
 マニュア ル作成
 ポリシー 策定
 範囲拡張
 ① ② ③ ④ ⑤
  18. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE プラクティスの導入② 27 Production Readiness Checklistの作成
 ▪ 狙い
 1. SLI/SLOの設定を開発プロセスに含める 
 2. 本番環境での運用品質の担保 
 3. リリースコストの把握・軽減

  19. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE プラクティスの導入② 28 Production Readiness Checklistの作成
 ▪ 狙い
 ▪ 項目 1. SLI/SLOの設定を開発プロセスに含める 
 2. 本番環境での運用品質の担保 
 3. リリースコストの把握・軽減
 1. サービスレベル
 2. ドキュメント
 3. モニタリング・アラート
 4. 耐障害性
 5. スケーラビリティ

  20. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 29 アプローチ
 • SLI / SLO 基盤
 • Production Readiness Checklistの提供
 • Capacity Planningの委譲
 • (一部) On-Callからの離脱
 などなど

  21. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 30 そして、順調に範囲拡大..
  22. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 31 とは、いかなかった..😓
  23. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 32 立ちはだかる多くの課題
 • 開発チームのリソースが確保出来ない
 • システム構成が少しづつ不明に
 • リスク把握のコスト増
 • SREチーム内で優先度が決めづらい

  24. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 33 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい

  25. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 34 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい

  26. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 35 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい

  27. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    SRE文化の推進 36 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい

  28. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    2021~現在の活動 38 大幅な体制変更の実施
  29. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    2021年からの体制 39 Frontend Backend Platform Product B Product C TeamA TeamB TeamC TeamD Product A Frontend SRE’s Backend SRE’s SRE Cloud Platform • 既存SRE’s一部メンバーをCloudPlatformと専属SRE’sに役割変更 • Frontendチームの一部メンバーがSREの役割も担う
  30. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    2021年からの体制 40 体制変更の狙い
 1. 注力するポイントの最適化
 2. 各プラクティス導入の速度と質を上げる
 3. 個別のドメイン、および課題の把握と改善
 4. ナレッジの共有、および伝播

  31. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例①: SLI/SLOの先導 41 1. CUJのヒアリング
 2. SLI/SLOの設計
 3. SLO Documentの作成 
 4. 開発チームレビュー 
 5. 可視化 & アラート設定 
 6. 定期的な確認 & 見直し 
 活動

  32. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例①: SLI/SLOの先導 42 1. CUJのヒアリング
 2. SLI/SLOの設計
 3. SLO Documentの作成 
 4. 開発チームレビュー 
 5. 可視化 & アラート設定 
 6. 定期的な確認 & 見直し 
 改善
 Alertman ager k8s
 manifest 1. リクエスト数の少ないサービ スでのアラート
 2. 新しい計測手法の導入 
 3. 設定の簡略化
 活動

  33. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例①: SLI/SLOの先導 43 活動
 1. CUJのヒアリング
 2. SLI/SLOの設計
 3. SLO Documentの作成 
 4. 開発チームレビュー 
 5. 可視化 & アラート設定 
 6. 定期的な確認 & 見直し 
 改善
 Alertman ager k8s
 manifest 1. リクエスト数の少ないサービ スでのアラート
 2. 新しい計測手法の導入 
 3. 設定の簡略化
 効果
 1. サービス全体を俯瞰して品 質が把握出来るようになっ た
 2. 様々なActionの判断基準に なった
 3. 長期的な劣化結果傾向を把 握出来るようになった 

  34. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例② インシデントへの参加 44 活動
 1. インシデントへの参加 
 2. ポストモーテムの先導 

  35. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例② インシデントへの参加 45 レベル
 内容
 アクション
 SEV-1
 重大な影響
 SEV-2 部分的な影響
 SEV-3
 限定的な影響 改善
 活動
 1. インシデントへの参加 
 2. ポストモーテムの先導 
 1. インシデントフローの見直し 
 2. 障害レベルの設定
 3. 障害を先導するBotの開発 
 Warroomの作成
 各種関連リンクの投稿
 After Incidentの先導

  36. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例② インシデントへの参加 46 レベル
 内容
 アクション
 SEV-1
 重大な影響
 SEV-2 部分的な影響
 SEV-3
 限定的な影響 改善
 効果
 活動
 1. インシデントへの参加 
 2. ポストモーテムの先導 
 1. インシデントフローの見直し 
 2. 障害レベルの設定
 3. 障害を先導するBotの開発 
 Warroomの作成
 各種関連リンクの投稿
 After Incidentの先導
 1. 新たなの課題の発掘 
 2. チームを跨いだ連携が強化 
 3. 全体で障害に対する練度の 向上

  37. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例③ モニタリング課題の解決 47 活動
 1. フロントエンドにおけるモニ タリングの要件整理
 2. 各PoCの実施
 3. ソリューションの導入 
 SaaS 型のオブザーバビリティプラットフォーム 
 ・ ・・
  38. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例③ モニタリング課題の解決 48 改善
 活動
 1. フロントエンドにおけるモニ タリングの要件整理
 2. 各PoCの実施
 3. ソリューションの導入 
 1. 監視領域の品質表作成 
 2. 各デバイスごとの評価 
 3. 改善の実施・先導
 SaaS 型のオブザーバビリティプラットフォーム 
 レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・
  39. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    活動事例③ モニタリング課題の解決 49 改善
 効果
 活動
 1. フロントエンドにおけるモニ タリングの要件整理
 2. 各PoCの実施
 3. ソリューションの導入 
 1. 監視領域の品質表作成 
 2. 各デバイスごとの評価 
 3. 改善の実施・先導
 1. クライアント領域での監視体 勢の強化
 2. 影響範囲の明確化
 SaaS 型のオブザーバビリティプラットフォーム 
 レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・
  40. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    振り返ってみて 50 良かった点
 
 • SREプラクティスの導入効率の向上 
 • サービスドメイン理解の向上
 • 開発チームとの連携強化
 • チーム間でのナレッジ共有頻度向上 

  41. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    振り返ってみて 51 良かった点
 
 • SREプラクティスの導入効率の向上 
 • サービスドメイン理解の向上
 • 開発チームとの連携強化
 • チーム間でのナレッジ共有頻度向上 
 苦労した点
 
 • サービスドメインの理解
 • 新たなスキルセットの習得
 • コミュニケーションスキルの獲得 
 

  42. AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved


    注力ポイント
 54 1. 負荷対策
 2. 耐障害性の強化