Upgrade to Pro — share decks privately, control downloads, hide ads and more …

事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022

事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022

Yusuke Iwanaga

May 14, 2022
Tweet

Other Decks in Technology

Transcript

  1. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    事業の成長と共に歩む

    ABEMA SRE探求の歴史

    2022 My 15th
    株式会社サイバーエージェント
    ABEMA SRE 岩永 勇祐

    View full-size slide

  2. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    皆さん、SRE上手くいってますか?

    View full-size slide

  3. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    僕たちは、とても苦労しました

    View full-size slide

  4. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    でも、最近は少しいい感じです

    View full-size slide

  5. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    今日は、そんなお話です。

    View full-size slide

  6. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved
 6
    1. サービス紹介
    2. SREチーム発足の背景
    3. 2018~2020年頃の活動
    4. 2021年~現在の活動
    5. 今後について
    INDEX

    View full-size slide

  7. AbemaTV, Inc. All Rights Reserved
 7

    View full-size slide

  8. AbemaTV, Inc. All Rights Reserved
 8

    View full-size slide

  9. AbemaTV, Inc. All Rights Reserved
 9

    View full-size slide

  10. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    ※ 出典 CyberAgent, inc. 2021 年通期決算発表資料

    View full-size slide

  11. AbemaTV, Inc. All Rights Reserved

    2. SREチーム発足の背景


    View full-size slide

  12. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    運用者視点でみるABEMAの特徴
    12
    1. 24時間番組表にそった

    リニア配信


    View full-size slide

  13. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved
 13
    運用者視点でみるABEMAの特徴
    1. 24時間番組表にそった

    リニア配信


    障害時のインパクトが大きい

    View full-size slide

  14. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved
 14
    運用者視点でみるABEMAの特徴
    1. 24時間番組表にそった

    リニア配信



    リクエストの波が激しい

    View full-size slide

  15. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved
 15
    運用者視点でみるABEMAの特徴
    2. インターネット動画配信サービス


    View full-size slide

  16. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved
 16
    運用者視点でみるABEMAの特徴
    2. インターネット動画配信サービス



    ※ 出典 2018 AbemaTV Developer Conference
    通信トラフィックが多い

    (物理的な限界を考慮する必要がある)

    View full-size slide

  17. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved
 17
    運用者視点でみるABEMAの特徴
    3. 様々なデバイスで視聴可能


    View full-size slide

  18. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved
 18
    運用者視点でみるABEMAの特徴
    3. 様々なデバイスで視聴可能


    デバイスに応じた品質管理が必要

    View full-size slide

  19. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SREチーム発足の背景
    19
    1. 24時間番組表にそったリニア配信 

    👉 障害時のインパクトが大きい 

    👉 リクエストの波が激しい 

    2. インターネット動画配信サービス 

    👉 通信トラフィックが多い 

    3. 様々なデバイスでの視聴 

    👉 デバイスに応じた品質管理 

    サービス運用の特性


    View full-size slide

  20. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SREチーム発足の背景
    20
    サービス運用の特性

    1. サービスの成長

    2. 組織規模の拡大

    3. システムの巨大化

    事業

    1. 24時間番組表にそったリニア配信 

    👉 障害時のインパクトが大きい 

    👉 リクエストの波が激しい 

    2. インターネット動画配信サービス 

    👉 通信トラフィックが多い 

    3. 様々なデバイスでの視聴 

    👉 デバイスに応じた品質管理 


    View full-size slide

  21. AbemaTV, Inc. All Rights Reserved

    2. 2018~2020年の活動


    View full-size slide

  22. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    2018~2020年の活動
    22
    基盤システム
    の

    運用・改善

    SRE

    プラクティスの
    導入

    SREチームロール


    View full-size slide

  23. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    2018~2020年の活動
    23
    基盤システム
    の

    運用・改善

    SRE

    プラクティスの
    導入

    SREチームロール


    View full-size slide

  24. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE プラクティスの導入①
    24
    SLI/SLOの推進準備

    PoC

    選定

    PoC

    実施

    設定~運用

    マニュア
    ル作成

    ポリシー
    策定

    範囲拡張

    ① ② ③ ④ ⑤

    View full-size slide

  25. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE プラクティスの導入①
    25
    SLI/SLOの推進準備

    PoC

    選定

    PoC

    実施

    設定~運用

    マニュア
    ル作成

    ポリシー
    策定

    範囲拡張

    ① ② ③ ④ ⑤

    View full-size slide

  26. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE プラクティスの導入①
    26
    SLI/SLOの推進準備

    開発プロセスに含めたい...🤔

    PoC

    選定

    PoC

    実施

    設定~運用

    マニュア
    ル作成

    ポリシー
    策定

    範囲拡張

    ① ② ③ ④ ⑤

    View full-size slide

  27. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE プラクティスの導入②
    27
    Production Readiness Checklistの作成

    ■ 狙い

    1. SLI/SLOの設定を開発プロセスに含める

    2. 本番環境での運用品質の担保

    3. リリースコストの把握・軽減


    View full-size slide

  28. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE プラクティスの導入②
    28
    Production Readiness Checklistの作成

    ■ 狙い
 ■ 項目
    1. SLI/SLOの設定を開発プロセスに含める

    2. 本番環境での運用品質の担保

    3. リリースコストの把握・軽減

    1. サービスレベル

    2. ドキュメント

    3. モニタリング・アラート

    4. 耐障害性

    5. スケーラビリティ


    View full-size slide

  29. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    29
    アプローチ

    ● SLI / SLO 基盤

    ● Production Readiness Checklistの提供

    ● Capacity Planningの委譲

    ● (一部) On-Callからの離脱

    などなど


    View full-size slide

  30. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    30
    そして、順調に範囲拡大..

    View full-size slide

  31. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    31
    とは、いかなかった..😓

    View full-size slide

  32. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    32
    立ちはだかる多くの課題

    ● 開発チームのリソースが確保出来ない

    ● システム構成が少しづつ不明に

    ● リスク把握のコスト増

    ● SREチーム内で優先度が決めづらい


    View full-size slide

  33. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    33
    学んだこと・感じたこと

    1. 開発チームのベネフィットを意識すること

    2. 小さく始め、早く失敗し、小さな実績を積む

    3. (今は) On-Callから抜けてはいけない

    4. 兼務は難しい


    View full-size slide

  34. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    34
    学んだこと・感じたこと

    1. 開発チームのベネフィットを意識すること

    2. 小さく始め、早く失敗し、小さな実績を積む

    3. (今は) On-Callから抜けてはいけない

    4. 兼務は難しい


    View full-size slide

  35. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    35
    学んだこと・感じたこと

    1. 開発チームのベネフィットを意識すること

    2. 小さく始め、早く失敗し、小さな実績を積む

    3. (今は) On-Callから抜けてはいけない

    4. 兼務は難しい


    View full-size slide

  36. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    SRE文化の推進
    36
    学んだこと・感じたこと

    1. 開発チームのベネフィットを意識すること

    2. 小さく始め、早く失敗し、小さな実績を積む

    3. (今は) On-Callから抜けてはいけない

    4. 兼務は難しい


    View full-size slide

  37. AbemaTV, Inc. All Rights Reserved

    3. 2021年~現在の活動


    View full-size slide

  38. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    2021~現在の活動
    38
    大幅な体制変更の実施

    View full-size slide

  39. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    2021年からの体制
    39
    Frontend Backend Platform
    Product B
    Product C
    TeamA TeamB TeamC TeamD
    Product A
    Frontend SRE’s Backend SRE’s
    SRE Cloud Platform
    ● 既存SRE’s一部メンバーをCloudPlatformと専属SRE’sに役割変更
    ● Frontendチームの一部メンバーがSREの役割も担う

    View full-size slide

  40. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    2021年からの体制
    40
    体制変更の狙い

    1. 注力するポイントの最適化

    2. 各プラクティス導入の速度と質を上げる

    3. 個別のドメイン、および課題の把握と改善

    4. ナレッジの共有、および伝播


    View full-size slide

  41. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例①: SLI/SLOの先導
    41
    1. CUJのヒアリング

    2. SLI/SLOの設計

    3. SLO Documentの作成 

    4. 開発チームレビュー 

    5. 可視化 & アラート設定 

    6. 定期的な確認 & 見直し 

    活動


    View full-size slide

  42. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例①: SLI/SLOの先導
    42
    1. CUJのヒアリング

    2. SLI/SLOの設計

    3. SLO Documentの作成 

    4. 開発チームレビュー 

    5. 可視化 & アラート設定 

    6. 定期的な確認 & 見直し 

    改善

    Alertman
    ager
    k8s

    manifest
    1. リクエスト数の少ないサービ
    スでのアラート

    2. 新しい計測手法の導入 

    3. 設定の簡略化

    活動


    View full-size slide

  43. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例①: SLI/SLOの先導
    43
    活動

    1. CUJのヒアリング

    2. SLI/SLOの設計

    3. SLO Documentの作成 

    4. 開発チームレビュー 

    5. 可視化 & アラート設定 

    6. 定期的な確認 & 見直し 

    改善

    Alertman
    ager
    k8s

    manifest
    1. リクエスト数の少ないサービ
    スでのアラート

    2. 新しい計測手法の導入 

    3. 設定の簡略化

    効果

    1. サービス全体を俯瞰して品
    質が把握出来るようになっ
    た

    2. 様々なActionの判断基準に
    なった

    3. 長期的な劣化結果傾向を把
    握出来るようになった 


    View full-size slide

  44. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例② インシデントへの参加
    44
    活動

    1. インシデントへの参加 

    2. ポストモーテムの先導 


    View full-size slide

  45. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例② インシデントへの参加
    45
    レベル
 内容
 アクション

    SEV-1
 重大な影響

    SEV-2 部分的な影響

    SEV-3
 限定的な影響
    改善

    活動

    1. インシデントへの参加 

    2. ポストモーテムの先導 

    1. インシデントフローの見直し 

    2. 障害レベルの設定

    3. 障害を先導するBotの開発 

    Warroomの作成

    各種関連リンクの投稿

    After Incidentの先導


    View full-size slide

  46. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例② インシデントへの参加
    46
    レベル
 内容
 アクション

    SEV-1
 重大な影響

    SEV-2 部分的な影響

    SEV-3
 限定的な影響
    改善
 効果

    活動

    1. インシデントへの参加 

    2. ポストモーテムの先導 

    1. インシデントフローの見直し 

    2. 障害レベルの設定

    3. 障害を先導するBotの開発 

    Warroomの作成

    各種関連リンクの投稿

    After Incidentの先導

    1. 新たなの課題の発掘 

    2. チームを跨いだ連携が強化 

    3. 全体で障害に対する練度の
    向上


    View full-size slide

  47. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例③ モニタリング課題の解決
    47
    活動

    1. フロントエンドにおけるモニ
    タリングの要件整理

    2. 各PoCの実施

    3. ソリューションの導入 

    SaaS 型のオブザーバビリティプラットフォーム 


    ・・

    View full-size slide

  48. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例③ モニタリング課題の解決
    48
    改善

    活動

    1. フロントエンドにおけるモニ
    タリングの要件整理

    2. 各PoCの実施

    3. ソリューションの導入 

    1. 監視領域の品質表作成 

    2. 各デバイスごとの評価 

    3. 改善の実施・先導

    SaaS 型のオブザーバビリティプラットフォーム 

    レベル アクション
    1 重要メトリクスの可視化
    2 ログの可視化
    3 アラートの設定
    4 インシデントフローの整理

    ・・

    View full-size slide

  49. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    活動事例③ モニタリング課題の解決
    49
    改善
 効果

    活動

    1. フロントエンドにおけるモニ
    タリングの要件整理

    2. 各PoCの実施

    3. ソリューションの導入 

    1. 監視領域の品質表作成 

    2. 各デバイスごとの評価 

    3. 改善の実施・先導

    1. クライアント領域での監視体
    勢の強化

    2. 影響範囲の明確化

    SaaS 型のオブザーバビリティプラットフォーム 

    レベル アクション
    1 重要メトリクスの可視化
    2 ログの可視化
    3 アラートの設定
    4 インシデントフローの整理

    ・・

    View full-size slide

  50. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    振り返ってみて
    50
    良かった点


    ● SREプラクティスの導入効率の向上

    ● サービスドメイン理解の向上

    ● 開発チームとの連携強化

    ● チーム間でのナレッジ共有頻度向上

    View full-size slide

  51. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    振り返ってみて
    51
    良かった点


    ● SREプラクティスの導入効率の向上

    ● サービスドメイン理解の向上

    ● 開発チームとの連携強化

    ● チーム間でのナレッジ共有頻度向上

    苦労した点


    ● サービスドメインの理解

    ● 新たなスキルセットの習得

    ● コミュニケーションスキルの獲得


    View full-size slide

  52. AbemaTV, Inc. All Rights Reserved

    4. 今後について


    View full-size slide

  53. AbemaTV, Inc. All Rights Reserved


    View full-size slide

  54. AbemaTV, Inc. All Rights Reserved

    AbemaTV, Inc. All Rights Reserved

    注力ポイント

    54
    1. 負荷対策

    2. 耐障害性の強化


    View full-size slide

  55. AbemaTV, Inc. All Rights Reserved

    We are hiring!!


    View full-size slide

  56. AbemaTV, Inc. All Rights Reserved


    View full-size slide