Slide 1

Slide 1 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 事業の成長と共に歩む
 ABEMA SRE探求の歴史
 2022 My 15th 株式会社サイバーエージェント ABEMA SRE 岩永 勇祐

Slide 2

Slide 2 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 皆さん、SRE上手くいってますか?

Slide 3

Slide 3 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 僕たちは、とても苦労しました

Slide 4

Slide 4 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 でも、最近は少しいい感じです

Slide 5

Slide 5 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 今日は、そんなお話です。

Slide 6

Slide 6 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 6 1. サービス紹介 2. SREチーム発足の背景 3. 2018~2020年頃の活動 4. 2021年~現在の活動 5. 今後について INDEX

Slide 7

Slide 7 text

AbemaTV, Inc. All Rights Reserved
 7

Slide 8

Slide 8 text

AbemaTV, Inc. All Rights Reserved
 8

Slide 9

Slide 9 text

AbemaTV, Inc. All Rights Reserved
 9

Slide 10

Slide 10 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 ※ 出典 CyberAgent, inc. 2021 年通期決算発表資料

Slide 11

Slide 11 text

AbemaTV, Inc. All Rights Reserved
 2. SREチーム発足の背景


Slide 12

Slide 12 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 運用者視点でみるABEMAの特徴 12 1. 24時間番組表にそった
 リニア配信
 


Slide 13

Slide 13 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 13 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった
 リニア配信
 
 障害時のインパクトが大きい

Slide 14

Slide 14 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 14 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった
 リニア配信
 
 リクエストの波が激しい

Slide 15

Slide 15 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 15 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス
 


Slide 16

Slide 16 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 16 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス
 
 ※ 出典 2018 AbemaTV Developer Conference 通信トラフィックが多い
 (物理的な限界を考慮する必要がある)

Slide 17

Slide 17 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 17 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能
 


Slide 18

Slide 18 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 18 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能
 デバイスに応じた品質管理が必要

Slide 19

Slide 19 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SREチーム発足の背景 19 1. 24時間番組表にそったリニア配信 
 👉 障害時のインパクトが大きい 
 👉 リクエストの波が激しい 
 2. インターネット動画配信サービス 
 👉 通信トラフィックが多い 
 3. 様々なデバイスでの視聴 
 👉 デバイスに応じた品質管理 
 サービス運用の特性


Slide 20

Slide 20 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SREチーム発足の背景 20 サービス運用の特性
 1. サービスの成長
 2. 組織規模の拡大
 3. システムの巨大化
 事業
 1. 24時間番組表にそったリニア配信 
 👉 障害時のインパクトが大きい 
 👉 リクエストの波が激しい 
 2. インターネット動画配信サービス 
 👉 通信トラフィックが多い 
 3. 様々なデバイスでの視聴 
 👉 デバイスに応じた品質管理 


Slide 21

Slide 21 text

AbemaTV, Inc. All Rights Reserved
 2. 2018~2020年の活動


Slide 22

Slide 22 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 2018~2020年の活動 22 基盤システム の
 運用・改善
 SRE
 プラクティスの 導入
 SREチームロール


Slide 23

Slide 23 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 2018~2020年の活動 23 基盤システム の
 運用・改善
 SRE
 プラクティスの 導入
 SREチームロール


Slide 24

Slide 24 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE プラクティスの導入① 24 SLI/SLOの推進準備
 PoC
 選定
 PoC
 実施
 設定~運用
 マニュア ル作成
 ポリシー 策定
 範囲拡張
 ① ② ③ ④ ⑤

Slide 25

Slide 25 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE プラクティスの導入① 25 SLI/SLOの推進準備
 PoC
 選定
 PoC
 実施
 設定~運用
 マニュア ル作成
 ポリシー 策定
 範囲拡張
 ① ② ③ ④ ⑤

Slide 26

Slide 26 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE プラクティスの導入① 26 SLI/SLOの推進準備
 開発プロセスに含めたい...🤔
 PoC
 選定
 PoC
 実施
 設定~運用
 マニュア ル作成
 ポリシー 策定
 範囲拡張
 ① ② ③ ④ ⑤

Slide 27

Slide 27 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE プラクティスの導入② 27 Production Readiness Checklistの作成
 ■ 狙い
 1. SLI/SLOの設定を開発プロセスに含める 
 2. 本番環境での運用品質の担保 
 3. リリースコストの把握・軽減


Slide 28

Slide 28 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE プラクティスの導入② 28 Production Readiness Checklistの作成
 ■ 狙い
 ■ 項目 1. SLI/SLOの設定を開発プロセスに含める 
 2. 本番環境での運用品質の担保 
 3. リリースコストの把握・軽減
 1. サービスレベル
 2. ドキュメント
 3. モニタリング・アラート
 4. 耐障害性
 5. スケーラビリティ


Slide 29

Slide 29 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 29 アプローチ
 ● SLI / SLO 基盤
 ● Production Readiness Checklistの提供
 ● Capacity Planningの委譲
 ● (一部) On-Callからの離脱
 などなど


Slide 30

Slide 30 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 30 そして、順調に範囲拡大..

Slide 31

Slide 31 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 31 とは、いかなかった..😓

Slide 32

Slide 32 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 32 立ちはだかる多くの課題
 ● 開発チームのリソースが確保出来ない
 ● システム構成が少しづつ不明に
 ● リスク把握のコスト増
 ● SREチーム内で優先度が決めづらい


Slide 33

Slide 33 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 33 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい


Slide 34

Slide 34 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 34 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい


Slide 35

Slide 35 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 35 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい


Slide 36

Slide 36 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 SRE文化の推進 36 学んだこと・感じたこと
 1. 開発チームのベネフィットを意識すること
 2. 小さく始め、早く失敗し、小さな実績を積む
 3. (今は) On-Callから抜けてはいけない
 4. 兼務は難しい


Slide 37

Slide 37 text

AbemaTV, Inc. All Rights Reserved
 3. 2021年~現在の活動


Slide 38

Slide 38 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 2021~現在の活動 38 大幅な体制変更の実施

Slide 39

Slide 39 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 2021年からの体制 39 Frontend Backend Platform Product B Product C TeamA TeamB TeamC TeamD Product A Frontend SRE’s Backend SRE’s SRE Cloud Platform ● 既存SRE’s一部メンバーをCloudPlatformと専属SRE’sに役割変更 ● Frontendチームの一部メンバーがSREの役割も担う

Slide 40

Slide 40 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 2021年からの体制 40 体制変更の狙い
 1. 注力するポイントの最適化
 2. 各プラクティス導入の速度と質を上げる
 3. 個別のドメイン、および課題の把握と改善
 4. ナレッジの共有、および伝播


Slide 41

Slide 41 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例①: SLI/SLOの先導 41 1. CUJのヒアリング
 2. SLI/SLOの設計
 3. SLO Documentの作成 
 4. 開発チームレビュー 
 5. 可視化 & アラート設定 
 6. 定期的な確認 & 見直し 
 活動


Slide 42

Slide 42 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例①: SLI/SLOの先導 42 1. CUJのヒアリング
 2. SLI/SLOの設計
 3. SLO Documentの作成 
 4. 開発チームレビュー 
 5. 可視化 & アラート設定 
 6. 定期的な確認 & 見直し 
 改善
 Alertman ager k8s
 manifest 1. リクエスト数の少ないサービ スでのアラート
 2. 新しい計測手法の導入 
 3. 設定の簡略化
 活動


Slide 43

Slide 43 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例①: SLI/SLOの先導 43 活動
 1. CUJのヒアリング
 2. SLI/SLOの設計
 3. SLO Documentの作成 
 4. 開発チームレビュー 
 5. 可視化 & アラート設定 
 6. 定期的な確認 & 見直し 
 改善
 Alertman ager k8s
 manifest 1. リクエスト数の少ないサービ スでのアラート
 2. 新しい計測手法の導入 
 3. 設定の簡略化
 効果
 1. サービス全体を俯瞰して品 質が把握出来るようになっ た
 2. 様々なActionの判断基準に なった
 3. 長期的な劣化結果傾向を把 握出来るようになった 


Slide 44

Slide 44 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例② インシデントへの参加 44 活動
 1. インシデントへの参加 
 2. ポストモーテムの先導 


Slide 45

Slide 45 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例② インシデントへの参加 45 レベル
 内容
 アクション
 SEV-1
 重大な影響
 SEV-2 部分的な影響
 SEV-3
 限定的な影響 改善
 活動
 1. インシデントへの参加 
 2. ポストモーテムの先導 
 1. インシデントフローの見直し 
 2. 障害レベルの設定
 3. 障害を先導するBotの開発 
 Warroomの作成
 各種関連リンクの投稿
 After Incidentの先導


Slide 46

Slide 46 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例② インシデントへの参加 46 レベル
 内容
 アクション
 SEV-1
 重大な影響
 SEV-2 部分的な影響
 SEV-3
 限定的な影響 改善
 効果
 活動
 1. インシデントへの参加 
 2. ポストモーテムの先導 
 1. インシデントフローの見直し 
 2. 障害レベルの設定
 3. 障害を先導するBotの開発 
 Warroomの作成
 各種関連リンクの投稿
 After Incidentの先導
 1. 新たなの課題の発掘 
 2. チームを跨いだ連携が強化 
 3. 全体で障害に対する練度の 向上


Slide 47

Slide 47 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例③ モニタリング課題の解決 47 活動
 1. フロントエンドにおけるモニ タリングの要件整理
 2. 各PoCの実施
 3. ソリューションの導入 
 SaaS 型のオブザーバビリティプラットフォーム 
 ・ ・・

Slide 48

Slide 48 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例③ モニタリング課題の解決 48 改善
 活動
 1. フロントエンドにおけるモニ タリングの要件整理
 2. 各PoCの実施
 3. ソリューションの導入 
 1. 監視領域の品質表作成 
 2. 各デバイスごとの評価 
 3. 改善の実施・先導
 SaaS 型のオブザーバビリティプラットフォーム 
 レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・

Slide 49

Slide 49 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 活動事例③ モニタリング課題の解決 49 改善
 効果
 活動
 1. フロントエンドにおけるモニ タリングの要件整理
 2. 各PoCの実施
 3. ソリューションの導入 
 1. 監視領域の品質表作成 
 2. 各デバイスごとの評価 
 3. 改善の実施・先導
 1. クライアント領域での監視体 勢の強化
 2. 影響範囲の明確化
 SaaS 型のオブザーバビリティプラットフォーム 
 レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・

Slide 50

Slide 50 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 振り返ってみて 50 良かった点
 
 ● SREプラクティスの導入効率の向上 
 ● サービスドメイン理解の向上
 ● 開発チームとの連携強化
 ● チーム間でのナレッジ共有頻度向上 


Slide 51

Slide 51 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 振り返ってみて 51 良かった点
 
 ● SREプラクティスの導入効率の向上 
 ● サービスドメイン理解の向上
 ● 開発チームとの連携強化
 ● チーム間でのナレッジ共有頻度向上 
 苦労した点
 
 ● サービスドメインの理解
 ● 新たなスキルセットの習得
 ● コミュニケーションスキルの獲得 
 


Slide 52

Slide 52 text

AbemaTV, Inc. All Rights Reserved
 4. 今後について


Slide 53

Slide 53 text

AbemaTV, Inc. All Rights Reserved


Slide 54

Slide 54 text

AbemaTV, Inc. All Rights Reserved
 AbemaTV, Inc. All Rights Reserved
 注力ポイント
 54 1. 負荷対策
 2. 耐障害性の強化


Slide 55

Slide 55 text

AbemaTV, Inc. All Rights Reserved
 We are hiring!!


Slide 56

Slide 56 text

AbemaTV, Inc. All Rights Reserved