Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022
Yusuke Iwanaga
May 14, 2022
Technology
0
2.1k
事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022
Yusuke Iwanaga
May 14, 2022
Tweet
Share
Other Decks in Technology
See All in Technology
ソフトウェアテスト 2022 / Software Testing 2022
ak1210
1
1.4k
CADDi AI LabにおけるマネージドなMLOps
vaaaaanquish
2
1.4k
オンラインでのサーバー切替事例紹介/ColoplTech-05-01
colopl
0
150
Building smarter apps with machine learning, from magic to reality
picardparis
4
3.2k
Custom AppをIP制限ありのままで審査に通す方法
yusuga
0
240
noteの品質課題に立ち上げ直後のQAチームが挑んだ軌跡
hiroki_tanaka
1
190
MRTK3 - DataBinding and Theming 入門
futo23
0
130
5分で分かるGoogle Playの新しいサブスクリプション / Google Play new subscription 2022
syarihu
0
180
組織の崩壊と再生、その中で何を考え、感じたのか。 そして本当に必要だったもの
kosako
0
950
Camp Digital 2022: tailored advice
kyliehavelock
0
130
さいきんのRaspberry Pi。 / osc22do-rpi
akkiesoft
4
4.1k
通知がOFFだとToastは表示されな… されてる!?
napplecomputer
0
200
Featured
See All Featured
A better future with KSS
kneath
225
15k
Adopting Sorbet at Scale
ufuk
63
7.6k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
119
28k
4 Signs Your Business is Dying
shpigford
169
20k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
29
4.3k
Visualization
eitanlees
124
11k
It's Worth the Effort
3n
172
25k
The MySQL Ecosystem @ GitHub 2015
samlambert
238
11k
Optimizing for Happiness
mojombo
365
63k
Pencils Down: Stop Designing & Start Developing
hursman
112
9.8k
Unsuck your backbone
ammeep
659
55k
The Brand Is Dead. Long Live the Brand.
mthomps
46
2.7k
Transcript
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
事業の成長と共に歩む ABEMA SRE探求の歴史 2022 My 15th 株式会社サイバーエージェント ABEMA SRE 岩永 勇祐
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
皆さん、SRE上手くいってますか?
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
僕たちは、とても苦労しました
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
でも、最近は少しいい感じです
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
今日は、そんなお話です。
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
6 1. サービス紹介 2. SREチーム発足の背景 3. 2018~2020年頃の活動 4. 2021年~現在の活動 5. 今後について INDEX
AbemaTV, Inc. All Rights Reserved 7
AbemaTV, Inc. All Rights Reserved 8
AbemaTV, Inc. All Rights Reserved 9
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
※ 出典 CyberAgent, inc. 2021 年通期決算発表資料
AbemaTV, Inc. All Rights Reserved 2. SREチーム発足の背景
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
運用者視点でみるABEMAの特徴 12 1. 24時間番組表にそった リニア配信
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
13 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった リニア配信 障害時のインパクトが大きい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
14 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった リニア配信 リクエストの波が激しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
15 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
16 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス ※ 出典 2018 AbemaTV Developer Conference 通信トラフィックが多い (物理的な限界を考慮する必要がある)
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
17 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
18 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能 デバイスに応じた品質管理が必要
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SREチーム発足の背景 19 1. 24時間番組表にそったリニア配信 👉 障害時のインパクトが大きい 👉 リクエストの波が激しい 2. インターネット動画配信サービス 👉 通信トラフィックが多い 3. 様々なデバイスでの視聴 👉 デバイスに応じた品質管理 サービス運用の特性
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SREチーム発足の背景 20 サービス運用の特性 1. サービスの成長 2. 組織規模の拡大 3. システムの巨大化 事業 1. 24時間番組表にそったリニア配信 👉 障害時のインパクトが大きい 👉 リクエストの波が激しい 2. インターネット動画配信サービス 👉 通信トラフィックが多い 3. 様々なデバイスでの視聴 👉 デバイスに応じた品質管理
AbemaTV, Inc. All Rights Reserved 2. 2018~2020年の活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2018~2020年の活動 22 基盤システム の 運用・改善 SRE プラクティスの 導入 SREチームロール
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2018~2020年の活動 23 基盤システム の 運用・改善 SRE プラクティスの 導入 SREチームロール
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入① 24 SLI/SLOの推進準備 PoC 選定 PoC 実施 設定~運用 マニュア ル作成 ポリシー 策定 範囲拡張 ① ② ③ ④ ⑤
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入① 25 SLI/SLOの推進準備 PoC 選定 PoC 実施 設定~運用 マニュア ル作成 ポリシー 策定 範囲拡張 ① ② ③ ④ ⑤
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入① 26 SLI/SLOの推進準備 開発プロセスに含めたい...🤔 PoC 選定 PoC 実施 設定~運用 マニュア ル作成 ポリシー 策定 範囲拡張 ① ② ③ ④ ⑤
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入② 27 Production Readiness Checklistの作成 ▪ 狙い 1. SLI/SLOの設定を開発プロセスに含める 2. 本番環境での運用品質の担保 3. リリースコストの把握・軽減
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入② 28 Production Readiness Checklistの作成 ▪ 狙い ▪ 項目 1. SLI/SLOの設定を開発プロセスに含める 2. 本番環境での運用品質の担保 3. リリースコストの把握・軽減 1. サービスレベル 2. ドキュメント 3. モニタリング・アラート 4. 耐障害性 5. スケーラビリティ
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 29 アプローチ • SLI / SLO 基盤 • Production Readiness Checklistの提供 • Capacity Planningの委譲 • (一部) On-Callからの離脱 などなど
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 30 そして、順調に範囲拡大..
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 31 とは、いかなかった..😓
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 32 立ちはだかる多くの課題 • 開発チームのリソースが確保出来ない • システム構成が少しづつ不明に • リスク把握のコスト増 • SREチーム内で優先度が決めづらい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 33 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 34 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 35 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 36 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved 3. 2021年~現在の活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2021~現在の活動 38 大幅な体制変更の実施
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2021年からの体制 39 Frontend Backend Platform Product B Product C TeamA TeamB TeamC TeamD Product A Frontend SRE’s Backend SRE’s SRE Cloud Platform • 既存SRE’s一部メンバーをCloudPlatformと専属SRE’sに役割変更 • Frontendチームの一部メンバーがSREの役割も担う
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2021年からの体制 40 体制変更の狙い 1. 注力するポイントの最適化 2. 各プラクティス導入の速度と質を上げる 3. 個別のドメイン、および課題の把握と改善 4. ナレッジの共有、および伝播
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例①: SLI/SLOの先導 41 1. CUJのヒアリング 2. SLI/SLOの設計 3. SLO Documentの作成 4. 開発チームレビュー 5. 可視化 & アラート設定 6. 定期的な確認 & 見直し 活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例①: SLI/SLOの先導 42 1. CUJのヒアリング 2. SLI/SLOの設計 3. SLO Documentの作成 4. 開発チームレビュー 5. 可視化 & アラート設定 6. 定期的な確認 & 見直し 改善 Alertman ager k8s manifest 1. リクエスト数の少ないサービ スでのアラート 2. 新しい計測手法の導入 3. 設定の簡略化 活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例①: SLI/SLOの先導 43 活動 1. CUJのヒアリング 2. SLI/SLOの設計 3. SLO Documentの作成 4. 開発チームレビュー 5. 可視化 & アラート設定 6. 定期的な確認 & 見直し 改善 Alertman ager k8s manifest 1. リクエスト数の少ないサービ スでのアラート 2. 新しい計測手法の導入 3. 設定の簡略化 効果 1. サービス全体を俯瞰して品 質が把握出来るようになっ た 2. 様々なActionの判断基準に なった 3. 長期的な劣化結果傾向を把 握出来るようになった
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例② インシデントへの参加 44 活動 1. インシデントへの参加 2. ポストモーテムの先導
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例② インシデントへの参加 45 レベル 内容 アクション SEV-1 重大な影響 SEV-2 部分的な影響 SEV-3 限定的な影響 改善 活動 1. インシデントへの参加 2. ポストモーテムの先導 1. インシデントフローの見直し 2. 障害レベルの設定 3. 障害を先導するBotの開発 Warroomの作成 各種関連リンクの投稿 After Incidentの先導
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例② インシデントへの参加 46 レベル 内容 アクション SEV-1 重大な影響 SEV-2 部分的な影響 SEV-3 限定的な影響 改善 効果 活動 1. インシデントへの参加 2. ポストモーテムの先導 1. インシデントフローの見直し 2. 障害レベルの設定 3. 障害を先導するBotの開発 Warroomの作成 各種関連リンクの投稿 After Incidentの先導 1. 新たなの課題の発掘 2. チームを跨いだ連携が強化 3. 全体で障害に対する練度の 向上
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例③ モニタリング課題の解決 47 活動 1. フロントエンドにおけるモニ タリングの要件整理 2. 各PoCの実施 3. ソリューションの導入 SaaS 型のオブザーバビリティプラットフォーム ・ ・・
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例③ モニタリング課題の解決 48 改善 活動 1. フロントエンドにおけるモニ タリングの要件整理 2. 各PoCの実施 3. ソリューションの導入 1. 監視領域の品質表作成 2. 各デバイスごとの評価 3. 改善の実施・先導 SaaS 型のオブザーバビリティプラットフォーム レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例③ モニタリング課題の解決 49 改善 効果 活動 1. フロントエンドにおけるモニ タリングの要件整理 2. 各PoCの実施 3. ソリューションの導入 1. 監視領域の品質表作成 2. 各デバイスごとの評価 3. 改善の実施・先導 1. クライアント領域での監視体 勢の強化 2. 影響範囲の明確化 SaaS 型のオブザーバビリティプラットフォーム レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
振り返ってみて 50 良かった点 • SREプラクティスの導入効率の向上 • サービスドメイン理解の向上 • 開発チームとの連携強化 • チーム間でのナレッジ共有頻度向上
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
振り返ってみて 51 良かった点 • SREプラクティスの導入効率の向上 • サービスドメイン理解の向上 • 開発チームとの連携強化 • チーム間でのナレッジ共有頻度向上 苦労した点 • サービスドメインの理解 • 新たなスキルセットの習得 • コミュニケーションスキルの獲得
AbemaTV, Inc. All Rights Reserved 4. 今後について
AbemaTV, Inc. All Rights Reserved
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
注力ポイント 54 1. 負荷対策 2. 耐障害性の強化
AbemaTV, Inc. All Rights Reserved We are hiring!!
AbemaTV, Inc. All Rights Reserved