Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022
Search
Yusuke Iwanaga
May 14, 2022
Technology
7.8k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
事業の成長と共に歩む、ABEMA SRE探求の歴史 / SRE-Next 2022
Yusuke Iwanaga
May 14, 2022
Other Decks in Technology
See All in Technology
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
2
1.7k
作って終わりにしない タイミーのセマンティックレイヤー育成の現在地
chanyou0311
4
2.2k
10倍の生産性を実現するAI駆動並列エージェントのすべて
kumaiu
5
1.4k
EventBridge Connection
_kensh
5
690
Agentic Web
dynamis
1
200
白金鉱業Meetup_Vol.24_「AIエージェントは分けるほど良い」は本当か? / Is it true that “the more you divide AI agents, the better”?
brainpadpr
1
310
【Cyber-sec+】経営層を"動かす"ための考え方
hssh2_bin
0
140
失敗を経て、Harness Engineering で 大切にしたいことを考える / Learning from Failure: What Matters in Harness Engineering
bitkey
PRO
1
320
脆弱性対応、どこで線を引くか
rymiyamoto
1
370
Claude Code の Sandbox 機能を Anthropic Sandbox Runtime(srt) で試そう!/lets-play-anthropic-sandbox-runtime
tomoki10
1
550
日本 Fintech 未来予測レポート 2027〜2028年(手動編集版)
8maki
0
2k
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
6
4.6k
Featured
See All Featured
A Modern Web Designer's Workflow
chriscoyier
698
190k
Building AI with AI
inesmontani
PRO
1
1.1k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
22k
The browser strikes back
jonoalderson
0
1.2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
2
390
WCS-LA-2024
lcolladotor
0
630
SEOcharity - Dark patterns in SEO and UX: How to avoid them and build a more ethical web
sarafernandez
0
200
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
250
The Curse of the Amulet
leimatthew05
1
13k
Transcript
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
事業の成長と共に歩む ABEMA SRE探求の歴史 2022 My 15th 株式会社サイバーエージェント ABEMA SRE 岩永 勇祐
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
皆さん、SRE上手くいってますか?
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
僕たちは、とても苦労しました
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
でも、最近は少しいい感じです
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
今日は、そんなお話です。
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
6 1. サービス紹介 2. SREチーム発足の背景 3. 2018~2020年頃の活動 4. 2021年~現在の活動 5. 今後について INDEX
AbemaTV, Inc. All Rights Reserved 7
AbemaTV, Inc. All Rights Reserved 8
AbemaTV, Inc. All Rights Reserved 9
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
※ 出典 CyberAgent, inc. 2021 年通期決算発表資料
AbemaTV, Inc. All Rights Reserved 2. SREチーム発足の背景
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
運用者視点でみるABEMAの特徴 12 1. 24時間番組表にそった リニア配信
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
13 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった リニア配信 障害時のインパクトが大きい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
14 運用者視点でみるABEMAの特徴 1. 24時間番組表にそった リニア配信 リクエストの波が激しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
15 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
16 運用者視点でみるABEMAの特徴 2. インターネット動画配信サービス ※ 出典 2018 AbemaTV Developer Conference 通信トラフィックが多い (物理的な限界を考慮する必要がある)
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
17 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
18 運用者視点でみるABEMAの特徴 3. 様々なデバイスで視聴可能 デバイスに応じた品質管理が必要
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SREチーム発足の背景 19 1. 24時間番組表にそったリニア配信 👉 障害時のインパクトが大きい 👉 リクエストの波が激しい 2. インターネット動画配信サービス 👉 通信トラフィックが多い 3. 様々なデバイスでの視聴 👉 デバイスに応じた品質管理 サービス運用の特性
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SREチーム発足の背景 20 サービス運用の特性 1. サービスの成長 2. 組織規模の拡大 3. システムの巨大化 事業 1. 24時間番組表にそったリニア配信 👉 障害時のインパクトが大きい 👉 リクエストの波が激しい 2. インターネット動画配信サービス 👉 通信トラフィックが多い 3. 様々なデバイスでの視聴 👉 デバイスに応じた品質管理
AbemaTV, Inc. All Rights Reserved 2. 2018~2020年の活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2018~2020年の活動 22 基盤システム の 運用・改善 SRE プラクティスの 導入 SREチームロール
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2018~2020年の活動 23 基盤システム の 運用・改善 SRE プラクティスの 導入 SREチームロール
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入① 24 SLI/SLOの推進準備 PoC 選定 PoC 実施 設定~運用 マニュア ル作成 ポリシー 策定 範囲拡張 ① ② ③ ④ ⑤
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入① 25 SLI/SLOの推進準備 PoC 選定 PoC 実施 設定~運用 マニュア ル作成 ポリシー 策定 範囲拡張 ① ② ③ ④ ⑤
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入① 26 SLI/SLOの推進準備 開発プロセスに含めたい...🤔 PoC 選定 PoC 実施 設定~運用 マニュア ル作成 ポリシー 策定 範囲拡張 ① ② ③ ④ ⑤
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入② 27 Production Readiness Checklistの作成 ▪ 狙い 1. SLI/SLOの設定を開発プロセスに含める 2. 本番環境での運用品質の担保 3. リリースコストの把握・軽減
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE プラクティスの導入② 28 Production Readiness Checklistの作成 ▪ 狙い ▪ 項目 1. SLI/SLOの設定を開発プロセスに含める 2. 本番環境での運用品質の担保 3. リリースコストの把握・軽減 1. サービスレベル 2. ドキュメント 3. モニタリング・アラート 4. 耐障害性 5. スケーラビリティ
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 29 アプローチ • SLI / SLO 基盤 • Production Readiness Checklistの提供 • Capacity Planningの委譲 • (一部) On-Callからの離脱 などなど
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 30 そして、順調に範囲拡大..
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 31 とは、いかなかった..😓
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 32 立ちはだかる多くの課題 • 開発チームのリソースが確保出来ない • システム構成が少しづつ不明に • リスク把握のコスト増 • SREチーム内で優先度が決めづらい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 33 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 34 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 35 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
SRE文化の推進 36 学んだこと・感じたこと 1. 開発チームのベネフィットを意識すること 2. 小さく始め、早く失敗し、小さな実績を積む 3. (今は) On-Callから抜けてはいけない 4. 兼務は難しい
AbemaTV, Inc. All Rights Reserved 3. 2021年~現在の活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2021~現在の活動 38 大幅な体制変更の実施
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2021年からの体制 39 Frontend Backend Platform Product B Product C TeamA TeamB TeamC TeamD Product A Frontend SRE’s Backend SRE’s SRE Cloud Platform • 既存SRE’s一部メンバーをCloudPlatformと専属SRE’sに役割変更 • Frontendチームの一部メンバーがSREの役割も担う
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
2021年からの体制 40 体制変更の狙い 1. 注力するポイントの最適化 2. 各プラクティス導入の速度と質を上げる 3. 個別のドメイン、および課題の把握と改善 4. ナレッジの共有、および伝播
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例①: SLI/SLOの先導 41 1. CUJのヒアリング 2. SLI/SLOの設計 3. SLO Documentの作成 4. 開発チームレビュー 5. 可視化 & アラート設定 6. 定期的な確認 & 見直し 活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例①: SLI/SLOの先導 42 1. CUJのヒアリング 2. SLI/SLOの設計 3. SLO Documentの作成 4. 開発チームレビュー 5. 可視化 & アラート設定 6. 定期的な確認 & 見直し 改善 Alertman ager k8s manifest 1. リクエスト数の少ないサービ スでのアラート 2. 新しい計測手法の導入 3. 設定の簡略化 活動
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例①: SLI/SLOの先導 43 活動 1. CUJのヒアリング 2. SLI/SLOの設計 3. SLO Documentの作成 4. 開発チームレビュー 5. 可視化 & アラート設定 6. 定期的な確認 & 見直し 改善 Alertman ager k8s manifest 1. リクエスト数の少ないサービ スでのアラート 2. 新しい計測手法の導入 3. 設定の簡略化 効果 1. サービス全体を俯瞰して品 質が把握出来るようになっ た 2. 様々なActionの判断基準に なった 3. 長期的な劣化結果傾向を把 握出来るようになった
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例② インシデントへの参加 44 活動 1. インシデントへの参加 2. ポストモーテムの先導
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例② インシデントへの参加 45 レベル 内容 アクション SEV-1 重大な影響 SEV-2 部分的な影響 SEV-3 限定的な影響 改善 活動 1. インシデントへの参加 2. ポストモーテムの先導 1. インシデントフローの見直し 2. 障害レベルの設定 3. 障害を先導するBotの開発 Warroomの作成 各種関連リンクの投稿 After Incidentの先導
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例② インシデントへの参加 46 レベル 内容 アクション SEV-1 重大な影響 SEV-2 部分的な影響 SEV-3 限定的な影響 改善 効果 活動 1. インシデントへの参加 2. ポストモーテムの先導 1. インシデントフローの見直し 2. 障害レベルの設定 3. 障害を先導するBotの開発 Warroomの作成 各種関連リンクの投稿 After Incidentの先導 1. 新たなの課題の発掘 2. チームを跨いだ連携が強化 3. 全体で障害に対する練度の 向上
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例③ モニタリング課題の解決 47 活動 1. フロントエンドにおけるモニ タリングの要件整理 2. 各PoCの実施 3. ソリューションの導入 SaaS 型のオブザーバビリティプラットフォーム ・ ・・
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例③ モニタリング課題の解決 48 改善 活動 1. フロントエンドにおけるモニ タリングの要件整理 2. 各PoCの実施 3. ソリューションの導入 1. 監視領域の品質表作成 2. 各デバイスごとの評価 3. 改善の実施・先導 SaaS 型のオブザーバビリティプラットフォーム レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
活動事例③ モニタリング課題の解決 49 改善 効果 活動 1. フロントエンドにおけるモニ タリングの要件整理 2. 各PoCの実施 3. ソリューションの導入 1. 監視領域の品質表作成 2. 各デバイスごとの評価 3. 改善の実施・先導 1. クライアント領域での監視体 勢の強化 2. 影響範囲の明確化 SaaS 型のオブザーバビリティプラットフォーム レベル アクション 1 重要メトリクスの可視化 2 ログの可視化 3 アラートの設定 4 インシデントフローの整理 ・ ・・
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
振り返ってみて 50 良かった点 • SREプラクティスの導入効率の向上 • サービスドメイン理解の向上 • 開発チームとの連携強化 • チーム間でのナレッジ共有頻度向上
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
振り返ってみて 51 良かった点 • SREプラクティスの導入効率の向上 • サービスドメイン理解の向上 • 開発チームとの連携強化 • チーム間でのナレッジ共有頻度向上 苦労した点 • サービスドメインの理解 • 新たなスキルセットの習得 • コミュニケーションスキルの獲得
AbemaTV, Inc. All Rights Reserved 4. 今後について
AbemaTV, Inc. All Rights Reserved
AbemaTV, Inc. All Rights Reserved AbemaTV, Inc. All Rights Reserved
注力ポイント 54 1. 負荷対策 2. 耐障害性の強化
AbemaTV, Inc. All Rights Reserved We are hiring!!
AbemaTV, Inc. All Rights Reserved