Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ABEMA ログ基盤のクラウドベースリアーキテクチャの内容と運用について
Search
CyberAgent
PRO
March 03, 2025
Technology
1
18
ABEMA ログ基盤のクラウドベースリアーキテクチャの内容と運用について
CyberAgent
PRO
March 03, 2025
Tweet
Share
More Decks by CyberAgent
See All by CyberAgent
2025年度 生成AI 実践編
cyberagentdevelopers
PRO
3
200
LLMを用いたメタデータベースレコメンド検証
cyberagentdevelopers
PRO
5
1.5k
CodeAgentとMCPで実現するデータ分析エージェント
cyberagentdevelopers
PRO
1
240
SQL Agentによるタップルのデータ利活用促進
cyberagentdevelopers
PRO
1
410
NAB Show 2025 動画技術関連レポート / NAB Show 2025 Report
cyberagentdevelopers
PRO
1
390
【2025年度新卒技術研修】100分で学ぶ サイバーエージェントのデータベース 活用事例とMySQLパフォーマンス調査
cyberagentdevelopers
PRO
7
10k
【CA.ai #1】未来を切り拓くAIエージェントの可能性
cyberagentdevelopers
PRO
3
160
【CA.ai #1】MCP世界への招待:AIエンジニアが創る次世代エージェント連携の世界
cyberagentdevelopers
PRO
2
160
【CA.ai #1】ABEMA のコンテンツ制作を最適化! 生成 AI × クラウド映像編集システム
cyberagentdevelopers
PRO
0
130
Other Decks in Technology
See All in Technology
生まれ変わった AWS Security Hub (Preview) を紹介 #reInforce_osaka / reInforce New Security Hub
masahirokawahara
0
400
使いたいMCPサーバーはWeb APIをラップして自分で作る #QiitaBash
bengo4com
0
1.5k
Zephyr RTOSを使った開発コンペに参加した件
iotengineer22
1
180
KubeCon + CloudNativeCon Japan 2025 Recap by CA
ponkio_o
PRO
0
280
AWS Organizations 新機能!マルチパーティ承認の紹介
yhana
1
240
Beyond Kaniko: Navigating Unprivileged Container Image Creation
f30
0
130
一体いつからSRE NEXTがSREだけのカンファレンスだと錯覚していた? / When did you ever get the idea that SRE NEXT was a conference just for SREs?
vtryo
1
140
赤煉瓦倉庫勉強会「Databricksを選んだ理由と、絶賛真っ只中のデータ基盤移行体験記」
ivry_presentationmaterials
1
210
How Community Opened Global Doors
hiroramos4
PRO
1
140
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
950
Flutter向けPDFビューア、pdfrxのpdfium WASM対応について
espresso3389
0
120
なぜ私はいま、ここにいるのか? #もがく中堅デザイナー #プロダクトデザイナー
bengo4com
0
1.3k
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
69
11k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
Side Projects
sachag
455
42k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
17
950
How GitHub (no longer) Works
holman
314
140k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
32
2.4k
Transcript
AbemaTV, Inc. All Rights Reserved 1 AbemaTV, Inc. All Rights
Reserved 1 ABEMAログ基盤のクラウドベー スリアーキテクチャの内容と運 用について TECH+ EXPO 2025 Winter for データ活用 株式会社 AbemaTV Development Headquarters Data Engineer 山村 英貴 Hideki Yamamura
AbemaTV, Inc. All Rights Reserved 2 本日お伝えする内容 2022年の世界的なスポーツ大会に先駆けて実施した ABEMAのログ基盤のクラウドベースリアーキテクチャと、 その後のデータ基盤の開発と運用状況についてお伝えします。
AbemaTV, Inc. All Rights Reserved 3 自己紹介 山村 英貴 (やまむら
ひでき) 株式会社サイバーエージェント2013年度新卒入社後、2019年 株式会社AbemaTVに出向 担当領域は、ログのインジェストに関するサーバー開発と、データパイプラインの開発・運用です。 全般的に、ISUCONの学びを活かした内容になっています。 X @hidekiy GitHub @hidekiy 株式会社AbemaTV > Development Headquarters > Data Division > Data Platform Team Data Engineer
AbemaTV, Inc. All Rights Reserved 4 目次 1. 要件の整理 2.
2022年のリアーキテクチャの設計思想とその背景 3. 2023年以降の開発内容について 4. まとめと今後のデータ基盤
AbemaTV, Inc. All Rights Reserved 5 要件の整理
AbemaTV, Inc. All Rights Reserved 6 レポーティング要件 ABEMAでは早朝から日次集計バッチを実行しているが、過去最大のユーザー規模であっても、ログの取り込 み遅延+バッチ処理時間の遅延の合計について、数時間以内として欲しいというビジネス要件がありました。 日次集計の遅延を数時間以内とする
時刻 状況 5:30 日次集計開始 8:00 SLAアラート(PagerDuty) 8:30 日次集計完了(レポートで利用可能な状態)
AbemaTV, Inc. All Rights Reserved 7 ※パブリッククラウドを 利用していない箇所 リアーキテクチャ実施前
AbemaTV, Inc. All Rights Reserved 8 可用性要件 #1 ABEMAで配信が実施出来ている状態であれば、必ずログも収集して欲しいという要件がありました。 動画配信が実施できる限りログも収集する
動画配信状況 ログ収集状況 結果 〇 〇 OK(目標) 〇 × NG(欠測によりデータが出せない ) × 〇 調査に活用出来るので OK × × 良くないが非常事態なので OK
AbemaTV, Inc. All Rights Reserved 9 可用性要件 #2 利用用途は日次バッチ処理後のデータであるので、出来る限りバッチ処理に寄せたアーキテクチャとしました。 障害発生時の対応が分かりやすい事
インジェスト方式 集計方式 コメント ストリーム 日次バッチ ストリームとしては役に立たないのに、ス トリーム障害(復旧難易度:難)は起こ る。 アワリーバッチ 日次バッチ ビジネス要件を満たす。 分かりやすい(特に障害発生時) コストパフォーマンス優位。 ストリーム ストリーム 必要な場合は構築可能。バッチ集計ライ ンとは分離して用意する事は復旧難易 度を下げる。
AbemaTV, Inc. All Rights Reserved 10 キャパシティ要件 十分に安全を見越した負荷想定でイベントを向かえる事は行うが、もし仮に上振れた場合があったとしても、状 況を見て次までに追加のリソースを確保して望めるようにする必要があった。 イベントごとに柔軟にリソースを確保出来る
次のイベント開始までに対応完了 スケールアウト等実施 キャパシティ確保 (クオータ相談など) リソース追加検討
AbemaTV, Inc. All Rights Reserved 11 2022年のリアーキテクチャの 設計思想とその背景
AbemaTV, Inc. All Rights Reserved 12 ※パブリッククラウドを 利用していない箇所 リアーキテクチャ実施前
AbemaTV, Inc. All Rights Reserved 13 リアーキテクチャ実施前の懸念点 処理限界を超える流量に対しては取り込み遅延が発生し、翌日の日次バッチの開始に影響するので、タイム リーに十分なリソースを確保したいが、オンプレミス基盤の物理制約以上の調達は、即座には要求を満たせな い懸念があった。
オンプレミス環境の限界を超えるスループットへの対処 ⇒ 基盤全体のパブリッククラウド完結が必要 (注) パブリッククラウドのリージョンには大小があるため、あらかじめ大 規模リージョンを選定することが前提
AbemaTV, Inc. All Rights Reserved 14 リアーキテクチャ実施後 (バッチレイヤー) ポイント •
CloudFrontのアクセスログを使うことで、ログの喪失を抑止 • 計算リソース要求を USに逃すことで、アプリ本体側との取り合いを回避
AbemaTV, Inc. All Rights Reserved 15 今後のため準備に注意が必要だった箇所 リアーキテクチャ後の世界的なスポーツ大会を経て • Dataflowジョブの負荷分散パラメーターの調整
• 十分に納期に余裕を持ったクオータ緩和申請
AbemaTV, Inc. All Rights Reserved 16 Dataflowジョブの負荷分散パラメーターの調整 リアーキテクチャ後の世界的なスポーツ大会を経て • 当初マネージドサービスと考えていたが、ジョブテンプレートによっては負荷によりチューニ
ングが必要なパラメーターが存在した • Pub/Sub To GCSのジョブを利用する場合、書き出しシャード数は十分な検証が必要 • 今検討するなら Pub/SubのマネージドなGCS書き出し機能も利用可能
AbemaTV, Inc. All Rights Reserved 17 十分に納期に余裕を持ったクオータ緩和申請 リアーキテクチャ後の世界的なスポーツ大会を経て • 以下のサービスについて、実際にクオータの緩和申請を行いました。
◦ Cloud Pub/Sub ◦ AWS Lambda: Concurrency ◦ Kinesis Data Streams: Provisioned Shards
AbemaTV, Inc. All Rights Reserved 18 当初想定していた要件について リアーキテクチャ実施後から現在まで • 日次集計の遅延を数時間以内とする
◦ 致命的な障害は起こっておりませんが、引き続き何が起こっているのか分かりやすいデータパイプ ラインを維持しています。 • 配信が実施できる限りログも収集する、障害復旧が容易 ◦ インジェストの障害はアプリケーションを排除した結果、クラウド側のリージョン障害に由来する遅延 以外で、ほぼ起こっておらず、データロスは発生しておりません。 • 柔軟なリソースを確保出来る ◦ 平時は十分な規模まで縮退しつつ、ドラマ最終回等の突発的な負荷にも十分対応出来ておりま す。
AbemaTV, Inc. All Rights Reserved 19 2023年以降の開発内容について
AbemaTV, Inc. All Rights Reserved 20 2023年以降の開発内容について • 負荷対策 ◦
実施なし。2022年のイベントを通じて、概ね問題なかったため追加開発は不要としました。 • 開発効率向上 ◦ 2件実施。クラウドベースアーキテクチャを活用した新たな機能追加を実施しました。 • ガバナンス強化 ◦ 1件実施。取り扱うデータの幅が広がり、ガバナンスの強化が求められました。 開発案件の大分類
AbemaTV, Inc. All Rights Reserved 21 2023年以降の開発内容の抜粋 Cloud Pub/Sub SubscriptionのBigQuery書き込み機能と組み合わせて、ストレージ、コスト効率等有利な状態
でのBigQueryデータレイクが実現できるようになっています。 【開発効率】半構造化型 (JSON型) の導入
AbemaTV, Inc. All Rights Reserved 22 2023年以降の開発内容の抜粋 ストリーミングアプリケーションの連携先として、 BigQueryテーブルを想定した時、ストリーム書き込みを効率的 に行うためには、BigQuery
Storage APIを利用出来ます。 こちらを用いて、最新のログデータが都度参照出来るテーブルを作成し、主に開発中のデバッグ用途で利用し ています。 【開発効率】 BigQuery Storage APIによるストリーム書き込み Cloud Pub/Sub など アプリ BQテーブル BQ Storage API
AbemaTV, Inc. All Rights Reserved 23 2023年以降の開発内容の抜粋 データの取り扱い上特に注意が必要なものについて、カラムレベルでポリシータグを付与し、 BigQueryデータ 閲覧者ロールでは全て参照可とせず、追加で、ポリシータグごとのきめ細やかな参照権限が必要な設定を導
入しています。 【ガバナンス】 BigQuery ポリシータグによる追加アクセス制御
AbemaTV, Inc. All Rights Reserved 24 まとめと今後のデータ基盤
AbemaTV, Inc. All Rights Reserved 25 ABEMAのデータ基盤では、世界的なスポーツ大会を通じて重点的に開発した、 高負荷でも安定したデータ処理基盤をベースに、 ABEMAの進化を支えていま す。
まとめ
AbemaTV, Inc. All Rights Reserved 26 今後のデータ基盤 データの社内外への共有時に Analytics Hubを利用する事で、一元的にデータ提供でき、データの利用状況の
把握も出来るようにする予定です。 データガバナンスのシステム的改善
AbemaTV, Inc. All Rights Reserved 27 今後のデータ基盤 Dataplex Catalogのアスペクト等を活用して、必要なメタデータを入れる事でデータ品質を高める方針が良さそ うだと考えています。
データガバナンスのシステム的改善
AbemaTV, Inc. All Rights Reserved 28 最後に https://hrmos.co/pages/cyberagent-group/jobs/0001102 We’re hiring!
宜しければ「ABEMA データ基盤」で検索、ご応募をお待ちしております。