Slide 1

Slide 1 text

AbemaTV, Inc. All Rights Reserved
 1 ABEMAは なぜ セマンティックレイヤー に挑戦しているのか? 2024/04/25 #MTS 株式会社AbemaTV Sotaro Tanaka @__sotaron__

Slide 2

Slide 2 text

AbemaTV, Inc. All Rights Reserved
 Sotaro Tanaka 株式会社AbemaTV 開発本部 Data div. DataManagement Team Mgr ● 2023/04~ ABEMAでデータマネジメント ● Data Management & BI ● Data Engineering ● Like: コンテナ技術 / dbt / 小倉唯さん ● Hobby: 🏂 / 🎮 / ⚽ / 小倉唯さん 2 Profile X(旧Twitter) @__sotaron__

Slide 3

Slide 3 text

AbemaTV, Inc. All Rights Reserved
 今日お話すること 3 ABEMAでは今、セマンティックレイヤーの導入・構築に挑戦しています。 大規模なプロダクト・組織だからこそ、その効用が大きいと感じる セマンティックレイヤーについて ABEMAにおける前提の背景や課題とあわせて、その導入プロジェクトをご紹介します。

Slide 4

Slide 4 text

AbemaTV, Inc. All Rights Reserved
 4 ABEMAのご紹介

Slide 5

Slide 5 text

AbemaTV, Inc. All Rights Reserved
 5 ※ 投資家向け資料 より

Slide 6

Slide 6 text

AbemaTV, Inc. All Rights Reserved
 ABEMA 紹介 6 複数デバイス対応・多彩なチャンネルラインナップ

Slide 7

Slide 7 text

AbemaTV, Inc. All Rights Reserved
 ABEMA 紹介 7

Slide 8

Slide 8 text

AbemaTV, Inc. All Rights Reserved
 8 ※ 投資家向け資料 より

Slide 9

Slide 9 text

AbemaTV, Inc. All Rights Reserved
 9 ※ 投資家向け資料 より

Slide 10

Slide 10 text

AbemaTV, Inc. All Rights Reserved
 10 セマンティックレイヤーとは?

Slide 11

Slide 11 text

AbemaTV, Inc. All Rights Reserved
 その前に:ABEMAのデータ基盤の現状構成 現状はオーソドックスなレイク・ DWH・マートの3層 + BIツール(Tableauやスプシ)という構成 11 データレイク DWH / データマート レポーティング Tableau Server BigQuery Cloud Strage DWH データマート

Slide 12

Slide 12 text

AbemaTV, Inc. All Rights Reserved
 セマンティックレイヤー は「データ」と「ビジネスの概念」を繫ぐ層 12 BIツール / レポートA DWH メジャー ディメンション BIツール / レポートA DWH 汎用 セマンティック レイヤー メジャー BIツール / レポートB BIツール / レポートC BIツール / レポートB BIツール / レポートC メジャー … Tableauの機能制限で 過去期間データや集計軸を変えただけ のデータ出しにも依頼・作業が必要 ビジ 開発 Eng 参照 クエリ 発行 結果返却 キャッシュ メジャー ディメンション メジャー ディメンション ディメンション ディメンション 集計 データ 閲覧 現状構成 汎用セマンティックレイヤーを導入した構成

Slide 13

Slide 13 text

AbemaTV, Inc. All Rights Reserved
 ABEMAでは 従来型BIツールの制約を超えたセマンティックレイヤーの構築に挑戦 13 BIツール / レポートA DWH メジャー ディメンション BIツール / レポートA DWH 汎用 セマンティック レイヤー メジャー BIツール / レポートB BIツール / レポートC BIツール / レポートB BIツール / レポートC メジャー … Tableauの機能制限で 過去期間データや集計軸を変えただけ のデータ出しにも依頼・作業が必要 ビジ 開発 Eng 参照 クエリ 発行 結果返却 キャッシュ メジャー ディメンション メジャー ディメンション ディメンション ディメンション 集計 データ 閲覧 現状構成 汎用セマンティックレイヤーを導入した構成

Slide 14

Slide 14 text

AbemaTV, Inc. All Rights Reserved
 14 なぜ セマンティックレイヤー?

Slide 15

Slide 15 text

AbemaTV, Inc. All Rights Reserved
 ABEMAの状況1⃣:大規模ゆえのデータを求める人の多さ、多様さ 15 大規模な組織・プロダクトゆえに各プレイヤーのデータ習熟度や求めるデータのばらつきが大きい。 依頼ベースで「今回はこの定義でデータ出して」 がコントロールしきれない。

Slide 16

Slide 16 text

AbemaTV, Inc. All Rights Reserved
 ABEMAの状況2⃣:プロダクトの「歴史」 16 サービスの成長・時流に合わせて、 UI/UXも変わっていく。 仕様が変更されても、当時のログ、データは残る。 同じ「指標」を算出するにも 5年前と今とでは、集計定義を変えな ければいけない、というケースも多々ある。 ログやマスタへの変更が、予想もしていなかった 古のレポートに影響したりもする。 そして、そういうレポートは偉い人が見ていたりする。

Slide 17

Slide 17 text

AbemaTV, Inc. All Rights Reserved
 ABEMAの状況3⃣:データモデルの複雑さ 17

Slide 18

Slide 18 text

AbemaTV, Inc. All Rights Reserved
 あなたならこの画面でどんなログをとりますか? (権利関係でダミー画面です ) 18

Slide 19

Slide 19 text

AbemaTV, Inc. All Rights Reserved
 「視聴」は状態のあるイベント 19 「59:00あるコンテンツの14:36時点」のように、状態のあるイベントをどうログとして表現するか? ログ送信クライアント側の実装も離散的なイベントよりも難しい。 ← → 14:36時点から戻ることも進めることもできる

Slide 20

Slide 20 text

AbemaTV, Inc. All Rights Reserved
 指標化の難しさ:ユーザーが「見た」ことをどう定義・表現するのか? 20 そのコンテンツにおいて、重要なシーンを通過したことを「見た」と捉えるのか? それとも単純にコンテンツに触れていた時間が一定以上であることを「見た」と定義するのか? 遠藤航選手のプレミア初ゴールシーン ここから重要シーン 14分36秒視聴

Slide 21

Slide 21 text

AbemaTV, Inc. All Rights Reserved
 「視聴」の指標化は難しい 21 ABEMAのコアドメインである「視聴」の指標化は、特にデータモデリングの腕が試されます。 ここで話しただけでも以下のようなことを考えたモデル化が必要。 一つの単純な指標では表現しきれない「視聴」という概念の捉え難さ。 視聴形態 コンテンツジャンル ユーザーステータス テレビ / ビデオ / ライブという複数の視聴形態 スポーツとアニメでは、「見た」として捉えるべき ユーザー行動が異なるのでは?など ユーザーの課金ステータスによっては、 広告再生時点まで視聴しているかどうか、が重要

Slide 22

Slide 22 text

AbemaTV, Inc. All Rights Reserved
 課題整理:ビジネス指標と ABEMAのデータモデルの翻訳が難しい 22 DWH / データマート レポーティング Tableau Server BigQuery DWH データマート ABEMAのデータモデルは そもそも難しい(視聴ログとか) こんなデータも 追加でみたい な。。 一部の人しか集計ができず、 ちょっとしたデータ出しにも 依頼と待ちが発生 歴史あるプロダクトのデータ定義は 難しい(仕様変更・機能追加/削除) 「見たい数字」と 「ABEMAのデータモデル」 の翻訳が難しい 活用の現場 課 題 社内ユーザー 集計担当

Slide 23

Slide 23 text

AbemaTV, Inc. All Rights Reserved
 23 セマンティックレイヤーで どう変えるか?

Slide 24

Slide 24 text

AbemaTV, Inc. All Rights Reserved
 社内ユーザーは翻訳された「指標」にアクセスできるように 24 DM管理 BIツール / レポートA DWH 汎用 セマンティック レイヤー メジャー BIツール / レポートB BIツール / レポートC メジャー … 参照 クエリ 発行 結果返却 キャッシュ ディメンション ディメンション 従来型のBIツール内ワークブックごとの指標定義の分散を避け、 統一した定義 で、 ABEMAデータモデル⇔ビジネス指標の翻訳をセマンティックレイヤーを介して実現。 データマネジメント チーム 社内ユーザー 専門職として、データモデルの難 しさを吸収したセマンティックレ イヤーの構築 翻訳された「指標」を活用し、迅 速にレポート作成

Slide 25

Slide 25 text

AbemaTV, Inc. All Rights Reserved
 25 これからの話

Slide 26

Slide 26 text

AbemaTV, Inc. All Rights Reserved
 ABEMAのデータマネジメントがこれから目指すデータ基盤 26 データレイク DWH / データマート レポーティング BigQuery Cloud Strage DWH データマート 論理モデル dbt 汎用セマンティックレイヤーの導入 dbt(データ変換ツール)の導入 生成AI✖BI

Slide 27

Slide 27 text

AbemaTV, Inc. All Rights Reserved
 dbtの運用事例 27 セマンティックレイヤー導入の前段として、 DWHのデータモデリング、パイプラインに dbtを導入。 Airflow上で大きめかつ複数のワークフローを dbtと組み合わせて運用する面白い事例ができてきています。 詳細は、弊チームメンバーからいずれ発表なり、テックブログなりでお伝えできると思います。 また、中身のデータモデリングはまだまだこれから が面白い領域にもなっています。 Airflow-likeなオペレーション セマンティックレイヤーと繋げる データモデリング dbt単体では構築しにくい、失敗時の部分リトライなどを考慮した Airflow + dbtの構成 先述したドメイン特性により難易度の高いデータモデリングを 後段の汎用セマンティックレイヤーとの相性も考慮して構築

Slide 28

Slide 28 text

AbemaTV, Inc. All Rights Reserved
 セマンティックレイヤーのこれから 28 汎用セマンティックレイヤーの実際の導入に関しては、まさにこれから。 生成AIの発展は、データ基盤領域や BI領域にも影響があり、特にセマンティックレイヤー周辺はこれから業 界としても面白い技術な予感。 下記がキーワード。 生成AI×BI 既存BIツールとの統合性を 考慮したアーキテクチャ セマンティックレイヤーは生成 AIと相性が良さそう あるいはセマンティック自体を生成 AIで作っていくことも…? ABEMAの場合だと、既存Tableau Serverとの統合性を意識した アーキテクチャや運用を考える必要がある

Slide 29

Slide 29 text

AbemaTV, Inc. All Rights Reserved
 一緒にやりませんか? これらの仕事を 2000万に迫る WAU規模のプロダクト でやることに興味を感じた方は、 ぜひ X(旧Twitter): @__sotaron__ までDMください! カジュアルにお話することから始めましょう。情報交換だけでも 👌 or 次スライドにある QRコードからカジュアル面談申込 or エントリー いただいても大丈夫です! 29

Slide 30

Slide 30 text

AbemaTV, Inc. All Rights Reserved
 『ABEMA』では 一緒に挑戦する仲間を募集中です! ✔オンラインでカジュアル面談実施中 ✔今すぐ転職を考えていなくてもOK! 応募はこちら👉 カジュアル面談は こちらから👉

Slide 31

Slide 31 text

No content

Slide 32

Slide 32 text

AbemaTV, Inc. All Rights Reserved
 定義できる場所が複数ある、データ量の問題 32 Tableauレポート DWH … ビジネスロジック Tableauレポート Tableauレポート ビジネスロジック ビジネスロジック DM管理 ADT管理 「59:00あるコンテンツの14:36時点」のように、状態のあるイベントをどうログとして表現するか? ログ送信クライアント側の実装も離散的なイベントよりも難しい。