Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データエンジニアリング 4年前と変わったこと、 4年前と変わらないこと
Search
Sotaro Tanaka
July 18, 2025
Technology
4
910
データエンジニアリング 4年前と変わったこと、 4年前と変わらないこと
Sotaro Tanaka
July 18, 2025
Tweet
Share
More Decks by Sotaro Tanaka
See All by Sotaro Tanaka
ABEMAはなぜセマンティックレイヤーに挑戦しているのか?
tanakarian
0
1.2k
データ基盤の○層構造を独り歩きさせない データモデリング設計 Data Ops Night #1
tanakarian
3
5.5k
dbtを活用したデータ基盤の 論理・物理設計の現在地と振り返り / data warehouse logic design by using dbt
tanakarian
8
16k
データ分析基盤の障害を未然に防ぐためのチェックリスト / checklist for preventing incidents of data management system
tanakarian
1
13k
データの価値を失わないためのData Reliability
tanakarian
7
11k
building-evolutionary-data-warehouse
tanakarian
2
11k
Other Decks in Technology
See All in Technology
Agile Leadership Summit Keynote 2026
m_seki
1
660
OWASP Top 10:2025 リリースと 少しの日本語化にまつわる裏話
okdt
PRO
3
840
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
740
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
180
Codex 5.3 と Opus 4.6 にコーポレートサイトを作らせてみた / Codex 5.3 vs Opus 4.6
ama_ch
0
190
生成AIを活用した音声文字起こしシステムの2つの構築パターンについて
miu_crescent
PRO
3
220
SRE Enabling戦記 - 急成長する組織にSREを浸透させる戦いの歴史
markie1009
0
160
OpenShiftでllm-dを動かそう!
jpishikawa
0
140
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
730
usermode linux without MMU - fosdem2026 kernel devroom
thehajime
0
240
モダンUIでフルサーバーレスなAIエージェントをAmplifyとCDKでサクッとデプロイしよう
minorun365
4
220
量子クラウドサービスの裏側 〜Deep Dive into OQTOPUS〜
oqtopus
0
140
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
830
Being A Developer After 40
akosma
91
590k
Effective software design: The role of men in debugging patriarchy in IT @ Voxxed Days AMS
baasie
0
230
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
290
Chasing Engaging Ingredients in Design
codingconduct
0
110
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
1.9k
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
117
110k
How STYLIGHT went responsive
nonsquared
100
6k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
55
Speed Design
sergeychernyshev
33
1.5k
Transcript
AbemaTV, Inc. All Rights Reserved 1 データエンジニアリング 4年前と変わったこと、 4年前と変わらないこと 2025/07/18
#DES 株式会社AbemaTV Sotaro Tanaka @__sotaron__
AbemaTV, Inc. All Rights Reserved Sotaro Tanaka 株式会社AbemaTV Development HQ
Data div. Data Enabling Team Mgr • 2023/04~ ABEMAでデータマネジメント • Data Management & BI • Data Engineering • Hobby: 🏂 / 🎮 / ⚽ / 小倉唯さん 2 Profile X(旧Twitter) @__sotaron__
AbemaTV, Inc. All Rights Reserved 3 ABEMAのご紹介
AbemaTV, Inc. All Rights Reserved 4 ※ 投資家向け資料 より
AbemaTV, Inc. All Rights Reserved ABEMA 紹介 5 複数デバイス対応・多彩なチャンネルラインナップ
AbemaTV, Inc. All Rights Reserved 今日お話すること 6 4年前、DES#11でdbtを活用したデータセット設計やモデリングについて、お話しました。 4年経ち、データエンジニアを取り巻く技術は大きく変わったものもあれば、変わらないものあります。 その中で、私個人が特に重要と思う「変わったこと・変わらないこと」についてお話しようと思います。
※ LTなので、網羅的な話題よりも、私自身が主観的に言及したい点や自身の考えについて話します。 ※ テキスト多めです。
AbemaTV, Inc. All Rights Reserved 7 4年前に話したこと
AbemaTV, Inc. All Rights Reserved 4年前はこんな話をしました
AbemaTV, Inc. All Rights Reserved 9 4年前と変わったこと
AbemaTV, Inc. All Rights Reserved 10 生成AI!!
AbemaTV, Inc. All Rights Reserved 11 とにかく 生成AI!!
AbemaTV, Inc. All Rights Reserved 猫も杓子も生成AI 12 開発現場における、生成 AIの活用がだいぶ浸透してきました。 サイバーエージェントでも
「生成AI徹底活用」 を標榜し、大幅な技術投資が進んでいます。 データエンジニアリングの世界でも、生成 AIは各所で活用されてきています。 https://www.cyberagent.co.jp/news/detail/id=32077 より https://www.cyberagent.co.jp/way/list/detail/id=31842 より
AbemaTV, Inc. All Rights Reserved 生成AIで変わる「前提」 13 生成AIの活用浸透により、以前ほど気にする必要がなくなったこと • 重厚長大な
SQLクエリを書く、保守するコスト • 似たようなクエリ、テーブルを量産するコスト ◦ ガバナンスの問題は定義共通化したセマンティックレイヤー等でカバーする前提で • 分析者のメンタルモデルを強く意識して設計されたデータセットのレイヤリング などなど
AbemaTV, Inc. All Rights Reserved 14 生成AI「前提」での データ基盤を考えていく時代に
AbemaTV, Inc. All Rights Reserved 15 4年前と変わらないこと
AbemaTV, Inc. All Rights Reserved 4年前と変わらない「大事なこと」 16 4年前から変わらず、むしろ生成 AI時代にこそ、より重要そうなこと。 •
とりあえず分析、活用したいデータが全部データレイクにあること • 全部データレイクにある上でのアクセスコントロールと難読化 ◦ 各生成AIツールから、共通アカウントを使ってデータ読み出しとか最悪 • データセットのレイヤとルール • セマンティックとデータ品質 • ログ/マスタ設計とデータ仕様ドキュメント(無から有を生み出すところ) 最初2つは自明なので、他 3つについて、少し話します。
AbemaTV, Inc. All Rights Reserved データセットのレイヤとルール 17 分析者や活用者のメンタルモデルを意識した過度なレイヤリングは必要なくなりましたが、 以下のようなことを考慮した処理ルールと、その前後のデータセットのレイヤ分けはより一層重要に。 •
ある権限ロールの人たちに開放するデータセットに施すべき難読化処理 • 入力値の値域の制限、異常値の除去 • 汎用共通処理 → この処理ルールとデータセットのレイヤを CursorやClaude Codeに開発ガイドラインとして 渡せば、分析や活用 readyなテーブル群を作ってもらえます。
AbemaTV, Inc. All Rights Reserved セマンティックとデータ品質 18 ABEMAは来年で10周年、そんな10年ものプロダクトともなると • 空の定義(
NULL、undefined、n/a、””)のブレなど、ドキュメント化しないと理解できないデータモ デル • 多態・多義なカラムや歴史的に情報量が変化しているカラム みたいなデータがいっぱいあります。皆さんはどうですか? このようなデータが存在する状態で、「とりあえず生成 AIだ!text2sqlやってみよう!」とか 上手くいくわけがありません。 これらのデータ特性を考慮した人間による事前処理や、事前処理の指示ドキュメントが必要です。
AbemaTV, Inc. All Rights Reserved セマンティックとデータ品質 19 指標の定義については、生成 AIに勝手に定義されても困ります。 ABEMAの例で考えてみると、ユーザーが「みた」ことをどう定義・表現するのか。
重要シーンをみたこと?みた時間が一定以上だったら? 遠藤航選手のプレミア初ゴールシーン ここから重要シーン 14分36秒視聴
AbemaTV, Inc. All Rights Reserved 補足:「視聴」の指標化は難しい 20 ABEMAのコアドメインである「視聴」の指標化は、特にデータモデリングの腕が試されます。 以下のようなことを考えたモデル化が必要。 一つの単純な指標では表現しきれない「視聴」という概念の捉え難さ。
視聴形態 コンテンツジャンル ユーザーステータス テレビ / ビデオ / ライブという複数の視聴形態 スポーツとアニメでは、「見た」として捉えるべき ユーザー行動が異なるのでは?など ユーザーの課金ステータスによっては、 広告再生時点まで視聴しているかどうか、が重要など
AbemaTV, Inc. All Rights Reserved セマンティックとデータ品質 21 ここまでの話を踏まえて、ある指標やディメンションの自然言語的な意味情報と一緒に、 (最終的に)データ ベースにクエリ可能な言語で定義を記述し、管理することが生成
AI活用の上でも重要になってくると私は 思っています。 このような考えから、 1つのアプローチとして 、ABEMAではLookerを導入し、 Looker × Geminiで自然言語でのデータ問い合わせやレポート要約の PoCを進めています。
AbemaTV, Inc. All Rights Reserved ログ/マスタ設計とデータ仕様ドキュメント 22 先述のように生成AIによるデータ集計や分析の支援、効率化を進める上で、ソースデータの品質は その成果を大きく左右すると考えています。 この「無から有を生み出す」最初のプロセスにおいて、
高い品質を維持しやすいデータモデル・型を設計することや仕様ドキュメントをしっかり書き残しておくこ とが今まで以上に重要になってきていると感じます。 結局、大事なことは4年前とあまり変わっていないような気がしますね。
AbemaTV, Inc. All Rights Reserved 結論 23 • 「猫も杓子も生成 AI」な時代でも結局、データ整備とドキュメント整備が大事
• データエンジニアは泥臭くがんばっていきましょう
AbemaTV, Inc. All Rights Reserved 『ABEMA』では 一緒に挑戦する仲間を募集中です! ✔オンラインでカジュアル面談実施中 ✔今すぐ転職を考えていなくてもOK!(興味ある方ぜひ声かけてください) 応募はこちら👉
カジュアル面談は こちらから👉
None