Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
技術力と現場力で実現! 乱立したETLジョブの削減事例
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Recruit
PRO
March 03, 2025
Technology
190
2
Share
技術力と現場力で実現! 乱立したETLジョブの削減事例
2025/2/20に開催したRecruit Tech Conference 2025の森田のLT資料です
Recruit
PRO
March 03, 2025
More Decks by Recruit
See All by Recruit
AI 時代の Platform Engineering
recruitengineers
PRO
1
200
巨大プラットフォームを進化させる「第3のROI」
recruitengineers
PRO
2
2.7k
データ戦略を加速させる プラットフォーム エンジニアリングと進化的アーキテクチャ
recruitengineers
PRO
2
72
まなび領域における生成AI活用事例
recruitengineers
PRO
2
260
AI時代にエンジニアはどう成長すれば良いのか?
recruitengineers
PRO
1
450
AIを用いたカスタマーサポートの業務プロセス・組織変革の実現
recruitengineers
PRO
1
220
問い合わせ自動化の技術的挑戦
recruitengineers
PRO
2
320
「Air ビジネスツールズ」のクライアントサポートにおける生成 AI 活用
recruitengineers
PRO
0
150
AI活用のためのアナリティクスエンジニアリング
recruitengineers
PRO
2
250
Other Decks in Technology
See All in Technology
Claude Codeウェビナー資料 - AWSの最新機能をClaude Codeで高速に検証する
oshanqq
0
660
AIを賢くしたいなら、まずは人間の改善ループから
subroh0508
0
110
Claude Code / Codex / Kiro に AWS 権限を 渡すとき、何を設計すべきか
k_adachi_01
5
1.4k
オライリーイベント登壇資料「鉄リサイクル・産廃業界におけるAI技術実応用のカタチ」
takarasawa_
0
400
ServiceによるKubernetes通信制御ーClusterIPを例に
miku01
1
170
クラウドネイティブ DB はいかにして制約を 克服したか? 〜進化歴史から紐解く、スケーラブルアーキテクチャ設計指針〜
hacomono
PRO
6
980
20260515 ログイン機能だけではないアカウント管理を全体で考える~サービス設計者向け~
oidfj
0
460
AIエージェントの支払い基盤 AgentCore Payments概要
kmiya84377
2
180
2026年春のAgentCoreアプデ 細かいやつ全部まとめ
minorun365
4
230
Oracle AI Database@AWS:サービス概要のご紹介
oracle4engineer
PRO
4
2.5k
ESP32 IoTを動かしながらメモリ使用量を観測してみた話
zozotech
PRO
0
120
Terragrunt x Snowflake + dbt で作るマルチテナントなデータ基盤構築プラットフォーム
gak_t12
0
150
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.2k
Utilizing Notion as your number one productivity tool
mfonobong
4
300
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
160
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
240
What's in a price? How to price your products and services
michaelherold
247
13k
My Coaching Mixtape
mlcsv
0
120
GraphQLとの向き合い方2022年版
quramy
50
15k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Paper Plane
katiecoart
PRO
1
50k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
280
Transcript
技術力と現場力で実現! 乱立したETLジョブの削減事例 RECRUIT TECH CONFERENCE 2025 森田 順也 株式会社リクルート データ推進室
Junya MORITA 経歴 / Career データマート設計 2019年 リクルート入社 クラウドDWHを使ったデータ分析基盤に対する dbt
等の データ変換ツールの導入、BIツールやアプリケーション での利用を想定したデータパイプライン構築、開発チー ムリードを担当。 = dbt と Composer で データマート開発をしています 趣味 / Hobbies データ推進室 結婚・旅行・自動車領域 アナリティクスエンジニア /テックリード
運用しているデータマート基盤の紹介 Data Lake Cloud Storage Data Mart BigQuery Data Warehouse
BigQuery クライアント様向け アプリ・基盤 カスタマー向け アプリ・基盤 データ抽出・ロード Cloud Composer Transform Extract Load マート生成 dbt Core / Cloud Composer レコメンドシステム 本日の主役となる マート生成ジョブ 事業の価値を最大化するためのデータ分析基盤 GCP環境を基盤に、dbt と Cloud Composer によるマート生成ジョブを運用 処理されるデータ量は数百TBオーダー
本日お話しすること(概要) データマート基盤で乱立している ジョブ を削減した話
データマート開発は Asset Centric の時代 どうしてジョブを減らしたいのか
データマート開発では、ジョブの依存が複雑になりやすい ソース1 ソース2 マートb マートa マートc ジョブ A ジョブ B
ジョブ C マートd ジョブ E マートf マートe ジョブ D 参照元を増やすと ジョブEがジョブBに 依存する
Asset Centric: データに定義された情報で依存を管理 Asset Centric については、https://blog.recruit.co.jp/data/articles/dbt_ジョブ_monitoring/ にて詳細を紹介しています。 ソース マートB マートA
マートC ジョブ A ジョブ B ソース マートB マートA マートC ジョブ Centric ジョブAとジョブBの依存に着目 Asset Centric マートA,B,Cの依存に着目 ↓ ジョブを見なくても シンプルに依存管理可能
dbt: Asset Centric なツール Asset Centric については、https://blog.recruit.co.jp/data/articles/dbt_ジョブ_monitoring/ にて詳細を紹介しています。 ソース マートB
マートA マートC Asset Centric マートA,B,Cの依存に着目 ↓ ジョブを見なくても シンプルに依存管理可能 すべてのマートを生成する たった一つのジョブ テーブル定義から依存関係を解析し [マートA→マートC,マートB] の順でテーブルを生成
“超”複雑なパイプライン Asset Centric: “超”複雑なパイプライン運用が可能 ジョブの依存関係を考える必要が無くなり、より多数のテーブルが絡み合う、複 雑なデータ基盤を運用できる すべてのマートを生成する たった一つのジョブ ソース マート
ソース ソース マート マート マート マート マート マート マート マート マート マート マート マート ソース マート マート マート マート マート マート ソース ソース マート マート マート マート マート マート マート
“超”複雑なパイプライン Asset Centric: “超”複雑なパイプライン運用が可能 ジョブの依存関係を考える必要が無くなり、より多数のテーブルが絡み合う、複 雑なデータ基盤を運用できる すべてのマートを生成する たった一つのジョブ ソース マート
ソース ソース マート マート マート マート マート マート マート マート マート マート マート マート ソース マート マート マート マート マート マート ソース ソース マート マート マート マート マート マート マート はずだった…
現実のジョブは1つじゃない 処理が重いため 夜間の時間帯で実行 するジョブ 依存するデータが異 なるため切り出され たジョブ 様々な都合でジョブが増加し、32件まで増加。依存関係管理は残り、個々のジョ ブは多数のマートを作るため複雑化し、障害時の調査はむしろ難航。 ※画像は実際のジョブではなく、マスクしたデータで再現しています
※ジョブのモニタリングについては、https://blog.recruit.co.jp/data/articles/dbt_ジョブ _monitoring/ にて詳細を紹介しています。
現実のジョブは1つじゃない 処理が重いため 夜間の時間帯で実行 するジョブ 依存するデータが異 なるため切り出され たジョブ 様々な都合でジョブが増加し、32件まで増加。依存関係管理は残り、個々のジョ ブは多数のマートを作るため複雑化し、障害時の調査はむしろ難航。 ※画像は実際のジョブではなく、マスクしたデータで再現しています
※ジョブのモニタリングについては、https://blog.recruit.co.jp/data/articles/dbt_ジョブ _monitoring/ にて詳細を紹介しています。 Asset Centric やめようか…?
本日お話しすること(詳細) Asset Centric 主義を貫いて 複雑怪奇なデータパイプラインであっても 生産性高く運用するために 分析基盤で乱立している ジョブ を削減した話
ジョブの乱立はなぜおきる?
通常のジョブ設計 ソース 1 中間 マート 日次 マート ソース 2 最終
マート すべてのマートを生成する 汎用ジョブ
ジョブが増えていく2つの要因 大量 データ 中間 マート 日次 マート 14時 更新 最終
マート 汎用ジョブ ①処理負荷が大きい 処理負荷が大きく時間がかかる場合 事前計算するジョブが必要に ②ソースのデータ連携時刻が異なる 14時に連携されるソースがある場合 待ちあわせのジョブが必要に 夜間ジョブ 14時ジョブ
ジョブを増やさないために ①処理負荷が大きい 処理負荷が大きく時間がかかる場合 事前計算するジョブが必要に ②ソースのデータ連携時刻が異なる 14時に連携されるソースがある場合 待ちあわせのジョブが必要に モデリングによって ジョブの負荷を下げる データ提供元と調整し
データ連携時刻を早める 技術力 現場力
モデリングでジョブの負荷を削減する 技術力
負荷削減の基本:増分処理 例:日々のユニークユーザーを増分処理で集計する 過去時点のユーザー数は、将来に渡って変わらないため、処理しなくて良い 前々日の ユーザー数 前日の ユーザー数 当日の ユーザー数 当日のPVデータ
のみを参照する 前々日データ 前日PVデータ 当日PVデータ ジョブ 当日のユーザー数を算出し 日々積み上げる Point 処理対象のデータ量を いかに小さくするか 背景
実際に直面するジョブ:増分処理できるケースは多くない 例:過去364日間のユニークユーザー数を毎日計算し、移動平均を出す 増分処理が使えず、処理対象のデータを小さくできない 364日間 ユニークユー ザー数 364日前 PVデータ … 当日PVデータ
ジョブ 実際の処理負荷 • スロット消費量: 191 M slotMs • 実行時間/100slot: 30+min ← 統合するとジョブの実行時間が30分以上伸びる 課題
集約テーブルをモデリングしてデータ量を小さくする • データ量の大きなデータを日毎にユニーク化して積み上げ、データ量を削減 • 中間テーブルのデータ配置を用途に合わせて定義 • ユーザーidをハッシュ変換し、ユニーク化の計算量を削減 364日前 UUデータ …
当日UUデータ 364日前 PVデータ … 当日PVデータ ジョブ ジョブ 364日間 ユニークユー ザー数 単日のデータのみ 処理するため 負荷小 日次集約テーブル 集約済みテーブルを 処理するので 負荷小 打ち手
負荷削減量 計算量(スロット消費量) 191M slotMs → 2.7M slotMS ジョブ実行時間 30 min
→ 27 sec 夜間ジョブは不要になり インフラコストも大幅削減 成果
データ連携タイミングを早める 現場力
データのやりとりは組織間のやりとり 事業DB データ レイク 抽出/ 匿名加工 抽出/ 変換 データ マート
開発組織 分析組織 連携を前倒すには 開発組織の抽出処理を 変える必要がある 背景
なぜ前倒しが難しいのか:組織で優先するものが違う 事業DB データ レイク 抽出/ 匿名加工 抽出/ 変換 データ マート
開発組織 アプリ/データを安定して 運用することが最優先 分析組織 分析業務に集中するため 分析基盤の運用を効率化したい ジョブを 減らしたいよ スケジュール 変更に工数と れない… 機能開発で 手いっぱい... データ連携 前倒し したいな 課題
データ連携チームによるデータ連携の優先保守 事業DB データ レイク 抽出/ 匿名加工 抽出/ 変換 データ マート
開発組織 アプリ/データを安定して 運用することが最優先 スキーマや 更新頻度は 伝えるよ データ連携チーム 事業DBのアクセス権を持ち データ連携を優先保守 連携時刻 前倒ししたよ 分析組織 分析業務に集中するため 分析基盤の運用を効率化したい 打ち手 ジョブを 減らしたいよ
データ連携チーム体制による連携前倒しの成果 連携時刻 14:00 → 10:00 連携を早めたテーブルの数 74 テーブル 午後のジョブを午前10時台のジョブにマージでき 最新データで分析できるタイミングも4時間前倒し
成果
最後に
成果:どれだけ Asset Centric にできたのか ジョブの数: 32件 → 11件 1つのメインジョブで作られるマートの数: 150
→ 188(全体211)
成果:どれだけの価値に繋がったか インフラコスト: 10.5 G slotMs /day → 8 G slotMs
/day (-23%) 最新データを確認できる時刻: 17:00 → 11:00
まとめ マートのモデリングで処理負荷を解消し データ連携を専任する組織を立ててデータ連携時刻を前倒し 結果、ジョブを削減して Asset Centric 主義を貫くことで 効率的なETLジョブ基盤を維持した
© Recruit Co., Ltd. All Rights Reserved We are hiring!
カジュアル⾯談はこちらより お申し込みください データサイエンティスト 機械学習エンジニア データエンジニア アナリティクスエンジニア R&Dエンジニア データアプリケーションエンジニア クラウドエンジニア ご応募 お待ちしています!