Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Looker や Dataform など、Modern Data Stackを用いてデータ活用...
Search
Recruit
PRO
November 01, 2022
Technology
2
2.8k
Looker や Dataform など、Modern Data Stackを用いてデータ活用の負を改善する(していく)話 / techplay221101_04_hayashida
2022/11/01_リクルートが考える『意思決定に効くデータマネジメント』~アナリティクスエンジニア組織の立ち上げと事例紹介~での、林田の講演資料になります
Recruit
PRO
November 01, 2022
Tweet
Share
More Decks by Recruit
See All by Recruit
20250130_『SUUMO』の裏側!第2弾 ~機械学習エンジニアリング編
recruitengineers
PRO
1
530
Asset Centric な データ変換パイプラインの攻略法
recruitengineers
PRO
1
140
Kotlin Multiplatformのポテンシャル
recruitengineers
PRO
2
200
デザイン初め新年会2025_川端_PdM Days2025
recruitengineers
PRO
0
61
Azure Functions HTTPトリガーにおけるタイムアウトでハマったこと
recruitengineers
PRO
2
370
実務につなげる数理最適化
recruitengineers
PRO
7
1k
うちにも入れたいDatadog
recruitengineers
PRO
2
1.9k
リクルートのデータ基盤 Crois 年3倍成長!1日40,000コンテナの実行を支える AWS 活用とプラットフォームエンジニアリング
recruitengineers
PRO
3
550
Splunk Enterpriseで S3のデータを直接検索してみた!
recruitengineers
PRO
2
300
Other Decks in Technology
See All in Technology
Googleマップ/Earthが一般化した 地図タイルのイマ
mapconcierge4agu
1
180
MC906491 を見据えた Microsoft Entra Connect アップグレード対応
tamaiyutaro
1
140
Fintech SREの挑戦 PCI DSS対応をスマートにこなすインフラ戦略/Fintech SRE’s Challenge: Smart Infrastructure Strategies for PCI DSS Compliance
maaaato
0
380
Oracle Cloud Infrastructure:2025年1月度サービス・アップデート
oracle4engineer
PRO
0
440
ろう・難聴者のコミュニケーションを円滑化する取り組み
chiemi627
0
120
AWSエンジニアに捧ぐLangChainの歩き方
tsukuboshi
2
470
Autify Company Deck
autifyhq
2
41k
WAF に頼りすぎない AWS WAF 運用術 meguro sec #1
izzii
0
420
[JAWS-UG栃木]地方だからできたクラウドネイティブ事例大公開! / jawsug_tochigi_tachibana
biatunky
0
210
さいきょうのアーキテクチャを生み出すセンスメイキング
jgeem
0
400
Classmethod AI Talks(CATs) #15 司会進行スライド(2025.02.06) / classmethod-ai-talks-aka-cats_moderator-slides_vol15_2025-02-06
shinyaa31
0
130
君はPostScriptなウィンドウシステム 「NeWS」をご存知か?/sunnews
koyhoge
0
640
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Done Done
chrislema
182
16k
A Tale of Four Properties
chriscoyier
158
23k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.4k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
7
620
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.4k
Git: the NoSQL Database
bkeepers
PRO
427
64k
The Language of Interfaces
destraynor
156
24k
Bash Introduction
62gerente
610
210k
RailsConf 2023
tenderlove
29
990
How STYLIGHT went responsive
nonsquared
98
5.3k
Transcript
© Recruit Co., Ltd. All Rights Reserved Looker や Dataform
など、Modern Data Stack を用いてデータ活用の負を改善する(していく)話 1 株式会社リクルート データ推進室 まなびD3Mグループ 林田 祐輝 2022/11/01
© Recruit Co., Ltd. All Rights Reserved #recruitdata 2 林田 祐輝
2017年にリクルートマーケティングパートナーズ入社。 「スタディサプリ」にて、データ分析、モニタリング構築、 データマネジメント業務を経験。 現在はデータサイエンスGとD3MGのマネージャーを兼 任。 趣味はゴルフ。 スコアデータを可視化するツールを開発中。 (BigQuery/dbt/Cloud Run/cube.dev)
© Recruit Co., Ltd. All Rights Reserved #recruitdata 自分らしく学び、生きられる世の中を。
スタディサプリは、 学ぶ人、学びを支える人に寄り添い、 自己実現の最大化をサポートしていくサプリメントです。 詳しくはスタディサプリのブランドサイトを御覧ください。 https://brand.studysapuri.jp/ サービス紹介 3
© Recruit Co., Ltd. All Rights Reserved #recruitdata 本日のお話について •
まなび領域のデータ組織が活用しているデータスタックについ て、その活用事例をご紹介します。 • 講演資料はTwitter の #recruitdata にてURLを共有してい ます。 時間の関係で詳細までお話できない部分もありますので、お手元 でご覧頂けると幸いです。 4
© Recruit Co., Ltd. All Rights Reserved 1. まなび領域のデータ組織について 2.
事例紹介 2.1. Dataform 2.2. Data Catalog 2.3. Looker / Tableau 3. まとめ 5 アジェンダ
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータ組織について 6
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなびD3Mグループのビジョン データ活用ユーザーに、
意思決定に必要なデータ分析環境を サービスとして提供する。 7
© Recruit Co., Ltd. All Rights Reserved #recruitdata 提供価値を上げる •
当たり前品質を上げる。 ◦ データを使うとき、それが定義通りに正しいこと。 ◦ 使いたいときに使えること。 ◦ データの内容が理解できること。 生産性を上げる • 当たり前品質を担保しつつ、ステークホルダーからのデータ活用要望に応えていく。 • そのために生産性を上げる取り組みを行う。 まなびD3Mグループのポリシー 8
© Recruit Co., Ltd. All Rights Reserved #recruitdata データ環境 9
引用) スタディサプリのデータ基盤の進歩と調和 https://speakerdeck.com/recruitengineers/meetup-toita?slide=26
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータスタック 10
BigQuery Dataform Looker Tableau Data Catalog Orchestration Transformation Storage Governance BI Analytics Exploratroy Colaboratory Airflow ※一部チームのみ利用
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータスタック 11
BigQuery Dataform Looker Tableau Data Catalog Orchestration Transformation Storage Governance BI Analytics Exploratroy Colaboratory Airflow ※一部チームのみ利用
© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例① Dataform
12
© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 •
保守業務の難しさ ◦ スケジュールクエリ、バッチクエリ、アドホッククエリなどのSQLが散在していた。 ◦ テーブル間の依存関係が追えないため、ロジック変更の補足が困難だった。 • 継続的な改善 ◦ 上記保守業務の難しさから、新規開発のスピード低下が懸念された。 ◦ 新規参入者向けのナレッジシェアが難しい。 Dataform 導入の背景 13
© Recruit Co., Ltd. All Rights Reserved #recruitdata Dataform 導入で得られたこと
14 Dataform • Dataformのディレクトリと BQのdataset / table 構 造を統一した。 • dev 環境を用意し、prodと devの分離した。 • デフォルトをdevにし、CI/CD で環境変数を渡す。 実装 • テーブル内容、及びカラムレベ ルでの概要を記述した。 • データリネージ機能で依存関 係を調査できるようにした。 ガバナンス • Assertionクエリによるテー ブルのヘルスチェックが可能に なった。 品質
© Recruit Co., Ltd. All Rights Reserved #recruitdata Dataform をより活用するための課題
15 Dataform • 既存クエリの書き換えに注力 したため、ガバナンス、品質向 上はこれから。 実装 • sqlxファイルにドキュメントを 書き込むので、ファイルが冗長 になる。 • 抽象度が高い内容や細かい定 義まで書けていない。 ガバナンス • Assertionクエリの充足率が 低い。 品質
© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例② Data
Catalog 16
© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 •
管理しているデータ資産(データマート)の把握 ◦ 属人的なデータマート開発が進んでおり、特定ロジックはチーム内で共通認識として シェアされていない。 • 新規参入者へのオンボーディング ◦ ドメイン知識とテーブル知識の装着が狙い。 ◦ ソースコードを見るよりも理解しやすい形にしたい。 Data Catalog 導入の背景 17
© Recruit Co., Ltd. All Rights Reserved #recruitdata 2種類のメタデータ 18
引用) スタディサプリでのBigQuery移管と実践的活用術 https://speakerdeck.com/recruitengineers/meetup-kittaka?slide=29
© Recruit Co., Ltd. All Rights Reserved #recruitdata Data Catalogをより活用するための課題
19 ツール連携 品質情報 Data Catalog Dataform SQLでの データマート 開発 開発とは 別のプロセスで 登録する 連携できない Data Catalog 各テーブルの Assertion 情報 (要件、結果など)
© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例③ Looker
× Tableau 20
© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 LookerとTableauをそれぞれステークホルダーに合わせて使い分けている。
• 営業チーム:Tableau ◦ クライアント先へのレポーティングもあり、デザイン要件があった。 • プロダクト開発チーム:Looker ◦ ビジネスドメインを複数持っているため、一元管理した開発が行いやすい。 課題 • どちらも同じプロダクトに関わっているため、見ている指標が同じケースが多かった。 • 独立して実装が行われており、指標管理などのガバナンスが効いていない。 Looker と Tableau 、複数BIを併用している状況 21
© Recruit Co., Ltd. All Rights Reserved #recruitdata 【初期】営業とプロダクトで独立したデータマートを開発 22
営業 プロダクト DWH データマート データマート Raw BigQuery
© Recruit Co., Ltd. All Rights Reserved #recruitdata 【現在】指標の共通化に向けてマートのリファクタリングを進行 23
営業 プロダクト DWH 共通 データ マート Raw BigQuery
© Recruit Co., Ltd. All Rights Reserved #recruitdata 【将来】Lookerを使ってメトリクスの一元管理 24
営業 プロダクト DWH 共通 データ マート Raw BigQuery LookML LookML Looker
© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 25
© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 26
BigQuery Looker Tableau Data Catalog Orchestration Storage Governance BI Analytics Exploratroy Colaboratory Airflow Dataform Processing ※一部チームのみ利用
© Recruit Co., Ltd. All Rights Reserved #recruitdata Lookerをメトリックレ イヤーと認識し、後続の
BIへのハブとなるアー キテクチャを設計する。 27 Datafrom Data Catalog Looker×Tableau 取り組み・効果 次の課題 抽象度の高いドキュメ ントやAssertionのカ バー率を上げる。 ドキュメント生成、 GitHub連携、 Assertion実装など、 開発プロセスの管理や 品質担保の効率化がで きるようになった。 2種類のメタデータを 使い分けることで、 テーブル管理やテーブ ルナレッジなど現場の 作業効率に繋がった。 Transformツールと の連携、 品質チェック内容もメタ データ化。 Tableauに接続するこ とで、よりメトリクス管 理を進める。 まとめ
© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 28
• Transformationツールによって、生産性を大きく上げる。 • データガバナンスを強化することで、当たり前品質を維持する。 • 各データスタック間の連携を積極的に行っていきたい。
© Recruit Co., Ltd. All Rights Reserved #recruitdata これらの課題に一緒に取り組んで頂ける アナリティクスエンジニア
を募集しています!!! (まずはカジュアルな意見交換からでも) 29 最後に... 講演資料などのハッシュタグ #recruitdata イベント終了後にアンケートのご案内もあ りますので、是非ご回答をお願いします!