Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Looker や Dataform など、Modern Data Stackを用いてデータ活用の負を改善する(していく)話 / techplay221101_04_hayashida
Search
Recruit
PRO
November 01, 2022
Technology
2
2.6k
Looker や Dataform など、Modern Data Stackを用いてデータ活用の負を改善する(していく)話 / techplay221101_04_hayashida
2022/11/01_リクルートが考える『意思決定に効くデータマネジメント』~アナリティクスエンジニア組織の立ち上げと事例紹介~での、林田の講演資料になります
Recruit
PRO
November 01, 2022
Tweet
Share
More Decks by Recruit
See All by Recruit
SIerでの経験が活きた!『SUUMO』『ゼクシィ』担当PdMの企画プロセスを紐解く〜プロデザ!〜
recruitengineers
PRO
0
68
事業目的とのプロトコル変換
recruitengineers
PRO
4
96
Boosting Hotel Profits: The Power of Enhanced Cancellation Predictions
recruitengineers
PRO
3
670
ヘルススコアの改善の過程で起きた嬉しい変化
recruitengineers
PRO
4
720
スクラム開発導入による 他組織を巻き込んだ開発生産性向上の取り込み
recruitengineers
PRO
3
380
大公開!SUUMOの裏側 -データ組織の取り組みLT会-
recruitengineers
PRO
4
120
FIFOキューで実現する Spring Bootの非同期処理とその性能評価方法
recruitengineers
PRO
5
160
組合せ最適化による問題解決の実践的アプローチ
recruitengineers
PRO
8
1.4k
社内のAI活用事例と活用促進のための取り組みを大公開!
recruitengineers
PRO
4
710
Other Decks in Technology
See All in Technology
年間一億円削減した時系列データベースのアーキテクチャ改善~不確実性の高いプロジェクトへの挑戦~
lycorptech_jp
PRO
3
2.9k
AIエージェントを現場に導入する目線とは
masahiro_nishimi
1
1.5k
累計ダウンロード数1億8000万を超えるアプリケーションプラットフォームのレガシーシステム脱却とモダン化への道
kmitsuhashi
0
120
さらに高品質・高速化を目指すAI時代のテスト設計支援と、めざす先 / AI Test Lab vol.1
shift_evolve
0
190
AIアシスタントの活用で品質の向上と開発ワークフローのスピードアップ
nagix
1
190
Azure Pipelinesを使用したCICDベースラインアーキテクチャ実践
yuriemori
0
190
ゆめみのアクセシビリティの現在地と今後
ryokatsuse
3
290
大規模ドラレコデータ収集・機械学習基盤を支える AWS CDK 〜導入・運用事例紹介〜
pemugi
0
110
技術負債による事業の失敗はなぜ起こるのか / Why do business failures due to technical debt occur?
i35_267
0
190
Classmethod Odyssey 登壇資料
yamahiro
0
390
AOAI Dev Day - Opening Session
yoshidashingo
2
430
dxd2024-生成AIに振り回された3か月間の成功と失敗/dxd2024-link-and-motivation
lmi
2
260
Featured
See All Featured
From Idea to $5000 a Month in 5 Months
shpigford
377
46k
A Modern Web Designer's Workflow
chriscoyier
689
190k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
353
29k
A Tale of Four Properties
chriscoyier
155
22k
Six Lessons from altMBA
skipperchong
24
3.2k
The Power of CSS Pseudo Elements
geoffreycrofte
64
5.2k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
12
3.8k
YesSQL, Process and Tooling at Scale
rocio
166
14k
Robots, Beer and Maslow
schacon
PRO
157
8.1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
189
16k
How To Stay Up To Date on Web Technology
chriscoyier
784
250k
Rails Girls Zürich Keynote
gr2m
93
13k
Transcript
© Recruit Co., Ltd. All Rights Reserved Looker や Dataform
など、Modern Data Stack を用いてデータ活用の負を改善する(していく)話 1 株式会社リクルート データ推進室 まなびD3Mグループ 林田 祐輝 2022/11/01
© Recruit Co., Ltd. All Rights Reserved #recruitdata 2 林田 祐輝
2017年にリクルートマーケティングパートナーズ入社。 「スタディサプリ」にて、データ分析、モニタリング構築、 データマネジメント業務を経験。 現在はデータサイエンスGとD3MGのマネージャーを兼 任。 趣味はゴルフ。 スコアデータを可視化するツールを開発中。 (BigQuery/dbt/Cloud Run/cube.dev)
© Recruit Co., Ltd. All Rights Reserved #recruitdata 自分らしく学び、生きられる世の中を。
スタディサプリは、 学ぶ人、学びを支える人に寄り添い、 自己実現の最大化をサポートしていくサプリメントです。 詳しくはスタディサプリのブランドサイトを御覧ください。 https://brand.studysapuri.jp/ サービス紹介 3
© Recruit Co., Ltd. All Rights Reserved #recruitdata 本日のお話について •
まなび領域のデータ組織が活用しているデータスタックについ て、その活用事例をご紹介します。 • 講演資料はTwitter の #recruitdata にてURLを共有してい ます。 時間の関係で詳細までお話できない部分もありますので、お手元 でご覧頂けると幸いです。 4
© Recruit Co., Ltd. All Rights Reserved 1. まなび領域のデータ組織について 2.
事例紹介 2.1. Dataform 2.2. Data Catalog 2.3. Looker / Tableau 3. まとめ 5 アジェンダ
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータ組織について 6
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなびD3Mグループのビジョン データ活用ユーザーに、
意思決定に必要なデータ分析環境を サービスとして提供する。 7
© Recruit Co., Ltd. All Rights Reserved #recruitdata 提供価値を上げる •
当たり前品質を上げる。 ◦ データを使うとき、それが定義通りに正しいこと。 ◦ 使いたいときに使えること。 ◦ データの内容が理解できること。 生産性を上げる • 当たり前品質を担保しつつ、ステークホルダーからのデータ活用要望に応えていく。 • そのために生産性を上げる取り組みを行う。 まなびD3Mグループのポリシー 8
© Recruit Co., Ltd. All Rights Reserved #recruitdata データ環境 9
引用) スタディサプリのデータ基盤の進歩と調和 https://speakerdeck.com/recruitengineers/meetup-toita?slide=26
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータスタック 10
BigQuery Dataform Looker Tableau Data Catalog Orchestration Transformation Storage Governance BI Analytics Exploratroy Colaboratory Airflow ※一部チームのみ利用
© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータスタック 11
BigQuery Dataform Looker Tableau Data Catalog Orchestration Transformation Storage Governance BI Analytics Exploratroy Colaboratory Airflow ※一部チームのみ利用
© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例① Dataform
12
© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 •
保守業務の難しさ ◦ スケジュールクエリ、バッチクエリ、アドホッククエリなどのSQLが散在していた。 ◦ テーブル間の依存関係が追えないため、ロジック変更の補足が困難だった。 • 継続的な改善 ◦ 上記保守業務の難しさから、新規開発のスピード低下が懸念された。 ◦ 新規参入者向けのナレッジシェアが難しい。 Dataform 導入の背景 13
© Recruit Co., Ltd. All Rights Reserved #recruitdata Dataform 導入で得られたこと
14 Dataform • Dataformのディレクトリと BQのdataset / table 構 造を統一した。 • dev 環境を用意し、prodと devの分離した。 • デフォルトをdevにし、CI/CD で環境変数を渡す。 実装 • テーブル内容、及びカラムレベ ルでの概要を記述した。 • データリネージ機能で依存関 係を調査できるようにした。 ガバナンス • Assertionクエリによるテー ブルのヘルスチェックが可能に なった。 品質
© Recruit Co., Ltd. All Rights Reserved #recruitdata Dataform をより活用するための課題
15 Dataform • 既存クエリの書き換えに注力 したため、ガバナンス、品質向 上はこれから。 実装 • sqlxファイルにドキュメントを 書き込むので、ファイルが冗長 になる。 • 抽象度が高い内容や細かい定 義まで書けていない。 ガバナンス • Assertionクエリの充足率が 低い。 品質
© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例② Data
Catalog 16
© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 •
管理しているデータ資産(データマート)の把握 ◦ 属人的なデータマート開発が進んでおり、特定ロジックはチーム内で共通認識として シェアされていない。 • 新規参入者へのオンボーディング ◦ ドメイン知識とテーブル知識の装着が狙い。 ◦ ソースコードを見るよりも理解しやすい形にしたい。 Data Catalog 導入の背景 17
© Recruit Co., Ltd. All Rights Reserved #recruitdata 2種類のメタデータ 18
引用) スタディサプリでのBigQuery移管と実践的活用術 https://speakerdeck.com/recruitengineers/meetup-kittaka?slide=29
© Recruit Co., Ltd. All Rights Reserved #recruitdata Data Catalogをより活用するための課題
19 ツール連携 品質情報 Data Catalog Dataform SQLでの データマート 開発 開発とは 別のプロセスで 登録する 連携できない Data Catalog 各テーブルの Assertion 情報 (要件、結果など)
© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例③ Looker
× Tableau 20
© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 LookerとTableauをそれぞれステークホルダーに合わせて使い分けている。
• 営業チーム:Tableau ◦ クライアント先へのレポーティングもあり、デザイン要件があった。 • プロダクト開発チーム:Looker ◦ ビジネスドメインを複数持っているため、一元管理した開発が行いやすい。 課題 • どちらも同じプロダクトに関わっているため、見ている指標が同じケースが多かった。 • 独立して実装が行われており、指標管理などのガバナンスが効いていない。 Looker と Tableau 、複数BIを併用している状況 21
© Recruit Co., Ltd. All Rights Reserved #recruitdata 【初期】営業とプロダクトで独立したデータマートを開発 22
営業 プロダクト DWH データマート データマート Raw BigQuery
© Recruit Co., Ltd. All Rights Reserved #recruitdata 【現在】指標の共通化に向けてマートのリファクタリングを進行 23
営業 プロダクト DWH 共通 データ マート Raw BigQuery
© Recruit Co., Ltd. All Rights Reserved #recruitdata 【将来】Lookerを使ってメトリクスの一元管理 24
営業 プロダクト DWH 共通 データ マート Raw BigQuery LookML LookML Looker
© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 25
© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 26
BigQuery Looker Tableau Data Catalog Orchestration Storage Governance BI Analytics Exploratroy Colaboratory Airflow Dataform Processing ※一部チームのみ利用
© Recruit Co., Ltd. All Rights Reserved #recruitdata Lookerをメトリックレ イヤーと認識し、後続の
BIへのハブとなるアー キテクチャを設計する。 27 Datafrom Data Catalog Looker×Tableau 取り組み・効果 次の課題 抽象度の高いドキュメ ントやAssertionのカ バー率を上げる。 ドキュメント生成、 GitHub連携、 Assertion実装など、 開発プロセスの管理や 品質担保の効率化がで きるようになった。 2種類のメタデータを 使い分けることで、 テーブル管理やテーブ ルナレッジなど現場の 作業効率に繋がった。 Transformツールと の連携、 品質チェック内容もメタ データ化。 Tableauに接続するこ とで、よりメトリクス管 理を進める。 まとめ
© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 28
• Transformationツールによって、生産性を大きく上げる。 • データガバナンスを強化することで、当たり前品質を維持する。 • 各データスタック間の連携を積極的に行っていきたい。
© Recruit Co., Ltd. All Rights Reserved #recruitdata これらの課題に一緒に取り組んで頂ける アナリティクスエンジニア
を募集しています!!! (まずはカジュアルな意見交換からでも) 29 最後に... 講演資料などのハッシュタグ #recruitdata イベント終了後にアンケートのご案内もあ りますので、是非ご回答をお願いします!