Slide 1

Slide 1 text

© Recruit Co., Ltd. All Rights Reserved Looker や Dataform など、Modern Data Stack を用いてデータ活用の負を改善する(していく)話 1 株式会社リクルート データ推進室 まなびD3Mグループ 林田 祐輝 2022/11/01

Slide 2

Slide 2 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 2 林田 祐輝
 
 2017年にリクルートマーケティングパートナーズ入社。  
 「スタディサプリ」にて、データ分析、モニタリング構築、 データマネジメント業務を経験。 
 現在はデータサイエンスGとD3MGのマネージャーを兼 任。
 
 趣味はゴルフ。
 スコアデータを可視化するツールを開発中。 
 (BigQuery/dbt/Cloud Run/cube.dev) 


Slide 3

Slide 3 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 自分らしく学び、生きられる世の中を。 
 スタディサプリは、 学ぶ人、学びを支える人に寄り添い、 自己実現の最大化をサポートしていくサプリメントです。 詳しくはスタディサプリのブランドサイトを御覧ください。 https://brand.studysapuri.jp/ サービス紹介 3

Slide 4

Slide 4 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 本日のお話について ● まなび領域のデータ組織が活用しているデータスタックについ て、その活用事例をご紹介します。 ● 講演資料はTwitter の #recruitdata にてURLを共有してい ます。 時間の関係で詳細までお話できない部分もありますので、お手元 でご覧頂けると幸いです。 4

Slide 5

Slide 5 text

© Recruit Co., Ltd. All Rights Reserved 1. まなび領域のデータ組織について 2. 事例紹介 2.1. Dataform 2.2. Data Catalog 2.3. Looker / Tableau 3. まとめ 5 アジェンダ

Slide 6

Slide 6 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータ組織について 6

Slide 7

Slide 7 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata まなびD3Mグループのビジョン データ活用ユーザーに、 意思決定に必要なデータ分析環境を サービスとして提供する。 7

Slide 8

Slide 8 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 提供価値を上げる ● 当たり前品質を上げる。 ○ データを使うとき、それが定義通りに正しいこと。 ○ 使いたいときに使えること。 ○ データの内容が理解できること。 生産性を上げる ● 当たり前品質を担保しつつ、ステークホルダーからのデータ活用要望に応えていく。 ● そのために生産性を上げる取り組みを行う。 まなびD3Mグループのポリシー 8

Slide 9

Slide 9 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata データ環境 9 引用) スタディサプリのデータ基盤の進歩と調和 https://speakerdeck.com/recruitengineers/meetup-toita?slide=26

Slide 10

Slide 10 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータスタック 10 BigQuery Dataform Looker Tableau Data Catalog Orchestration Transformation Storage Governance BI Analytics Exploratroy Colaboratory Airflow ※一部チームのみ利用

Slide 11

Slide 11 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata まなび領域のデータスタック 11 BigQuery Dataform Looker Tableau Data Catalog Orchestration Transformation Storage Governance BI Analytics Exploratroy Colaboratory Airflow ※一部チームのみ利用

Slide 12

Slide 12 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例① Dataform 12

Slide 13

Slide 13 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 ● 保守業務の難しさ ○ スケジュールクエリ、バッチクエリ、アドホッククエリなどのSQLが散在していた。 ○ テーブル間の依存関係が追えないため、ロジック変更の補足が困難だった。 ● 継続的な改善 ○ 上記保守業務の難しさから、新規開発のスピード低下が懸念された。 ○ 新規参入者向けのナレッジシェアが難しい。 Dataform 導入の背景 13

Slide 14

Slide 14 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata Dataform 導入で得られたこと 14 Dataform ● Dataformのディレクトリと BQのdataset / table 構 造を統一した。 ● dev 環境を用意し、prodと devの分離した。 ● デフォルトをdevにし、CI/CD で環境変数を渡す。 実装 ● テーブル内容、及びカラムレベ ルでの概要を記述した。 ● データリネージ機能で依存関 係を調査できるようにした。 ガバナンス ● Assertionクエリによるテー ブルのヘルスチェックが可能に なった。 品質

Slide 15

Slide 15 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata Dataform をより活用するための課題 15 Dataform ● 既存クエリの書き換えに注力 したため、ガバナンス、品質向 上はこれから。 実装 ● sqlxファイルにドキュメントを 書き込むので、ファイルが冗長 になる。 ● 抽象度が高い内容や細かい定 義まで書けていない。 ガバナンス ● Assertionクエリの充足率が 低い。 品質

Slide 16

Slide 16 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例② Data Catalog 16

Slide 17

Slide 17 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 ● 管理しているデータ資産(データマート)の把握 ○ 属人的なデータマート開発が進んでおり、特定ロジックはチーム内で共通認識として シェアされていない。 ● 新規参入者へのオンボーディング ○ ドメイン知識とテーブル知識の装着が狙い。 ○ ソースコードを見るよりも理解しやすい形にしたい。 Data Catalog 導入の背景 17

Slide 18

Slide 18 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 2種類のメタデータ 18 引用) スタディサプリでのBigQuery移管と実践的活用術 https://speakerdeck.com/recruitengineers/meetup-kittaka?slide=29

Slide 19

Slide 19 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata Data Catalogをより活用するための課題 19 ツール連携 品質情報 Data Catalog Dataform SQLでの データマート 開発 開発とは 別のプロセスで 登録する 連携できない Data Catalog 各テーブルの Assertion 情報 (要件、結果など)

Slide 20

Slide 20 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 事例③ Looker × Tableau 20

Slide 21

Slide 21 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 背景 LookerとTableauをそれぞれステークホルダーに合わせて使い分けている。 ● 営業チーム:Tableau ○ クライアント先へのレポーティングもあり、デザイン要件があった。 ● プロダクト開発チーム:Looker ○ ビジネスドメインを複数持っているため、一元管理した開発が行いやすい。 課題 ● どちらも同じプロダクトに関わっているため、見ている指標が同じケースが多かった。 ● 独立して実装が行われており、指標管理などのガバナンスが効いていない。 Looker と Tableau 、複数BIを併用している状況 21

Slide 22

Slide 22 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 【初期】営業とプロダクトで独立したデータマートを開発 22 営業 プロダクト DWH データマート データマート Raw BigQuery

Slide 23

Slide 23 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 【現在】指標の共通化に向けてマートのリファクタリングを進行 23 営業 プロダクト DWH 共通 データ マート Raw BigQuery

Slide 24

Slide 24 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata 【将来】Lookerを使ってメトリクスの一元管理 24 営業 プロダクト DWH 共通 データ マート Raw BigQuery LookML LookML Looker

Slide 25

Slide 25 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 25

Slide 26

Slide 26 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 26 BigQuery Looker Tableau Data Catalog Orchestration Storage Governance BI Analytics Exploratroy Colaboratory Airflow Dataform Processing ※一部チームのみ利用

Slide 27

Slide 27 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata Lookerをメトリックレ イヤーと認識し、後続の BIへのハブとなるアー キテクチャを設計する。 27 Datafrom Data Catalog Looker×Tableau 取り組み・効果 次の課題 抽象度の高いドキュメ ントやAssertionのカ バー率を上げる。 ドキュメント生成、 GitHub連携、 Assertion実装など、 開発プロセスの管理や 品質担保の効率化がで きるようになった。 2種類のメタデータを 使い分けることで、 テーブル管理やテーブ ルナレッジなど現場の 作業効率に繋がった。 Transformツールと の連携、 品質チェック内容もメタ データ化。 Tableauに接続するこ とで、よりメトリクス管 理を進める。 まとめ

Slide 28

Slide 28 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata まとめ 28 ● Transformationツールによって、生産性を大きく上げる。 ● データガバナンスを強化することで、当たり前品質を維持する。 ● 各データスタック間の連携を積極的に行っていきたい。

Slide 29

Slide 29 text

© Recruit Co., Ltd. All Rights Reserved #recruitdata これらの課題に一緒に取り組んで頂ける アナリティクスエンジニア を募集しています!!! (まずはカジュアルな意見交換からでも) 29 最後に... 講演資料などのハッシュタグ #recruitdata イベント終了後にアンケートのご案内もあ りますので、是非ご回答をお願いします!