Slide 1

Slide 1 text

FivetranとGoogleCloudにより実現する セールスデータの統合と分析への活用 2024/06/19 FivetranとGoogle Cloudで始めるモダンデータスタック

Slide 2

Slide 2 text

自己紹介 石井 正浩 / @marufeuille 2022/8 タイミー入社 & DREチームJoin データ基盤の開発・運用やってます。最近はデータ コントラクトの実現を悩んでます。 趣味でコーヒー☕淹れたり、煎ったりしてます

Slide 3

Slide 3 text

目次 ● タイミーのデータ基盤と 扱うデータについて ● Fivetranの活用 ● GoogleCloudの活用 ● まとめと今後の展望

Slide 4

Slide 4 text

1 タイミーのデータ基盤と 扱うデータについて

Slide 5

Slide 5 text

タイミーが扱うデータは どんなものがあり、どのように使っているの でしょうか

Slide 6

Slide 6 text

タイミーの実績 スキマ バイト No.1 ※1 ※2 [調査方法]インターネット調査 [調査期間]2024 年 2 月 9 日~11 日 [調査概要]スキマバイトアプリサービスの実態調査 [調査 委託先]株式会社マクロミル 利用率 ・リピート率 ※1 ※2 導入事業者数 98,000企業 ワーカー数 700万人

Slide 7

Slide 7 text

7

Slide 8

Slide 8 text

アプリケーション上のデータ ワーカー様 ワーカー 登録した DB ユーザ情報が 生成される 案件に マッチングした マッチング情報が 生成される 実際に働いた 働いたという情報が 生成される クライアント企業様 ワーカー様 求人を出す 求人情報が 生成される ワーカー様と やりとりをする やり取りに関する情報が 生成される

Slide 9

Slide 9 text

商談に関するデータ クライアント企業様 タイミーのセールス/CS 商談 商談結果を記入 クライアント企業様 固有のデータ

Slide 10

Slide 10 text

データ活用の例 利用状況をみてク ライアント企業様 へリテンション施 策が打ちたい セールス DS/エンジニア クライアント企業 担当者様 勤務する ワーカー様の 一覧がほしい ワーカー様へ案件の レコメンドがしたい 必要なデータの鮮度(例) 先月分が揃っていれば良い 前日分まで揃っていてほしい 直前1時間分がほしい

Slide 11

Slide 11 text

まとめると

Slide 12

Slide 12 text

全体感 DB app log クライアント企業様 ワーカー様 Timee App 管理画面 行動 履歴 DB app log 行動 履歴 タイミーのセールス/CS データ 基盤 商談 その他 外部データ Timee App 様々なデータソースを統合し、ユーザニーズに合わせて提供していく必要がある 様々なニーズ

Slide 13

Slide 13 text

タイミーのデータ基盤に求められる特性 - 様々なデータソースをコスト低く扱えないといけない - 異なるユーザニーズを満たしたデータ提供も必要である - 複数のデータを統合して扱う必要がある

Slide 14

Slide 14 text

2 Fivetranの活用

Slide 15

Slide 15 text

以前のデータ基盤の入口(簡略版) データ 基盤 SaaS類 Embulk (バッチ処理) Timee App

Slide 16

Slide 16 text

課題感 状態 データソースの追加が大変 embulkのプラグインとして公開されていればすぐ。な い場合自前でプラグインを書かないといけない(ruby or javaだが、チーム内でメンテナンスは困難) インフラ管理が大変 インフラ(OSレベル)の管理が必要。 障害調査が大変 ログが読みにくい... SaaSからのデータ連携が大変 SaaSはエンドポイント単位でAPI limitが制限されてい るが、1つのSaaSから複数オブジェクトを転送する場 合にアクセスの制御ができない 一言でいうと、運用がツライ

Slide 17

Slide 17 text

導入後のデータ基盤の入口(簡易版) データ 基盤 SaaS類 高頻度の 差分転送

Slide 18

Slide 18 text

データソースの追加 Lite Connectorによる未対応SaaSへの対応 https://fivetran.com/docs/by-request-program SmartHRコネクタをリクエストしたときの動き 初回打ち合わせ 2月頃 Dev版リリース 4月中旬頃 Fivetran社開発期間 Timee検証中 多数のコネクタにデフォルトで対応 設定も簡単

Slide 19

Slide 19 text

SaaSのrate limitのハンドリング 連携頻度(Sync Frequency)を指定しておけば、適切にアクセスを調整しつつ、 失敗しても自動で再実行されていくので、ほぼNoOps化

Slide 20

Slide 20 text

運用がツラいは劇的に改善 embulk等は38件(58時間=7人日分) Fivetran に関するものはたったの 3件(1.5時間分) ※ 2023/11時点の抽出です

Slide 21

Slide 21 text

3 GoogleCloudの活用

Slide 22

Slide 22 text

データ基盤の構成 BigQuery Datastream DataLake Data Warehouse DataMart Looker LookerStudio SpreadSheet Timee App SaaS類

Slide 23

Slide 23 text

データ基盤 on GoogleCloudの良いところ 1. BigQueryによるデータの統合と活用の価値 2. Datastreamによるデータ基盤適用業務の増加

Slide 24

Slide 24 text

データ基盤上でデータを統合する価値 Timee App データ基盤 ・・・

Slide 25

Slide 25 text

Salesforceとアプリケーションデータの連携 データ基盤 data modeling 社内ユーザ 慣れたSalesforce上で よくあるものを 閲覧/分析可能 Timee App data model より高度な分析 売上等

Slide 26

Slide 26 text

DataStreamによるニアリアルタイム連携 BigQuery Datastream DataLake Timee App Embulk Timee App 導入前 導入後 データが 生成される データ基盤上で 利用可能になる SLO 1日 SLO 15分

Slide 27

Slide 27 text

DataStreamによる導入前後の業務の変化 BigQuery Datastream DataLake Timee App Embulk Timee App 導入前 導入後 よりリアルタイム性が高い業務 SLO1日で十分な業務 一本化

Slide 28

Slide 28 text

4 まとめと今後の展望 (と、宣伝)

Slide 29

Slide 29 text

まとめ - 様々なデータの取り込みがユーザニーズを満たし、かつ運 用コストも低い状態にできている - BigQueryに取り込んだデータを統合することで、単体のと きよりもデータの価値を向上できている with

Slide 30

Slide 30 text

今後について データ基盤のユースケースを拡張し、社内のデータを使った施策が回る基盤に データ基盤 データを 使った施策 データを使った施策で 集めたデータは基盤上で 利用可能 データ連携 他、様々なSaaSや 外部ソース リテンション 機械学習・AI 出勤簿 ・ ・ ・

Slide 31

Slide 31 text

(宣伝)弊チームの最近の発表 https://speakerdeck.com/chikushi/niariarutaimunodetaji-pan-w ogou-zhu-site-shi-shi-xing-woxiang-shang-sasetahua https://speakerdeck.com/yuinishiyama9/appsheetwoshi-tutadet apin-zhi-nogai-shan https://speakerdeck.com/ttccddtoki/dmbokwocan-kao-nisitadet amanezimentonoqu-rizu-mi https://speakerdeck.com/marufeuille/four-keysniyorudataopsga i-shan-nodi-bu

Slide 32

Slide 32 text

いっしょにデータ品質を改善していきましょう!! https://hrmos.co/pages/timee/jobs/1682251404118319115 We're hiring!