基本構成
- データベース
- GCP BigQuery
- Data Lake, Data Warehouse, Data Martすべて
- ワークフローエンジン
- Digdag
- データ収集
- Embulk, Ruby, Bash, aws cli
- データ加⼯
- SQL (BigQuery)
TimeTreeのデータ基盤
Slide 9
Slide 9 text
Digdag
TimeTreeのデータ基盤
BigQuery
Data
Mart
Data
Warehouse
Data
Lake
Transform
Load
Extract
Object
Storage
Clouod
Storage
Ads API
Log files
AWS RDS
Source
Data
SQL SQL
Data
Lake
Data
Warehouse
table B table C
Source
Data
bq>:
bq_load>:
Object
Storage
Workflow ① Workflow ②
call>:
ケース2: テーブル設計変更による後続ジョブへの影響
Skip
Slide 40
Slide 40 text
Data
Lake
Data
Warehouse
table B table C
Source
Data
bq>:
bq_load>:
Object
Storage
Workflow ① Workflow ②
call>:
bq_ddl>: bq_ddl>:
ケース2: テーブル設計変更による後続ジョブへの影響
Skip
Schema Schema
Schema Schema
GCP Project B
Data
Lake
GCP Project A
Temporary
table A’
table B
Data
Warehouse
table C
Data
Lake
Workflow ①
table A’
gcs_wait>:
Workflow ②
bq_extract>:
table A
bq>:
bq>:
Σ
bq_load>:
Object
Storage
ケース3: ドメインをまたいだデータの統合による混線
Skip
Slide 53
Slide 53 text
GCP Project B
GCP Project A
Temporary
Data
Lake
Data
Lake
table A’
table B
Data
Warehouse
table C
Workflow ①
table A’
gcs_wait>:
Workflow ②
table A
bq>:
bq>:
Σ
Object
Storage
SQL実⾏ユーザーの権限 SQL実⾏ユーザーの権限
bq_extract>:
ケース3: ドメインをまたいだデータの統合による混線
Skip
bq_load>: