登場人物|BigQuery Data Transfer Service
今日は AWS ネタの日なので、詳細は割愛
BigQuery Data Transfer Service とは
各種オブジェクトストレージなどから BigQuery に転送するマネージドサービス
S3 に置かれた Parquet 等のデータをほぼシームレスに BigQuery に取り込める
細切れの Parquet ファイルからいい感じにテーブルに復元してくれる
(AWS からの流入を狙っていると言わんばかりの手軽さ)
Parquet に変換されたデータを流し込むので、意外に転送料金は安い
9
テーブルメタデータを介したデータ加工のイメージ
それぞれ DDL, 加工設定, SQL
CREATE OR REPLACE TABLE `warehouse.users` AS
SELECT `id`, '*' AS `name`, '*' AS `email`, `birthday`, `created_at`
FROM `datalake.users` 15
Slide 16
Slide 16 text
その後……
現在はおよそ 20 数個の DB クラスタの統合が実現できている
最大の DB で約 400 テーブル、一部の大きいテーブルには数億行ぐらいのレコード
それぞれ異なる AWS アカウント
プロダクト側の実装箇所・アーキテクチャによる制限がほとんどないのは便利
「IAM Role + Policy を作ったら、データ基盤に連携された」
運用当初(2022 年初頭)は Export タスクがスタックし続けるような障害が
たまに発生していたが、現在はそんな障害は観測されずかなり安定している
AWS さんの地道な改善がありがたい
この仕組みで対応できない部分の隙間家具として、TROCCO® を使っている
16