BigQuery を使用した分析基盤䛾運用を進めていく上で見えてきた課題、乗り越えてきた軌跡

D2-4-S10 BigQuery を使用した分析基盤の運用を進めていく上で見えてきた課題、乗り越えてきた軌跡山田　雄瀧井　伸一株式会社リクルートライフスタイルビッグデータアーキテクト 2018/09/20

山田　雄(Yamada Yu) @nii_yan ビッグデータアーキテクト好物：BigData周りの技術、データ基盤コンサル、ビール、日本酒、カップ焼きそば Photo Speaker

Agenda • リクルートライフスタイル会社紹介 • リクルートライフスタイルの分析基盤概要 • BigQueryの運用について • データパイプラインアーキテクチャ
• BigQuery基盤で取り組んだ工夫

1 リクルートライフスタイル会社紹介

リクルートのビジネスモデル

Title text 一生のうち、数回つかうサービス LIFE EVENT 日常的に、つかうサービス LIFE STYLE

2 リクルートライフスタイルの分析基盤

202 h 10 h

分析基盤の変遷

分析基盤の変遷 ✔リクルート分社化に伴い、独自の分析基盤Hadoop提供スタート ✔Netezza, Redshift導入 2013

課題 1. Hadoop はスケールアウトが辛い 2. Hive はクエリのレスポンスが遅い 3. Hadoop のアップデートが辛い

分析基盤の変遷 2013 2014 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshiftのノード拡張 ✔リクルート分社化に伴い、独自の
分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入

課題 1. ストレージのキャパシティ管理が辛い 2. オンプレとの通信が辛い

分析基盤の変遷 2013 2014 2015 ✔リクルート分社化に伴い、独自の分析基盤Hadoop提供スタート ✔Netezza, Redshift導入 ✔オンプレ- AWS
間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshiftのノード拡張

課題 1. ワークロードの限界 a. データロードと、データマート作成に 1 日かかる 2. クエリ実行性能の低下 a.
常にデータロードが走っているため、クラスタの負荷が高い

分析基盤の変遷 2013 2014 2015 2016 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift
のノード拡張 ✔リクルート分社化に伴い、独自の分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入

課題 1. ワークロードの複雑化 2. 費用対効果の限界 3. 未来への対応

分析基盤の変遷 ✔BigQuery 導入 ✔NetezzaEOSL ✔DataLake 構成導入 ✔Exadata 導入 2013 2014
2015 2016 2017 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift のノード拡張 ✔リクルート分社化に伴い、独自の分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入

課題 1. 非効率なマルチプラットフォーム構成 2. 解決しないワークロードの負荷 3. ユーザ教育のコスト増

分析基盤の変遷 2013 2014 2015 2016 2017 2018 ✔TreasureData を一部 BQ
へ移行 ✔RedshiftSpectrum 導入 ✔Redshift を一部 BQ へ移行 ✔BigQuery 導入 ✔NetezzaEOSL ✔DataLake 構成導入 ✔Exadata 導入 ✔Hadoop 除却 ✔TreasureData 導入 ✔Redshift のノード拡張 ✔リクルート分社化に伴い、独自の分析基盤 Hadoop 提供スタート ✔Netezza, Redshift 導入 ✔オンプレ- AWS 間に専用線導入 ✔Redshift のノード拡張 ✔Netezza のスケール検討 ✔Netezza のスケールアウト完了 ✔Redshift のノード拡張 ✔Redshift の multi クラスタ導入

S3 分析基盤の概要 Amazon Redshift Spectrum Oracle Exadata SPSS Treasure Data
aginity CHEETAH DIGITAL Adobe Analytics CSV 外部データアクセスログアプリログ HPB JLN HPG 事業データ BigQuery IBM Watson Campaign Automation

課題 1. インフラメンテナンスの限界　　DWH のみならず、ファイルストレージ、バッチ処理サーバ、　　開発者、バッチアカウントの管理が煩雑化し、人的管理の限界　　運用コストが高くなっている

課題解消のために据えた目標

課題解消のための目標 • 性能劣化しない基盤

課題解消のための目標 • インフラ運用からの解放

課題解消のための目標 • キャパシティ管理からの解放

課題解消のための目標 • データ活用の民主化が進む基盤

課題解消のための目標 • 構造を把握しやすい基盤

課題解消のための目標 • 性能劣化しない基盤 • インフラ運用からの解放 • キャパシティ管理からの解放 • データ活用の民主化が進む基盤 •
構造を把握しやすい基盤

Why BigQuery?

Why BigQuery • キャパシティプランニング不要

Why BigQuery • フルマネージド

Why BigQuery • ロード処理とクエリ処理が分離されている

Why BigQuery • データの受け渡しが容易

Why BigQuery • 定額料金での使用が可能

Why BigQuery • 他の Google 製品との親和性

Why BigQuery • キャパシティプランニング不要 • フルマネージド • ロード処理と、クエリ処理が分離 • データの受け渡しが容易
• 定額料金での使用が可能 • 他の Google 製品との親和性 ▪課題解消のための目標性能劣化しない基盤インフラ運用からの解放キャパシティ管理からの解放さらなるデータ活用の民主化が進む基盤構造を把握しやすい基盤インフラをコード化 (terraform) する事で解消

3 BigQuery の運用について

BigQuery 運用 • slots ◦ subreservation で大事なバッチを確保

BigQuery 運用 • 権限管理 ◦ google group を使用して管理

BigQuery 運用 • ユーザ教育 ◦ 教育動画や勉強会を開催

BigQuery 運用 • メタデータ管理 ◦ BQ だけではなく、他の DB も一元的
に管理

BigQuery 運用 • DataLake 構成

• 他の DWH とのデータ連携 ◦ bot を用意して、ユーザでもデータの移動が出来るように Slack Redshift
S3 BigQuery 運用

4 リクルートライフスタイル BigQuery データパイプラインアーキテクチャ取り組んだ工夫

瀧井　伸一株式会社フォスターネット SHAKETH 代表(フリーランス) ビッグデータアーキテクト SIer 等を経て、ゴルフダイジェスト・オンラインや GREE で、Web アナリスト業務、アクセス解析システム、
DWH、BI、SFAの構築を主導。現在は、フリーランスで、DMP 構築を中心に携わる。 Speaker

① リクルートライフスタイル BigQuery 規模 ② データパイプラインアーキテクチャ ③ BigQuery 基盤で取り組んだ工夫

リクルートライフスタイル BigQuery の規模

リクルートライフスタイル BigQuery の規模 ※ 2018 年 8 月時点ユーザー数 750
人

リクルートライフスタイル BigQuery の規模 ※ 2018 年 8 月時点テーブル数 4,000
個

リクルートライフスタイル BigQuery の規模 ※ 2018 年 8 月時点レコード数 6,000
億件

リクルートライフスタイル BigQuery の規模 ※ 2018 年 8 月時点ストレージ 550
TB

リクルートライフスタイル BigQuery の規模 ※ 2018 年 8 月時点連携データベース
Amazon Redshift Adobe Analytics Oracle Server Log

リクルートライフスタイル BigQuery の規模 ※ 2018 年 8 月時点 Server Log
Amazon Redshift Adobe Analytics Oracle ユーザー数テーブル数レコード数ストレージサイズ連携データベース 750 4,000 6,000 550 人個億件 TB (開発テスト環境含む : 650 TB)

リクルートライフスタイル BigQuery データパイプラインアーキテクチャ

Google プロダクト連携それ以外の連携

Google プロダクト連携 BigQuery

Google プロダクト連携 BigQuery BigQuery Export 設定

Google プロダクト連携 BQプロジェクト選択 GAビュー選択連絡先選択ストリーミング設定リクエスト確認 Google Analytics →
BigQuery

超簡単!!!

全部 Google に乗っかればいいのに…

現実は違う

今日の本題事業データ、Web ログ等のデータ連携システムアーキテクチャ

設計思想イベントドリブン & 疎結合

設計思想 : イベントドリブン & 疎結合 • ファイル出力イベントをトリガーに BigQuery 連携 •
データ連携パイプラインを各段階で切り分けて、独立したプロセスで稼働

設計思想 : イベントドリブン & 疎結合 • ファイル出力イベントをトリガーに BigQuery 連携 •
データ連携パイプラインを各段階で切り分けて、独立したプロセスで稼働 • システム間の連携時間調整を大幅に削減 • 変化に柔軟、迅速なデプロイが可能 • 障害が起きても、影響を小さい単位に切り分けられる

プロダクト : マルチクラウド Kubernetes Engine Cloud Storage Compute Engine AWS
SQS S3 Stackdriver

Data Pipeline Update job check Kubernetes Engine Load job check
Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム概要図 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack Logging & Alert Stackdriver

Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム概要図 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack Data warehouse Logging & Alert Stackdriver

Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム概要図 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack Data File Store Logging & Alert Stackdriver

Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム概要図 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack Data Pipeline System Logging & Alert Stackdriver

Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム概要図 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack Data Pipeline System キュー管理データ処理プロセス Logging & Alert Stackdriver

データパイプラインシステム特徴 ① イベントドリブン ② オートスケール ③ ジョブ開始・チェックプロセス分離

Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム特徴 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack ① イベントドリブン S3 バケット通知イベント SQS メッセージを起点に、各処理もすべて SQS によるキュー管理で連携処理を実行

Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム特徴 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack ② オートスケールファイルコピー、BigQuery へのロードプロセス等が、 SQS メッセージの増減に応じてオートスケール

Kubernetes Engine Data Lake AWS On-premises / Cloud データパイプラインシステム特徴 Server Log S3 File copy Kubernetes Engine Data store Cloud Storage DDL Parse & BigQuery Load Kubernetes Engine S3 Notification SQS Load start SQS Load check SQS Update start SQS Table update Kubernetes Engine SQS auto scaler Kubernetes Engine Update check SQS Data warehouse BigQuery Oracle Amazon Redshift Adobe Analytics Slack ③ ジョブ開始・チェックプロセス分離ロード / テーブル更新処理は、ジョブの開始と完了チェックを分離することで、少ないプロセス数で、多くの並列処理をこなせるロード完了チェックロードジョブ開始テーブル更新完了チェックテーブル更新ジョブ開始

リクルートライフスタイル BigQuery 基盤はマルチクラウド Why Multi-Cloud?

RLS-BigQuery データ基盤利用プロダクト AWS SQS S3 Kubernetes Engine Cloud Storage
Compute Engine Stackdriver

文化的背景歴史的背景

文化的背景リクルートライフスタイルには、自分たちにとって生産的で合理性があれば、マルチプラットフォームを選ぶ文化が根付いている過去から現在まで、Redshift, TreasureData,
Exadata と複数 DWH プラットフォームを導入・併用してきた背景でもある

歴史的背景 Redshift を始めとし、 AWS 環境で積極的に整備してきた既存インフラ資産があるすべてを即座に GCP
/ BigQuery へ移行する選択肢は現実的ではなかった

キュー管理に SQS を採用した理由 SQS のデッドレターキューが便利だった • デッドレターキューとは正常に処理できなかった問題となるメッセージを別の場所に退避してくれるもの ◦
インシデントの調査やリカバリが容易になる ◦ 障害検知を実装しやすい (CloudWatch Alert) 用途が単純なメッセージ連携のため、利便性の観点から AWS SQS を採用した ※ Cloud Pub/Subでも独自実装は可能

リクルートライフスタイル BigQuery 基盤で取り組んだ工夫

① GCP プロジェクト設計企業固有の配慮 • リクルートライフスタイルは、31のサービスを展開する • サービス(事業)ごとに分社化しても、データ基盤に大きな変更を加えることなく、ガバナンスが機能する設計にしておきたかった

用途プロジェクトデータセット説明データストア事業テーブル 7 個 46 個
• 事業単位にプロジェクトを分割 • データ連携元サービス単位にデータセットを分割ログ 2 個 8 個 • Adobe Analytics, Google Analytics でプロジェクト分割データマート 1 個 11 個 • 事業・サービス単位にデータセットを分割ユーザー加工テーブル保存 1 個 3 個システム用 1 個 23 個ユーザクエリ実行 2 個 - • アドホック分析, BI ツール実行 ① GCP プロジェクト設計 : 事業・用途単位で分割 ※ 2018 年 8 月時点

② エンドユーザー権限管理権限管理対象は、 ① IAM ② BigQuery データセットの 2
つあるざっくり言えば、最大で 14 プロジェクト × 750 人 = 10,500 68 データセット × 750 人 = 51,000 これだけの権限を設定・管理する必要そして、今後も増加する…

② エンドユーザー権限管理数万の権限設定をメンテ?

② エンドユーザー権限管理 Google グループが使える!!!

② エンドユーザー権限管理 Google グループで権限管理を集約横断参照ユーザーエンドユーザー権限管理限定参照ユーザー
GCP プロジェクト管理者エンジニア権限管理 GCP 開発者

③ 連携元スキーマ変換連携元テーブル定義から、BigQuery テーブルスキーマ定義に変換 • Oracle, MySQL, Redshift の差異を吸収する必要がある
◦ データ型 ◦ CREATE TABLE 文 • 数千テーブルのスキーマ定義を変換する必要がある

③ 連携元スキーマ変換数千テーブルを人手で変換?

③ 連携元スキーマ変換変換モジュールを作ってしまえ!!!

③ 連携元スキーマ変換 DDL 構文解析 & BigQuery JSON スキーマ定義変換 Python パッケージを開発
CREATE TABLE Sample_Table ( ID integer PRIMARY KEY, NAME varchar(100) NOT NULL, TOTAL bigint NOT NULL, AVG decimal(5,1) NOT NULL, CREATED_AT date, UNIQUE (NAME) ); [ {"name": "ID", "type": "INTEGER", "mode": "REQUIRED"}, {"name": "NAME", "type": "STRING", "mode": "REQUIRED"}, {"name": "TOTAL", "type": "INTEGER", "mode": "REQUIRED"}, {"name": "AVG", "type": "FLOAT", "mode": "REQUIRED"}, {"name": "CREATED_AT", "type": "DATE", "mode": "NULLABLE"} ] DDL Parse Convert to BQ JSON https://github.com/shinichi-takii/ddlparse/ https://pypi.org/project/ddlparse/ PyPI

④ クエリ作成の生産性向上 BigQuery WebUI は、誰でもカンタンに利用できる優れたUI しかし、クエリや関数等の入力補助、エディタの使い勝手が欲しい

④ クエリ作成の生産性向上 https://atom.io/packages/language-sql-bigquery パッケージを作成 language-sql-bigquery

⑤ 大規模テーブルの参照ログのような大規模データは、分割 (パーティション) テーブルに保存問題 • パーティション絞り込みせずクエリ実行される • 大量のテーブルフルスキャンが発生
◦ オンデマンド契約だと、高額な金額になり得る ◦ FlatRate 契約では、性能限界(Slots)を気にする必要性がある

⑤ 大規模テーブルの参照ログのような大規模データは、分割 (パーティション) テーブルに保存解決策 • パーティションフィルタ必須オプション (require partition
filter) が 2018 年 3 月に追加された • テーブルにオプションを設定し、フルスキャンを強制的に抑制

⑥ ロード機能が “エスケープ文字” 非対応 • BigQuery 読み込みジョブは、エスケープ文字に非対応

⑥ ロード機能が “エスケープ文字” 非対応 • BigQuery 読み込みジョブは、エスケープ文字に非対応 RFC 4180 (CSV仕様)
には準拠

⑥ ロード機能が “エスケープ文字” 非対応 • BigQuery 読み込みジョブは、エスケープ文字に非対応 • Redshift UNLOAD
ファイルと相性が悪い ◦ \”, \\, \t, \改行 (\n ではない) が解釈できない RFC 4180 (CSV仕様) には準拠

ファイルと相性が悪い ◦ \”, \\, \t, \改行 (\n ではない) が解釈できない • Redshift UNLOAD ファイルのクレンジング処理を入れた RFC 4180 (CSV仕様) には準拠 ◦ \” ◦ \\ ◦ \t ◦ \改行 → ”” → \ → TAB char → LF char

ファイルと相性が悪い ◦ \”, \\, \t, \改行 (\n ではない) が解釈できない • Redshift UNLOAD ファイルのクレンジング処理を入れた RFC 4180 (CSV仕様) には準拠 ◦ \” ◦ \\ ◦ \t ◦ \改行 → ”” → \ → TAB char → LF char 処理が重いのが悩みのタネ

⑦ データマート更新 • DML(insert/update/delete/merge) は、裏でテーブルを再作成する • 割り当てポリシー(実行回数上限)よりも、テーブル再作成によるパフォーマンス影響を気にした方が良い

⑦ データマート更新 • DML(insert/update/delete/merge) は、裏でテーブルを再作成する • 割り当てポリシー(実行回数上限)よりも、テーブル再作成によるパフォーマンス影響を気にした方が良い • できるだけ、DML
発行回数を減らせる処理設計 • 分割(パーティション)テーブルにして、更新対象を減らす

⑧ テーブル作成の生産性向上 : 従来 ① WebUI ② CLI :
bq mk コマンド ~ ❯❯❯ bq mk \ --description "description" \ --schema "table_schema.json" \ --time_partitioning_field='sample_partition' \ --require_partition_filter=true \ project_id:dataset_id.table_name

⑧ テーブル作成の生産性向上 : 新機能 DDL (Data Definition Language) Beta
- Jan. 2018, GA - Jul. 2018 #standardSQL CREATE TABLE `project_id.dataset_id.table_name` (purchase_datetime TIMESTAMP, order_id STRING, amount INT64) PARTITION BY DATE(purchase_datetime) OPTIONS ( description = "description", require_partition_filter = true )

⑨ ユーザー加工テーブル保存制限前提データ活用民主化の観点から、自由なユーザー加工データ保存環境の提供は必須課題無尽蔵にテーブルを作成されては、 BigQuery ストレージ料金が膨れあがるリスクがある

⑨ ユーザー加工テーブル保存制限解決策 : テーブル有効期限を設定データセットにデフォルトのテーブル有効期限パラメータを設定テーブル作成時に有効期限が設定される

⑨ ユーザー加工テーブル保存制限未解決 : テーブルサイズの制限ユーザーや、テーブルなどの単位で、テーブルサイズの上限を設定できるとうれしい今後の BigQuery に期待

5 まとめ

まとめ • BigQuery は、フルマネージドで、大量データを無限に集積できて、最高性能を安価に入手できるプラットフォーム • Google
プロダクト連携を考えれば、BigQuery 一択 • ロード処理がクエリ性能に影響を与えないので、イベントドリブンでの大量データ連携は非常に敷居が低い • 足りないものは自らモジュール開発することで、障壁をクリア

まとめ • 課題 GCP(BigQuery) に詳しいエンジニアがいない採用が難しい

一緒にGCPを学びたいエンジニア募集中！！

Thank you.

BigQuery を使用した分析基盤䛾運用を進めて いく上で見えてきた課題、乗り越えてきた軌跡

BigQuery を使用した分析基盤䛾運用を進めて いく上で見えてきた課題、乗り越えてきた軌跡

More Decks by yu-yamada

Other Decks in Technology

Featured

Transcript

BigQuery を使用した分析基盤䛾運用を進めていく上で見えてきた課題、乗り越えてきた軌跡

BigQuery を使用した分析基盤䛾運用を進めていく上で見えてきた課題、乗り越えてきた軌跡