毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management

1 毎月約500万本のクエリが投げられる BigQueryの運用とデータマネジメント #merpay_techtalk 2021/3/29 Shun Oshidari Data Management Team
/ Data Manager 動画のアーカイブはこちらです https://www.youtube.com/watch?v=qrxkqlo4m0c

2 データマネージャー創設の背景本日お話しすること全社レベルのデータ活用が進んだ先で直面した新たな課題マイクロサービス時代に起こるデータの「細分化」と「サイロ化」 02 03 01

3 データマネージャー創設の背景

4 ソフトウェア業界における役割細分化の流れソフトウェア業界ではここ数年、多くの専門職が新たに生まれてきた。サーバーサイド  フロントエンド  iOS  Android  Unity  React  Vue.js 
Flutter  AWS  GCP  テスト  セキュリティ  LAMPがあればなんとかなるよ

5 役割細分化の流れは技術職に限らない細分化の流れは非技術職でも起こってきた。 • プロダクトオーナー • カスタマーサクセス • プログラムマネージャー •
テクニカルプロジェクトマネージャー • プロダクトマーケティングマネージャー • UXデザイナー/UXリサーチャー ...etc.

6 同じことがデータの現場でも起こり始めているデータエンジニアやデータアナリストもこの 10数年で確立した新しい職種。サーバーサイド  プロダクト  マーケ担当  インフラ  毎回やるのしんどいな
CSV ください自分でクエリ叩くか昔は...  データアナリスト  データエンジニア  現在は 

7 データ関連職種の細分化はこれからもっと起こるデータ周辺の専門職はまだまだ不足しており、新たなロールを定義していく必要がある。データアナリスト  データエンジニア  ◯◯◯◯？  • より多くのデータを、より速く、より確実に届けたい •
届けたデータをその後どのように使うかはあまり詳しくない複雑なデータを整理しあらゆるデータ利用者が「信頼できる」データを「最速で使える」環境を作ってあげたい • データを使った分析や意思決定のイテレーションをなるべく速く回したい • そのために使える技術的手段はあまり詳しくない（SQLやgit はわかる）

8 データガバナンスは誰の仕事か？データガバナンスは技術的問題ではないが、技術的理解がなければできない仕事。 • ガバナンス体制の構築はデータエンジニアが解決すべき「技術的課題」か？ • 一定の技術的な理解がなければ、体制の妥当性は評価できない法務やコンプライアンスチームだけでは構築できないデータの周辺には多くの”隙間”が生まれており、この隙間を埋める新たなロールが求められる。

9 “隙間”の例 ① 拡大するデータ利用の管理これまでは「データ規模の拡大」にどう対処するかが課題であったが、これからは「データ利用の拡大」への対処が必要。データ規模データ利用
データ規模データ利用データ規模データ利用過去現在これから

10 “隙間”の例 ① 拡大するデータ利用の管理弊社におけるデータ利用規模の例（BigQuery） • クエリ発行元ユーザーアカウント → 約 700〜800
アカウント • クエリ発行元システムアカウント → 約 300〜400 アカウント • クエリ発行元 GCP プロジェクト → 約 200〜300 プロジェクト • クエリ発行数 → 約 500 万本/月 • 処理データ量 → 約 500~800 ペタバイト/月データ基盤に対する負荷は「掛け算」で増えている

11 “隙間”の例 ① 拡大するデータ利用の管理データ基盤に対する負荷は「掛け算」の形で増えているが、問題の本質は技術ではなく、利用側の急拡大をどうマネジメントしていくかにある。データ規模データ利用
技術の問題運用・管理の問題

12 “隙間”の例 ② データの「細分化」と「サイロ化」データの「細分化」と「サイロ化」は似ているようだが、微妙に異なる別の問題。データの「細分化」 • これまで1枚のテーブルに保存されていたような情報が複数のテーブルに分割して保存され、結果として使用されるテーブル数が増えている変化データの「サイロ化」
• 主にマイクロサービスアーキテクチャにおいて、同じ情報を各マイクロサービスで異なる持ち方をすることで、データの仕様がばらついてしまう変化

13 データの「細分化」 1枚のテーブルに色々な状態を詰め込み書き換えていく設計から、イミュータブルデータモデリングに代表されるような、情報を適切に分解し、変更を記録していく設計が増えてきた結果、作成されるテーブル数は大きく増加した。 FROM ... LEFT OUTER JOIN
LEFT OUTER JOIN LEFT OUTER JOIN LEFT OUTER JOIN LEFT OUTER JOIN アナリスト  どこに何があるか全くわからん... カンマ区切りもあるよコードA  コードB  コードC  コードD  更新  更新  更新  更新 

14 データの「サイロ化」マイクロサービスアーキテクチャでは、各マイクロサービス内でのデータの持ち方は自由に決めることができる。各マイクロサービスは自サービスに閉じた開発というメリットを享受できるが、   データを横断して使うデータ利用者はこの差分を作業のどこかで受け止めなければならない。
  A ユーザーIDは「user_id」だねマイクロサービス  B ユーザーIDは「UserId」だねマイクロサービス  C ユーザーID じゃなくてメンバーID だよマイクロサービス  D その時刻は 2021-03-29 19:00:00 UTC だねマイクロサービス  E その時刻は 1617044400 だねマイクロサービス  データ利用者  どうしよう...

15 隙間を埋めるデータマネジメントの取り組み

16 拡大するデータ利用に対する取り組み • Reservations（割り当て）によるリソース割り当ての優先度制御  • INFORMATION_SCHEMA を活用したリソース消費のモニタリングと分析  •
99%のクエリを守るアドホッククエリ専用環境の構築  

17 Reservations によるリソース割り当ての優先度制御 BigQuery Reservationsは、定額で購入したスロットを複数の枠に分割し、リソース配分に優先順位をつけてワークロードを管理するための仕組み。 Reservations 分割検討時の論点の例 • カンパニーやリージョン
• お客様への影響の近さ • 後続処理への影響範囲、復旧の容易さ • 投げられるクエリの品質がどの程度管理されているか • アイドルスロットシェアリングの機構を前提とした弾力的なリソース配分

18 INFORMATION_SCHEMAを活用したリソース消費のモニタリングと分析 INFORMATION_SCHEMAに入っているJOBS_BY_系のシステムテーブルからは、実行されているクエリやリソースの消費具合について多くのことがわかる。 JOBS_BY_ORGANIZATION • 組織内のすべてのGCPプロジェクトのクエリログを確認するときに使用 • SQL文は含まれていない JOBS_BY_PROJECT
• SQL文を見る必要があるときに使用 • プロジェクトごとに権限を取得する必要がある JOBS_TIMELINE_BY_xxx • ジョブの状態が1秒単位で入っているすごいテーブル • スロットの消費状況をタイムラインで可視化するときに使用 • ただしログが数時間遅れることもあるので、信用しすぎてはいけない

19 INFORMATION_SCHEMAを活用したリソース消費のモニタリングと分析 INFORMATION_SCHEMAに入っているJOBS_BY_系のシステムテーブルからは、実行されているクエリやリソースの消費具合について多くのことがわかる。 JOBS_BY_系テーブルからわかるその他の例 • Lookerからのクエリは、SQL文の中に「誰が、どのダッシュボードを開いたときのクエリなのか」といったメタ情報が埋め込まれているため、これを見ればクエリからLookerの利用までたどることができる •
JOBS_BY_にはそのクエリで「参照されたテーブル」も入っているため、「このテーブルが参照されるときはクエリが重くなりがち」というような調査が可能 • 実行計画をパースすると、そのクエリで「参照されたカラム」まで特定できるため、あるカラムの名前を変えたい、カラムの定義を変更したいといったときに、「そのカラムを誰がどのくらい使っているのか」を調査することもできる

20 余談：非効率な書き方をしたクエリは悪いのか？ • 最近の BigQuery は数百テラバイトの処理も1分かからず終えてしまうことがある  （ログ調査により判明）  • 「数百テラバイト」というサイズ自体は、BigQuery にとって大したことなくなってきた？ 
• BigQuery が「大したことない」と思っているなら、我々がへんに気を使わずとも、BigQuery さんに働いてもらえばよいのではないか  （特に定額利用の場合、休ませたところでお金は返ってこないので）  • 「富豪的」な考え方への転換は多くの分野でこれまでも何度も起こってきた  • BigQuery以降というのは、我々も富豪になれるタイミングなのでは！？ 

21 “ダメ”なクエリとは  非効率なクエリ  他のユーザーに迷惑をかけるクエリ  他のユーザーに迷惑をかけるクエリとは？   大量のスロットを消費するが、短時間で処理が完了し、  すぐにスロットを解放するクエリ 
大量（or そこまで多くとも）のスロットを長時間使用し続けるクエリ  99%のクエリを守るアドホッククエリ専用環境の構築富豪的な時代が到来しつつあるとはいえ、現時点ではまだ一定の治安維持が必要。しかし非効率であることが必ずしも悪いことではなくなった今、では一体「ダメなクエリ」とはどんなクエリなのか？一定量のスロットを購入する定額プランでは、使えるスロットはどんどん使ってさっさと処理を終えてくれた方がありがたい  

22 99%のクエリを守るアドホッククエリ専用環境の構築調査の結果、「ユーザーが実行するアドホッククエリの 99%は5分以内に完了している」ということが判明。 5 分以内に終わるクエリ専用の環境があれば、 99%のクエリを守ることができる。アドホッククエリ専用環境の特徴   •
5分以上実行されるクエリは即座にキャンセルされる   • 1つのアカウントで同時に3本以上実行されたクエリは全てキャンセルされる   • 上記ルールはバッチクエリには適用されない  • Reservations により、この環境へは比較的潤沢なリソースが割り当てられている  

23 データの「細分化」と「サイロ化」に対する取り組み複雑なデータを中間テーブル化していった結果できあがったのは、複雑化した中間テーブル群。ただ中間テーブルを増やすのではなく、もっと統制の取れたアプローチで複雑性と向き合う必要がある。中間テーブルに埋め込まれていたロジックの例  • 分析観点で本質的に必要なデータの加工や変換 •
コード値をラベルへ変換するもの • カラム名をそろえるだけのもの • データの型をそろえるだけのもの • 間違った元データを強引に修正するもの

24 データの「細分化」と「サイロ化」に対する取り組みあらゆるデータ加工処理を 1つの中間テーブルに押し込めてしまうのではなく、処理の性質を種類に分け、「層」を作って管理することで、見通しを良くすることができる。インターフェース層  • カラム名やタイムゾーンの統一や、コード値のラベル変換など、元テーブルの形（レコードの単
位）はそのままに、元テーブルを統一的な仕様で使いやすくした薄いビュー • GROUP BYやJOINはしないコンポーネント層  • 「ユーザー」や「決済」などの要素ごとに必要な加工ロジックを詰め込んだ比較的小さなテーブル群 • GROUP BYやJOINも可能 • 複雑なコンポーネントは分割し、 1つ1つのサイズは小さく保つデータモデル層  • 主要なコンポーネント同士を結合したテーブル（リレーションのような関係） • STRUCT型かREPEATED型に変換して1枚のテーブルとして実体化するまだ名前のない層  • ダッシュボード等で必要な表面的な加工処理を受け持つ • データの本質とは関係ないため、データモデル層からは切り離す • LookerなどのBIツール内に実装してもよい元テーブル 

25 dbt (data build tool) の導入前頁のコンポーネント層は dbt がなければ実現できなかった。すでに100を超える中間テーブルが
dbt 管理化に移管されている。 • SQL を解析し依存関係（順序）を理解したうえで、  コマンド一発で、すべて自動的に構築してくれる   • データウェアハウスのデータ構造を   宣言的に扱うことができるようになる  • カラム説明などのメタデータを記述できる  • データリネージュを自動的に可視化してくれる   • テストを書くことができる  データウェアハウスは宣言的に設計し、コマンド一つで「ビルド」する時代になりつつある。   https://docs.getdbt.com/docs/building-a-dbt-project/documentation

26 まとめ我々の周辺では日々新たな職種が生まれています。それはデータ関連の職種も例外ではなく、データ活用にはもっとたくさんの役割が必要です。データ規模の拡大のあとには、データ利用の拡大がやってきます。そしてソフトウェア開発手法の進化にともない、データはますます複雑化していますが、我々はそれに十分に対応できていません。データ構築プロセスは宣言的に記述し、データは「ビルド」する時代になりつつあります。データ活用の発展を止めないためにも、これからも日々新しいやり方を模索し続ける必要があります。
ぜひ一度議論したいという方がいましたら、我々一同、ご連絡をお待ちしております。

毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / Big...

毎月約500万本のクエリが投げられる BigQuery の運用とデータマネジメント / BigQuery and Data Management

Shun Oshidari

More Decks by Shun Oshidari

Other Decks in Programming

Featured

Transcript

1 毎月約500万本のクエリが投げられる BigQueryの運用とデータマネジメント #merpay_techtalk 2021/3/29 Shun Oshidari Data Management Team

2 データマネージャー創設の背景本日お話しすること全社レベルのデータ活用が進んだ先で直面した新たな課題マイクロサービス時代に起こるデータの「細分化」と「サイロ化」 02 03 01

3 データマネージャー創設の背景

4 ソフトウェア業界における役割細分化の流れソフトウェア業界ではここ数年、多くの専門職が新たに生まれてきた。サーバーサイド  フロントエンド  iOS  Android  Unity  React  Vue.js

5 役割細分化の流れは技術職に限らない細分化の流れは非技術職でも起こってきた。 • プロダクトオーナー • カスタマーサクセス • プログラムマネージャー •

6 同じことがデータの現場でも起こり始めているデータエンジニアやデータアナリストもこの 10数年で確立した新しい職種。サーバーサイド  プロダクト  マーケ担当  インフラ  毎回やるのしんどいな

9 “隙間”の例 ① 拡大するデータ利用の管理これまでは「データ規模の拡大」にどう対処するかが課題であったが、これからは「データ利用の拡大」への対処が必要。データ規模データ利用

10 “隙間”の例 ① 拡大するデータ利用の管理弊社におけるデータ利用規模の例（BigQuery） • クエリ発行元ユーザーアカウント → 約 700〜800

11 “隙間”の例 ① 拡大するデータ利用の管理データ基盤に対する負荷は「掛け算」の形で増えているが、問題の本質は技術ではなく、利用側の急拡大をどうマネジメントしていくかにある。データ規模データ利用

15 隙間を埋めるデータマネジメントの取り組み

16 拡大するデータ利用に対する取り組み • Reservations（割り当て）によるリソース割り当ての優先度制御  • INFORMATION_SCHEMA を活用したリソース消費のモニタリングと分析  •

21 “ダメ”なクエリとは  非効率なクエリ  他のユーザーに迷惑をかけるクエリ  他のユーザーに迷惑をかけるクエリとは？   大量のスロットを消費するが、短時間で処理が完了し、  すぐにスロットを解放するクエリ

25 dbt (data build tool) の導入前頁のコンポーネント層は dbt がなければ実現できなかった。すでに100を超える中間テーブルが