Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Analytics Hubを使ったデータシェアリング
Search
hanzawa.yuya
February 21, 2024
0
390
Analytics Hubを使ったデータシェアリング
hanzawa.yuya
February 21, 2024
Tweet
Share
More Decks by hanzawa.yuya
See All by hanzawa.yuya
Next’24 BigQuery recap
yuyahanzawa
0
360
Jagu’e’r Tech Writers Meetup #1
yuyahanzawa
0
680
Featured
See All Featured
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
The World Runs on Bad Software
bkeepers
PRO
67
11k
Building Applications with DynamoDB
mza
93
6.2k
Designing for Performance
lara
604
68k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.6k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Visualization
eitanlees
146
15k
Git: the NoSQL Database
bkeepers
PRO
427
64k
Documentation Writing (for coders)
carmenintech
67
4.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
193
16k
Typedesign – Prime Four
hannesfritz
40
2.5k
Transcript
Analytics Hubを使ったデータシェアリング 2024-02-21 半澤 祐也 1
2 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
3 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
名前: 半澤 祐也(ハンザワ ユウヤ) 資格: ProはALL Cert Google Cloud Partner
Top Engineer 2024 所属: データアナリティクス事業本部 担当: Google Cloud データエンジニア 4 自己紹介
5 自己紹介:所属チームについて BigQueryを中心にGoogle Cloudのデータ分析サービスを 活用し、クライアントの課題ヒア リングから構築・運用・保守ま で幅広く支援し、データ利活用 を促進しています。
6 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
7 データシェアリングとは データシェアリングとは
8 データシェアリングとは データシェアリングは、データの受け渡しを簡略化し、迅 速な意思決定をサポートする手段です。 また、データの管理を一元化し、管理コストを削減するこ とを目的としています。
9 BigQueryにおけるデータシェアリング BigQueryにおけるデータシェアリングの方法 - テーブルやデータセット単位でアクセス権限を付与 - BigQuery Analytics Hub <-
New
10 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
11 従来の方法 - 参照を許可するユーザーに データセットやテーブルに直接 アクセス権を付与する
12 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
13 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
14 問題点1:権限の管理が複雑になる 例) ユーザーA - 異なるプロジェクトの3つ全ての データセットへのアクセスが許可 されている ユーザーB -
異なるプロジェクトのデータセット 3のみアクセスが許可されている 小規模なデータ分析基盤であれば問題ないかもしれな い...?
15 問題点1:権限の管理が複雑になる - ユーザーやプロジェクト、データセッ トが増えれば増えるほど権限の管 理が困難になる → 本来想定していないユーザーが テーブルを参照できてしまう恐れが 生じる
- 全体像の把握が困難になる。 開発メンバーが入れ替わった際の 引き継ぎ等も困難になる → 管理コストの増大
16 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
17 問題点2:共有データの利用状況の確認が手間 - データアクセス監査ログを確認する必要があった 異なるプロジェクトからクエリが発行された例
18 問題点2:共有データの利用状況の確認が手間 とはいえ・・ - 直接Cloud Loggingから使用状況を確認するのは困難 → Cloud StorageやBigQueryなどにエクスポートし、簡単に確 認できるようにする
→ もちろん料金も手間もかかる・・・
19 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
20 Analytics Hubを使用した方法 BigQuery Analytics Hub とは・・ Google Cloudネイティブのデータシェアリングサービス Google
Cloudの組織内外でのデータ共有を安全かつ迅速 に行うことが可能になった 共有できる最小単位はデータセット
21 Analytics Hubの紹介 パブリッシャー と サブスクライバー - パブリッシャー - データを提供する側
- 共有したいデータをデータセット単位でまとめ、 Google Cloudの組織の内外に公開する - サブスクライバー - データを受け取る側 - パブリッシャーが公開したデータセットを検索し、プロジェクトに追 加する
22 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
23 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
24 前述した問題点1:権限の管理が複雑になる New
25 前述した問題点1:権限の管理が複雑になる - 共有先のプロジェクト毎にデータ セットをまとめる箱(データエクス チェンジ)を作成し、その箱に共有 したデータセットを登録する - サブスクライバー側で必要なデー タセットをサブスクライブし、利用す
る
26 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
27 前述した問題点2:共有データの利用状況の確認が手間 パブリッシャーは共有したデータセット毎に使用状況を確認することが可能
28 他にもこんな良いところが - サブスクライバーによるデータのコピー制限 - 東京と大阪リージョンで利用可能 - (触ったことないけど) -
VPC SCを超えたデータ共有が容易になった - データクリーンルーム(プレビュー)
29 でもお高いんでしょ...? Analytics Hubに関連するサービスは追加料金が発生しません テーブルのストレージ料金と発行したクエリにのみ料金が発生します。 - パブリッシャー - テーブルのストレージ料金 -
サブスクライバー - クエリの料金 - クエリを発行したプロジェクトの料金プランによって決まる - サブスクライブしたデータセットには、ストレージ料金が発生しません
30 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
31 まとめ Analytics HubのおかげでBigQueryにおけるデータシェアリングの 機能が大幅に改善されたと思います 非常に有用で尚且つ使いやすいサービスですので是非ご利用を検 討してみてください
32 Analytics Hubをもっと知りたい方へ
33