Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Analytics Hubを使ったデータシェアリング
Search
hanzawa.yuya
February 21, 2024
0
320
Analytics Hubを使ったデータシェアリング
hanzawa.yuya
February 21, 2024
Tweet
Share
More Decks by hanzawa.yuya
See All by hanzawa.yuya
Next’24 BigQuery recap
yuyahanzawa
0
320
Jagu’e’r Tech Writers Meetup #1
yuyahanzawa
0
610
Featured
See All Featured
Embracing the Ebb and Flow
colly
84
4.5k
Six Lessons from altMBA
skipperchong
27
3.5k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
5 minutes of I Can Smell Your CMS
philhawksworth
202
19k
Music & Morning Musume
bryan
46
6.2k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
Building Applications with DynamoDB
mza
90
6.1k
The Art of Programming - Codeland 2020
erikaheidi
52
13k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Designing the Hi-DPI Web
ddemaree
280
34k
Transcript
Analytics Hubを使ったデータシェアリング 2024-02-21 半澤 祐也 1
2 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
3 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
名前: 半澤 祐也(ハンザワ ユウヤ) 資格: ProはALL Cert Google Cloud Partner
Top Engineer 2024 所属: データアナリティクス事業本部 担当: Google Cloud データエンジニア 4 自己紹介
5 自己紹介:所属チームについて BigQueryを中心にGoogle Cloudのデータ分析サービスを 活用し、クライアントの課題ヒア リングから構築・運用・保守ま で幅広く支援し、データ利活用 を促進しています。
6 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
7 データシェアリングとは データシェアリングとは
8 データシェアリングとは データシェアリングは、データの受け渡しを簡略化し、迅 速な意思決定をサポートする手段です。 また、データの管理を一元化し、管理コストを削減するこ とを目的としています。
9 BigQueryにおけるデータシェアリング BigQueryにおけるデータシェアリングの方法 - テーブルやデータセット単位でアクセス権限を付与 - BigQuery Analytics Hub <-
New
10 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
11 従来の方法 - 参照を許可するユーザーに データセットやテーブルに直接 アクセス権を付与する
12 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
13 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
14 問題点1:権限の管理が複雑になる 例) ユーザーA - 異なるプロジェクトの3つ全ての データセットへのアクセスが許可 されている ユーザーB -
異なるプロジェクトのデータセット 3のみアクセスが許可されている 小規模なデータ分析基盤であれば問題ないかもしれな い...?
15 問題点1:権限の管理が複雑になる - ユーザーやプロジェクト、データセッ トが増えれば増えるほど権限の管 理が困難になる → 本来想定していないユーザーが テーブルを参照できてしまう恐れが 生じる
- 全体像の把握が困難になる。 開発メンバーが入れ替わった際の 引き継ぎ等も困難になる → 管理コストの増大
16 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
17 問題点2:共有データの利用状況の確認が手間 - データアクセス監査ログを確認する必要があった 異なるプロジェクトからクエリが発行された例
18 問題点2:共有データの利用状況の確認が手間 とはいえ・・ - 直接Cloud Loggingから使用状況を確認するのは困難 → Cloud StorageやBigQueryなどにエクスポートし、簡単に確 認できるようにする
→ もちろん料金も手間もかかる・・・
19 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
20 Analytics Hubを使用した方法 BigQuery Analytics Hub とは・・ Google Cloudネイティブのデータシェアリングサービス Google
Cloudの組織内外でのデータ共有を安全かつ迅速 に行うことが可能になった 共有できる最小単位はデータセット
21 Analytics Hubの紹介 パブリッシャー と サブスクライバー - パブリッシャー - データを提供する側
- 共有したいデータをデータセット単位でまとめ、 Google Cloudの組織の内外に公開する - サブスクライバー - データを受け取る側 - パブリッシャーが公開したデータセットを検索し、プロジェクトに追 加する
22 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
23 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
24 前述した問題点1:権限の管理が複雑になる New
25 前述した問題点1:権限の管理が複雑になる - 共有先のプロジェクト毎にデータ セットをまとめる箱(データエクス チェンジ)を作成し、その箱に共有 したデータセットを登録する - サブスクライバー側で必要なデー タセットをサブスクライブし、利用す
る
26 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
27 前述した問題点2:共有データの利用状況の確認が手間 パブリッシャーは共有したデータセット毎に使用状況を確認することが可能
28 他にもこんな良いところが - サブスクライバーによるデータのコピー制限 - 東京と大阪リージョンで利用可能 - (触ったことないけど) -
VPC SCを超えたデータ共有が容易になった - データクリーンルーム(プレビュー)
29 でもお高いんでしょ...? Analytics Hubに関連するサービスは追加料金が発生しません テーブルのストレージ料金と発行したクエリにのみ料金が発生します。 - パブリッシャー - テーブルのストレージ料金 -
サブスクライバー - クエリの料金 - クエリを発行したプロジェクトの料金プランによって決まる - サブスクライブしたデータセットには、ストレージ料金が発生しません
30 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
31 まとめ Analytics HubのおかげでBigQueryにおけるデータシェアリングの 機能が大幅に改善されたと思います 非常に有用で尚且つ使いやすいサービスですので是非ご利用を検 討してみてください
32 Analytics Hubをもっと知りたい方へ
33