Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Analytics Hubを使ったデータシェアリング
Search
hanzawa.yuya
February 21, 2024
0
380
Analytics Hubを使ったデータシェアリング
hanzawa.yuya
February 21, 2024
Tweet
Share
More Decks by hanzawa.yuya
See All by hanzawa.yuya
Next’24 BigQuery recap
yuyahanzawa
0
350
Jagu’e’r Tech Writers Meetup #1
yuyahanzawa
0
650
Featured
See All Featured
Being A Developer After 40
akosma
89
590k
How to train your dragon (web standard)
notwaldorf
89
5.8k
Producing Creativity
orderedlist
PRO
343
39k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
A Philosophy of Restraint
colly
203
16k
Side Projects
sachag
452
42k
Optimising Largest Contentful Paint
csswizardry
33
3k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
How GitHub (no longer) Works
holman
312
140k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.4k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.3k
Transcript
Analytics Hubを使ったデータシェアリング 2024-02-21 半澤 祐也 1
2 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
3 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
名前: 半澤 祐也(ハンザワ ユウヤ) 資格: ProはALL Cert Google Cloud Partner
Top Engineer 2024 所属: データアナリティクス事業本部 担当: Google Cloud データエンジニア 4 自己紹介
5 自己紹介:所属チームについて BigQueryを中心にGoogle Cloudのデータ分析サービスを 活用し、クライアントの課題ヒア リングから構築・運用・保守ま で幅広く支援し、データ利活用 を促進しています。
6 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
7 データシェアリングとは データシェアリングとは
8 データシェアリングとは データシェアリングは、データの受け渡しを簡略化し、迅 速な意思決定をサポートする手段です。 また、データの管理を一元化し、管理コストを削減するこ とを目的としています。
9 BigQueryにおけるデータシェアリング BigQueryにおけるデータシェアリングの方法 - テーブルやデータセット単位でアクセス権限を付与 - BigQuery Analytics Hub <-
New
10 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
11 従来の方法 - 参照を許可するユーザーに データセットやテーブルに直接 アクセス権を付与する
12 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
13 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
14 問題点1:権限の管理が複雑になる 例) ユーザーA - 異なるプロジェクトの3つ全ての データセットへのアクセスが許可 されている ユーザーB -
異なるプロジェクトのデータセット 3のみアクセスが許可されている 小規模なデータ分析基盤であれば問題ないかもしれな い...?
15 問題点1:権限の管理が複雑になる - ユーザーやプロジェクト、データセッ トが増えれば増えるほど権限の管 理が困難になる → 本来想定していないユーザーが テーブルを参照できてしまう恐れが 生じる
- 全体像の把握が困難になる。 開発メンバーが入れ替わった際の 引き継ぎ等も困難になる → 管理コストの増大
16 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
17 問題点2:共有データの利用状況の確認が手間 - データアクセス監査ログを確認する必要があった 異なるプロジェクトからクエリが発行された例
18 問題点2:共有データの利用状況の確認が手間 とはいえ・・ - 直接Cloud Loggingから使用状況を確認するのは困難 → Cloud StorageやBigQueryなどにエクスポートし、簡単に確 認できるようにする
→ もちろん料金も手間もかかる・・・
19 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
20 Analytics Hubを使用した方法 BigQuery Analytics Hub とは・・ Google Cloudネイティブのデータシェアリングサービス Google
Cloudの組織内外でのデータ共有を安全かつ迅速 に行うことが可能になった 共有できる最小単位はデータセット
21 Analytics Hubの紹介 パブリッシャー と サブスクライバー - パブリッシャー - データを提供する側
- 共有したいデータをデータセット単位でまとめ、 Google Cloudの組織の内外に公開する - サブスクライバー - データを受け取る側 - パブリッシャーが公開したデータセットを検索し、プロジェクトに追 加する
22 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
23 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
24 前述した問題点1:権限の管理が複雑になる New
25 前述した問題点1:権限の管理が複雑になる - 共有先のプロジェクト毎にデータ セットをまとめる箱(データエクス チェンジ)を作成し、その箱に共有 したデータセットを登録する - サブスクライバー側で必要なデー タセットをサブスクライブし、利用す
る
26 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
27 前述した問題点2:共有データの利用状況の確認が手間 パブリッシャーは共有したデータセット毎に使用状況を確認することが可能
28 他にもこんな良いところが - サブスクライバーによるデータのコピー制限 - 東京と大阪リージョンで利用可能 - (触ったことないけど) -
VPC SCを超えたデータ共有が容易になった - データクリーンルーム(プレビュー)
29 でもお高いんでしょ...? Analytics Hubに関連するサービスは追加料金が発生しません テーブルのストレージ料金と発行したクエリにのみ料金が発生します。 - パブリッシャー - テーブルのストレージ料金 -
サブスクライバー - クエリの料金 - クエリを発行したプロジェクトの料金プランによって決まる - サブスクライブしたデータセットには、ストレージ料金が発生しません
30 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
31 まとめ Analytics HubのおかげでBigQueryにおけるデータシェアリングの 機能が大幅に改善されたと思います 非常に有用で尚且つ使いやすいサービスですので是非ご利用を検 討してみてください
32 Analytics Hubをもっと知りたい方へ
33