Slide 1

Slide 1 text

Analytics Hubを使ったデータシェアリング
 
 2024-02-21
 半澤 祐也
 1

Slide 2

Slide 2 text

2 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ

Slide 3

Slide 3 text

3 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ

Slide 4

Slide 4 text

名前: 半澤 祐也(ハンザワ ユウヤ) 資格: ProはALL Cert Google Cloud Partner Top Engineer 2024 所属: データアナリティクス事業本部 担当: Google Cloud データエンジニア 4 自己紹介

Slide 5

Slide 5 text

5 自己紹介:所属チームについて BigQueryを中心にGoogle Cloudのデータ分析サービスを 活用し、クライアントの課題ヒア リングから構築・運用・保守ま で幅広く支援し、データ利活用 を促進しています。

Slide 6

Slide 6 text

6 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ

Slide 7

Slide 7 text

7 データシェアリングとは データシェアリングとは

Slide 8

Slide 8 text

8 データシェアリングとは データシェアリングは、データの受け渡しを簡略化し、迅 速な意思決定をサポートする手段です。 また、データの管理を一元化し、管理コストを削減するこ とを目的としています。

Slide 9

Slide 9 text

9 BigQueryにおけるデータシェアリング BigQueryにおけるデータシェアリングの方法 - テーブルやデータセット単位でアクセス権限を付与 - BigQuery Analytics Hub <- New

Slide 10

Slide 10 text

10 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ

Slide 11

Slide 11 text

11 従来の方法 - 参照を許可するユーザーに データセットやテーブルに直接 アクセス権を付与する


Slide 12

Slide 12 text

12 従来の方法の問題点 - 問題点1
 権限の管理が複雑になる
 
 
 - 問題点2
 共有データの利用状況の確認が手間
 
 


Slide 13

Slide 13 text

13 従来の方法の問題点 - 問題点1
 権限の管理が複雑になる
 
 
 - 問題点2
 共有データの利用状況の確認が手間
 
 


Slide 14

Slide 14 text

14 問題点1:権限の管理が複雑になる 例) ユーザーA - 異なるプロジェクトの3つ全ての データセットへのアクセスが許可 されている ユーザーB - 異なるプロジェクトのデータセット 3のみアクセスが許可されている 小規模なデータ分析基盤であれば問題ないかもしれな い...?

Slide 15

Slide 15 text

15 問題点1:権限の管理が複雑になる - ユーザーやプロジェクト、データセッ トが増えれば増えるほど権限の管 理が困難になる → 本来想定していないユーザーが テーブルを参照できてしまう恐れが 生じる - 全体像の把握が困難になる。 開発メンバーが入れ替わった際の 引き継ぎ等も困難になる → 管理コストの増大

Slide 16

Slide 16 text

16 従来の方法の問題点 - 問題点1
 権限の管理が複雑になる
 
 
 - 問題点2
 共有データの利用状況の確認が手間
 
 


Slide 17

Slide 17 text

17 問題点2:共有データの利用状況の確認が手間 - データアクセス監査ログを確認する必要があった 異なるプロジェクトからクエリが発行された例

Slide 18

Slide 18 text

18 問題点2:共有データの利用状況の確認が手間 とはいえ・・ - 直接Cloud Loggingから使用状況を確認するのは困難 → Cloud StorageやBigQueryなどにエクスポートし、簡単に確 認できるようにする → もちろん料金も手間もかかる・・・

Slide 19

Slide 19 text

19 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ

Slide 20

Slide 20 text

20 Analytics Hubを使用した方法 BigQuery Analytics Hub とは・・ Google Cloudネイティブのデータシェアリングサービス Google Cloudの組織内外でのデータ共有を安全かつ迅速 に行うことが可能になった 共有できる最小単位はデータセット

Slide 21

Slide 21 text

21 Analytics Hubの紹介 パブリッシャー と サブスクライバー - パブリッシャー - データを提供する側 - 共有したいデータをデータセット単位でまとめ、 Google Cloudの組織の内外に公開する - サブスクライバー - データを受け取る側 - パブリッシャーが公開したデータセットを検索し、プロジェクトに追 加する

Slide 22

Slide 22 text

22 前述した問題点 - 問題点1
 権限の管理が複雑になる
 
 
 - 問題点2
 共有データの利用状況の確認が手間
 
 


Slide 23

Slide 23 text

23 前述した問題点 - 問題点1
 権限の管理が複雑になる
 
 
 - 問題点2
 共有データの利用状況の確認が手間
 
 


Slide 24

Slide 24 text

24 前述した問題点1:権限の管理が複雑になる New

Slide 25

Slide 25 text

25 前述した問題点1:権限の管理が複雑になる - 共有先のプロジェクト毎にデータ セットをまとめる箱(データエクス チェンジ)を作成し、その箱に共有 したデータセットを登録する - サブスクライバー側で必要なデー タセットをサブスクライブし、利用す る

Slide 26

Slide 26 text

26 従来の方法の問題点 - 問題点1
 権限の管理が複雑になる
 
 
 - 問題点2
 共有データの利用状況の確認が手間
 
 


Slide 27

Slide 27 text

27 前述した問題点2:共有データの利用状況の確認が手間 パブリッシャーは共有したデータセット毎に使用状況を確認することが可能

Slide 28

Slide 28 text

28 他にもこんな良いところが - サブスクライバーによるデータのコピー制限
 - 東京と大阪リージョンで利用可能
 
 - (触ったことないけど)
 - VPC SCを超えたデータ共有が容易になった
 - データクリーンルーム(プレビュー)
 
 


Slide 29

Slide 29 text

29 でもお高いんでしょ...? Analytics Hubに関連するサービスは追加料金が発生しません テーブルのストレージ料金と発行したクエリにのみ料金が発生します。 - パブリッシャー - テーブルのストレージ料金 - サブスクライバー - クエリの料金 - クエリを発行したプロジェクトの料金プランによって決まる - サブスクライブしたデータセットには、ストレージ料金が発生しません 


Slide 30

Slide 30 text

30 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ

Slide 31

Slide 31 text

31 まとめ Analytics HubのおかげでBigQueryにおけるデータシェアリングの 機能が大幅に改善されたと思います 非常に有用で尚且つ使いやすいサービスですので是非ご利用を検 討してみてください
 


Slide 32

Slide 32 text

32 Analytics Hubをもっと知りたい方へ

Slide 33

Slide 33 text

33