Analytics Hubを使ったデータシェアリング
by
hanzawa.yuya
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
Analytics Hubを使ったデータシェアリング 2024-02-21 半澤 祐也 1
Slide 2
Slide 2 text
2 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ
Slide 3
Slide 3 text
3 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ
Slide 4
Slide 4 text
名前: 半澤 祐也(ハンザワ ユウヤ) 資格: ProはALL Cert Google Cloud Partner Top Engineer 2024 所属: データアナリティクス事業本部 担当: Google Cloud データエンジニア 4 自己紹介
Slide 5
Slide 5 text
5 自己紹介:所属チームについて BigQueryを中心にGoogle Cloudのデータ分析サービスを 活用し、クライアントの課題ヒア リングから構築・運用・保守ま で幅広く支援し、データ利活用 を促進しています。
Slide 6
Slide 6 text
6 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ
Slide 7
Slide 7 text
7 データシェアリングとは データシェアリングとは
Slide 8
Slide 8 text
8 データシェアリングとは データシェアリングは、データの受け渡しを簡略化し、迅 速な意思決定をサポートする手段です。 また、データの管理を一元化し、管理コストを削減するこ とを目的としています。
Slide 9
Slide 9 text
9 BigQueryにおけるデータシェアリング BigQueryにおけるデータシェアリングの方法 - テーブルやデータセット単位でアクセス権限を付与 - BigQuery Analytics Hub <- New
Slide 10
Slide 10 text
10 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ
Slide 11
Slide 11 text
11 従来の方法 - 参照を許可するユーザーに データセットやテーブルに直接 アクセス権を付与する
Slide 12
Slide 12 text
12 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 13
Slide 13 text
13 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 14
Slide 14 text
14 問題点1:権限の管理が複雑になる 例) ユーザーA - 異なるプロジェクトの3つ全ての データセットへのアクセスが許可 されている ユーザーB - 異なるプロジェクトのデータセット 3のみアクセスが許可されている 小規模なデータ分析基盤であれば問題ないかもしれな い...?
Slide 15
Slide 15 text
15 問題点1:権限の管理が複雑になる - ユーザーやプロジェクト、データセッ トが増えれば増えるほど権限の管 理が困難になる → 本来想定していないユーザーが テーブルを参照できてしまう恐れが 生じる - 全体像の把握が困難になる。 開発メンバーが入れ替わった際の 引き継ぎ等も困難になる → 管理コストの増大
Slide 16
Slide 16 text
16 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 17
Slide 17 text
17 問題点2:共有データの利用状況の確認が手間 - データアクセス監査ログを確認する必要があった 異なるプロジェクトからクエリが発行された例
Slide 18
Slide 18 text
18 問題点2:共有データの利用状況の確認が手間 とはいえ・・ - 直接Cloud Loggingから使用状況を確認するのは困難 → Cloud StorageやBigQueryなどにエクスポートし、簡単に確 認できるようにする → もちろん料金も手間もかかる・・・
Slide 19
Slide 19 text
19 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ
Slide 20
Slide 20 text
20 Analytics Hubを使用した方法 BigQuery Analytics Hub とは・・ Google Cloudネイティブのデータシェアリングサービス Google Cloudの組織内外でのデータ共有を安全かつ迅速 に行うことが可能になった 共有できる最小単位はデータセット
Slide 21
Slide 21 text
21 Analytics Hubの紹介 パブリッシャー と サブスクライバー - パブリッシャー - データを提供する側 - 共有したいデータをデータセット単位でまとめ、 Google Cloudの組織の内外に公開する - サブスクライバー - データを受け取る側 - パブリッシャーが公開したデータセットを検索し、プロジェクトに追 加する
Slide 22
Slide 22 text
22 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 23
Slide 23 text
23 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 24
Slide 24 text
24 前述した問題点1:権限の管理が複雑になる New
Slide 25
Slide 25 text
25 前述した問題点1:権限の管理が複雑になる - 共有先のプロジェクト毎にデータ セットをまとめる箱(データエクス チェンジ)を作成し、その箱に共有 したデータセットを登録する - サブスクライバー側で必要なデー タセットをサブスクライブし、利用す る
Slide 26
Slide 26 text
26 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 27
Slide 27 text
27 前述した問題点2:共有データの利用状況の確認が手間 パブリッシャーは共有したデータセット毎に使用状況を確認することが可能
Slide 28
Slide 28 text
28 他にもこんな良いところが - サブスクライバーによるデータのコピー制限 - 東京と大阪リージョンで利用可能 - (触ったことないけど) - VPC SCを超えたデータ共有が容易になった - データクリーンルーム(プレビュー)
Slide 29
Slide 29 text
29 でもお高いんでしょ...? Analytics Hubに関連するサービスは追加料金が発生しません テーブルのストレージ料金と発行したクエリにのみ料金が発生します。 - パブリッシャー - テーブルのストレージ料金 - サブスクライバー - クエリの料金 - クエリを発行したプロジェクトの料金プランによって決まる - サブスクライブしたデータセットには、ストレージ料金が発生しません
Slide 30
Slide 30 text
30 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ
Slide 31
Slide 31 text
31 まとめ Analytics HubのおかげでBigQueryにおけるデータシェアリングの 機能が大幅に改善されたと思います 非常に有用で尚且つ使いやすいサービスですので是非ご利用を検 討してみてください
Slide 32
Slide 32 text
32 Analytics Hubをもっと知りたい方へ
Slide 33
Slide 33 text
33