Analytics Hubを使ったデータシェアリング
by
hanzawa.yuya
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
Analytics Hubを使ったデータシェアリング 2024-02-21 半澤 祐也 1
Slide 2
Slide 2 text
2 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ
Slide 3
Slide 3 text
3 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ
Slide 4
Slide 4 text
名前: 半澤 祐也(ハンザワ ユウヤ) 資格: ProはALL Cert Google Cloud Partner Top Engineer 2024 所属: データアナリティクス事業本部 担当: Google Cloud データエンジニア 4 自己紹介
Slide 5
Slide 5 text
5 自己紹介:所属チームについて BigQueryを中心にGoogle Cloudのデータ分析サービスを 活用し、クライアントの課題ヒア リングから構築・運用・保守ま で幅広く支援し、データ利活用 を促進しています。
Slide 6
Slide 6 text
6 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ
Slide 7
Slide 7 text
7 データシェアリングとは データシェアリングとは
Slide 8
Slide 8 text
8 データシェアリングとは データシェアリングは、データの受け渡しを簡略化し、迅 速な意思決定をサポートする手段です。 また、データの管理を一元化し、管理コストを削減するこ とを目的としています。
Slide 9
Slide 9 text
9 BigQueryにおけるデータシェアリング BigQueryにおけるデータシェアリングの方法 - テーブルやデータセット単位でアクセス権限を付与 - BigQuery Analytics Hub <- New
Slide 10
Slide 10 text
10 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics Hubを使った方法 • まとめ
Slide 11
Slide 11 text
11 従来の方法 - 参照を許可するユーザーに データセットやテーブルに直接 アクセス権を付与する
Slide 12
Slide 12 text
12 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 13
Slide 13 text
13 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 14
Slide 14 text
14 問題点1:権限の管理が複雑になる 例) ユーザーA - 異なるプロジェクトの3つ全ての データセットへのアクセスが許可 されている ユーザーB - 異なるプロジェクトのデータセット 3のみアクセスが許可されている 小規模なデータ分析基盤であれば問題ないかもしれな い...?
Slide 15
Slide 15 text
15 問題点1:権限の管理が複雑になる - ユーザーやプロジェクト、データセッ トが増えれば増えるほど権限の管 理が困難になる → 本来想定していないユーザーが テーブルを参照できてしまう恐れが 生じる - 全体像の把握が困難になる。 開発メンバーが入れ替わった際の 引き継ぎ等も困難になる → 管理コストの増大
Slide 16
Slide 16 text
16 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 17
Slide 17 text
17 問題点2:共有データの利用状況の確認が手間 - データアクセス監査ログを確認する必要があった 異なるプロジェクトからクエリが発行された例
Slide 18
Slide 18 text
18 問題点2:共有データの利用状況の確認が手間 とはいえ・・ - 直接Cloud Loggingから使用状況を確認するのは困難 → Cloud StorageやBigQueryなどにエクスポートし、簡単に確 認できるようにする → もちろん料金も手間もかかる・・・
Slide 19
Slide 19 text
19 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ
Slide 20
Slide 20 text
20 Analytics Hubを使用した方法 BigQuery Analytics Hub とは・・ Google Cloudネイティブのデータシェアリングサービス Google Cloudの組織内外でのデータ共有を安全かつ迅速 に行うことが可能になった 共有できる最小単位はデータセット
Slide 21
Slide 21 text
21 Analytics Hubの紹介 パブリッシャー と サブスクライバー - パブリッシャー - データを提供する側 - 共有したいデータをデータセット単位でまとめ、 Google Cloudの組織の内外に公開する - サブスクライバー - データを受け取る側 - パブリッシャーが公開したデータセットを検索し、プロジェクトに追 加する
Slide 22
Slide 22 text
22 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 23
Slide 23 text
23 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 24
Slide 24 text
24 前述した問題点1:権限の管理が複雑になる New
Slide 25
Slide 25 text
25 前述した問題点1:権限の管理が複雑になる - 共有先のプロジェクト毎にデータ セットをまとめる箱(データエクス チェンジ)を作成し、その箱に共有 したデータセットを登録する - サブスクライバー側で必要なデー タセットをサブスクライブし、利用す る
Slide 26
Slide 26 text
26 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
Slide 27
Slide 27 text
27 前述した問題点2:共有データの利用状況の確認が手間 パブリッシャーは共有したデータセット毎に使用状況を確認することが可能
Slide 28
Slide 28 text
28 他にもこんな良いところが - サブスクライバーによるデータのコピー制限 - 東京と大阪リージョンで利用可能 - (触ったことないけど) - VPC SCを超えたデータ共有が容易になった - データクリーンルーム(プレビュー)
Slide 29
Slide 29 text
29 でもお高いんでしょ...? Analytics Hubに関連するサービスは追加料金が発生しません テーブルのストレージ料金と発行したクエリにのみ料金が発生します。 - パブリッシャー - テーブルのストレージ料金 - サブスクライバー - クエリの料金 - クエリを発行したプロジェクトの料金プランによって決まる - サブスクライブしたデータセットには、ストレージ料金が発生しません
Slide 30
Slide 30 text
30 目次 ● 自己紹介 ● データシェアリングとは ● 従来の方法 ● Analytics Hubを使った方法 ● まとめ
Slide 31
Slide 31 text
31 まとめ Analytics HubのおかげでBigQueryにおけるデータシェアリングの 機能が大幅に改善されたと思います 非常に有用で尚且つ使いやすいサービスですので是非ご利用を検 討してみてください
Slide 32
Slide 32 text
32 Analytics Hubをもっと知りたい方へ
Slide 33
Slide 33 text
33