$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Analytics Hubを使ったデータシェアリング
Search
hanzawa.yuya
February 21, 2024
0
530
Analytics Hubを使ったデータシェアリング
hanzawa.yuya
February 21, 2024
Tweet
Share
More Decks by hanzawa.yuya
See All by hanzawa.yuya
Next’24 BigQuery recap
yuyahanzawa
0
460
Jagu’e’r Tech Writers Meetup #1
yuyahanzawa
0
820
Featured
See All Featured
Digital Ethics as a Driver of Design Innovation
axbom
PRO
0
130
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
115
93k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
57
39k
Designing for Timeless Needs
cassininazir
0
93
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
28
Design in an AI World
tapps
0
100
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
580
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
Scaling GitHub
holman
464
140k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
510
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
170
Transcript
Analytics Hubを使ったデータシェアリング 2024-02-21 半澤 祐也 1
2 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
3 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
名前: 半澤 祐也(ハンザワ ユウヤ) 資格: ProはALL Cert Google Cloud Partner
Top Engineer 2024 所属: データアナリティクス事業本部 担当: Google Cloud データエンジニア 4 自己紹介
5 自己紹介:所属チームについて BigQueryを中心にGoogle Cloudのデータ分析サービスを 活用し、クライアントの課題ヒア リングから構築・運用・保守ま で幅広く支援し、データ利活用 を促進しています。
6 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
7 データシェアリングとは データシェアリングとは
8 データシェアリングとは データシェアリングは、データの受け渡しを簡略化し、迅 速な意思決定をサポートする手段です。 また、データの管理を一元化し、管理コストを削減するこ とを目的としています。
9 BigQueryにおけるデータシェアリング BigQueryにおけるデータシェアリングの方法 - テーブルやデータセット単位でアクセス権限を付与 - BigQuery Analytics Hub <-
New
10 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
11 従来の方法 - 参照を許可するユーザーに データセットやテーブルに直接 アクセス権を付与する
12 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
13 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
14 問題点1:権限の管理が複雑になる 例) ユーザーA - 異なるプロジェクトの3つ全ての データセットへのアクセスが許可 されている ユーザーB -
異なるプロジェクトのデータセット 3のみアクセスが許可されている 小規模なデータ分析基盤であれば問題ないかもしれな い...?
15 問題点1:権限の管理が複雑になる - ユーザーやプロジェクト、データセッ トが増えれば増えるほど権限の管 理が困難になる → 本来想定していないユーザーが テーブルを参照できてしまう恐れが 生じる
- 全体像の把握が困難になる。 開発メンバーが入れ替わった際の 引き継ぎ等も困難になる → 管理コストの増大
16 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
17 問題点2:共有データの利用状況の確認が手間 - データアクセス監査ログを確認する必要があった 異なるプロジェクトからクエリが発行された例
18 問題点2:共有データの利用状況の確認が手間 とはいえ・・ - 直接Cloud Loggingから使用状況を確認するのは困難 → Cloud StorageやBigQueryなどにエクスポートし、簡単に確 認できるようにする
→ もちろん料金も手間もかかる・・・
19 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
20 Analytics Hubを使用した方法 BigQuery Analytics Hub とは・・ Google Cloudネイティブのデータシェアリングサービス Google
Cloudの組織内外でのデータ共有を安全かつ迅速 に行うことが可能になった 共有できる最小単位はデータセット
21 Analytics Hubの紹介 パブリッシャー と サブスクライバー - パブリッシャー - データを提供する側
- 共有したいデータをデータセット単位でまとめ、 Google Cloudの組織の内外に公開する - サブスクライバー - データを受け取る側 - パブリッシャーが公開したデータセットを検索し、プロジェクトに追 加する
22 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
23 前述した問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
24 前述した問題点1:権限の管理が複雑になる New
25 前述した問題点1:権限の管理が複雑になる - 共有先のプロジェクト毎にデータ セットをまとめる箱(データエクス チェンジ)を作成し、その箱に共有 したデータセットを登録する - サブスクライバー側で必要なデー タセットをサブスクライブし、利用す
る
26 従来の方法の問題点 - 問題点1 権限の管理が複雑になる - 問題点2 共有データの利用状況の確認が手間
27 前述した問題点2:共有データの利用状況の確認が手間 パブリッシャーは共有したデータセット毎に使用状況を確認することが可能
28 他にもこんな良いところが - サブスクライバーによるデータのコピー制限 - 東京と大阪リージョンで利用可能 - (触ったことないけど) -
VPC SCを超えたデータ共有が容易になった - データクリーンルーム(プレビュー)
29 でもお高いんでしょ...? Analytics Hubに関連するサービスは追加料金が発生しません テーブルのストレージ料金と発行したクエリにのみ料金が発生します。 - パブリッシャー - テーブルのストレージ料金 -
サブスクライバー - クエリの料金 - クエリを発行したプロジェクトの料金プランによって決まる - サブスクライブしたデータセットには、ストレージ料金が発生しません
30 目次 • 自己紹介 • データシェアリングとは • 従来の方法 • Analytics
Hubを使った方法 • まとめ
31 まとめ Analytics HubのおかげでBigQueryにおけるデータシェアリングの 機能が大幅に改善されたと思います 非常に有用で尚且つ使いやすいサービスですので是非ご利用を検 討してみてください
32 Analytics Hubをもっと知りたい方へ
33