Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
DevelopersIO2023「Amazon DataZoneを触ってみた」
Search
suto
July 25, 2023
Technology
1.7k
0
Share
DevelopersIO2023「Amazon DataZoneを触ってみた」
Developers.IO 2023で発表した資料です
suto
July 25, 2023
More Decks by suto
See All by suto
モダンデータスタック (MDS) の話とデータ分析が起こすビジネス変革
sutotakeshi
0
1.4k
re:Growth2022「Analytics系アップデートまとめ」
sutotakeshi
0
840
OSSデータカタログツール「DataHub」を触ってみた
sutotakeshi
0
6.2k
Glue DataBrewでデータを クリーニング、加工してみよう
sutotakeshi
0
10k
Other Decks in Technology
See All in Technology
Strands Agents超入門
kintotechdev
1
130
Cloud Run のアップデート 触ってみる&紹介
gre212
0
200
20260528_生成AIを専属DSに_Howの次にすべきことを考える
doradora09
PRO
0
230
形式手法特論:公平性制約の位相的特徴づけ #kernelvm / Kernel VM Study Kansai 12th
ytaka23
1
530
long-running-tasks
cipepser
2
430
Java正規表現エンジン(NFA)の仕組みと パフォーマンスを維持するための最適化手法
takeuchi_132917
0
130
脅威をエンジニアリングの糧にして:恐怖を乗り越えた先にあったもの / Turn threats into fuel for engineering: what lay beyond overcoming fear
nrslib
1
330
まだ道半ば、AI-DLCを歩み始めている話
news_it_enj
2
210
データ基盤構築・運用の現場から 〜 Snowflake Intelligence 導入で変わった、データ活用の未来 〜
wonohe
0
210
Typiaで配信JSONの安全性を構造的に担保する(TSKaigi2026)
righttouch
PRO
1
190
GitHub Copilot CLI の Rubber Duck 機能を使ってコーディングの品質をあげよう #techbaton_findy
stefafafan
2
1.2k
なぜハノーバーメッセに行くべきなのか 〜初参加だから語れること〜
tanakaseiya
0
160
Featured
See All Featured
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
The Limits of Empathy - UXLibs8
cassininazir
1
340
A designer walks into a library…
pauljervisheath
211
24k
Leveraging Curiosity to Care for An Aging Population
cassininazir
1
250
The Power of CSS Pseudo Elements
geoffreycrofte
82
6.3k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
270
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
330
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
220
AI: The stuff that nobody shows you
jnunemaker
PRO
7
660
Raft: Consensus for Rubyists
vanstee
141
7.4k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
820
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Transcript
Amazon DataZoneを触ってみた 2023/7/25 データアナリティクス事業本部 須藤健志
話すこと・話さないこと 2 話すこと ・Amazon DataZone(DataZone)の概要 ・DataZoneの持つ機能とその使い方 ・実際に触ってみたメリット 話さないこと ・DataZoneの具体的な操作手順 ・
DataZone以外のデータカタログツールや製品の概要
紹介内容について 2023/07/03時点の パブリックプレビュー段階の情報 を元に作成しています 3
自己紹介 4 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤のコンサル・構築を担当] Blog
https://dev.classmethod.jp/author/suto-takeshi/ Twitter @metronom9145 好きなAWSサービス Glue DataBrew、CDK 2023 APN AWS Top Engineers (Analytics) , 2023 APN ALL AWS Certifications Engineers 選出
アジェンダ 5 1. DataZoneの概要 2. DataZoneが持つ機能と構造 3. DataZoneのアクセスポリシー 4. DataZoneのメリット
5. まとめ
Amazon DataZoneの概要 6 データのカタログ化、発見、共有、分析を可能にする データ管理サービス •あらゆるデータソースのメタデータ(データアセット)をカタログに登 録し、データを発見しやすくする •登録したデータを共有して組織間のデータ連携と分析を加速 • 上記を行う上でガバナンスを効かせながら運用と管理が可能
※プレビュー中は料金は発生しませんが、GA後は料金が発生します
DataZoneコンソール画面 7
DataZoneポータル画面 8
01 DataZoneが持つ機能と構造
Amazon DataZoneの構造 10
Amazon DataZoneの持つ機能 11 データカタログ •データパブリッシャーは自身の管理するデータアセットを登録することで、 カタログ画面で検索できる
Amazon DataZoneの持つ機能 12 データガバナンス •ドメインにおける各ロールを持つユーザーを設定 ・データ管理者:ドメイン全体の管理者 ・データスチュワード:プロジェクト管理者、データ共有操作の承認者 ・パブリッシャー:データアセットをカタログに登録 ・サブスクライバー:データアセットを検索、分析したいユーザー
Amazon DataZoneの持つ機能 13 データガバナンス •ドメインにおける各ロールを持つユーザーを設定
Amazon DataZoneの持つ機能 14 データガバナンス •プロジェクト単位におけるメンバーの持つユーザー権限 ・Viewer:データアセットを閲覧できる読み取り専用ユーザー (IAMロール:datazone-usr-v-proj-〜) ・Contributer:データアセットの編集やパブリッシュ実行が可能 (IAMロール:datazone-usr-c-proj-〜) ・Owner:プロジェクトに関する操作全般が可能
( IAMロール:datazone-usr-o-proj-〜 )
Amazon DataZoneの持つ機能 15 データガバナンス •プロジェクト単位におけるメンバーの持つユーザー権限
Amazon DataZoneの持つ機能 16 プロジェクトプロファイル •プロジェクト作成において必要なリソース構成のテンプレート ・データソースとして取り込むデータの種類(S3、Athena、Glue) ・データ暗号化に使用するKMSキー ・プロジェクトに紐づくS3バケット、Glueデータベース名、 Athenaワークグループなど
Amazon DataZoneの持つ機能 17 プロジェクトプロファイル
Amazon DataZoneの持つ機能 18 データの共有と分析 •パブリッシャーがパブリッシュジョブでデータアセット追加 •追加したデータアセットはサブスクライブできる •データアセットはプロジェクトメンバーのIAMロールが持つ権限でAthena 画面に移動して分析が可能
Amazon DataZoneの持つ機能 19 データの共有と分析
Amazon DataZoneの持つ機能 20 データの共有と分析 ※IAMロール作成後に追加したデータソースへの権限はポリシーに手動追加が必要
Amazon DataZoneの持つ機能 21 データアセットのパブリッシュの流れ •プロジェクト画面から「PUBRISHING JOB」を作成し実行 •ジョブ実行後、「PABRISHED DATA」一覧に追加される
Amazon DataZoneの持つ機能 22 データアセットのパブリッシュの流れ •「SET ASSET TO ACTIVE」を押してカタログ画面に表示される
Amazon DataZoneの持つ機能 23 データアセットのサブスクライブの流れ •データアセットを選択し、「SUBSCRIBE」でリクエストを作成
Amazon DataZoneの持つ機能 24 データアセットのサブスクライブの流れ •Contributorが「APPROVE」することで共有が許可される
Amazon DataZoneの持つ機能 25 設定するデータソースについて •基本的に「Glueカタログデータベース」からデータアセットを取り込む ・Glueテーブル:直接指定→取り込み ・S3(データレイク):S3→Glueカタログテーブル→取り込み ・Redshift:Glue接続経由→Glueカタログテーブル→取り込み ・Appflow:Appflowフロー→S3→Glueカタログテーブル→取り込み
Amazon DataZoneの持つ機能 26 メタデータフォームとビジネス用語 •メタデータフォーム:カスタム定義の属性を追加するのに利用 •ビジネス用語:メタデータ属性を定義するために使用されるビジネス辞書 ・スキーマ情報等の「テクニカルメタデータ」では表せない「ビジネスメ タデータ」を付与するのに使える ・ドメインのデータスチュワードが作成・編集を行う
Amazon DataZoneの持つ機能 27 ビジネス用語
Amazon DataZoneの持つ機能 28 メタデータフォーム
Amazon DataZoneの持つ機能 29 メタデータフォーム ※ドメインに紐づけると一括設定可能
01 DataZoneのアクセスポリシー
DataZone管理コンソールのためのポリシー 31 •コンソール画面にアクセス、操作する →“AmazonDataZonePreviewConsoleFullAccess”があればよい •AWS IAM Identity Centerを使用してSSOを有効にするために必要な許可 •DataZone がユーザーに代わって
AWS マネジメント コンソールで必要な ロールを作成できるようにするために必要なアクセス許可 →カスタムポリシーの内容がドキュメントに記載 https://docs.aws.amazon.com/ja_jp/datazone/latest/userguide/create-iam-roles.html
DataZoneポータル画面へのサインアップ 32 •AWS IAM Identity Centerのユーザー情報を使う •IAMユーザー/IAMロールを使う
01 DataZoneのメリット
DataZoneのメリット 34 •AWSマネージドサービスなのでインフラ面を考えなくて良い •データアセット取り込みにおいてデータソースとの通信経路を考えなくて 良い •ドメイン、プロジェクトの階層構造に伴うパーミッション・ガバナンス機 能が充実している
DataZoneまとめ 35 •チームで蓄積したデータアセットからデータ検索と共有を円滑にして分析業務を 加速 ・カタログ画面の検索機能が充実 ・プロジェクト画面からAthenaへ遷移して分析が可能 ・ビジネス用語などのカスタムメタデータの追加も可能 •組織間を超えたデータ情報の連携においてアクセス権限、共有リクエストの承認 フローなどのデータガバナンスと両立している ・ドメイン単位・プロジェクト単位のユーザーアクセス権限管理が可能
・データアセットのパブリッシュ・サブスクライブのための承認フローがシンプル
None