Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OSSデータカタログツール「DataHub」を触ってみた
Search
suto
July 21, 2022
0
4.8k
OSSデータカタログツール「DataHub」を触ってみた
Developers.IO 2022で発表した資料です
suto
July 21, 2022
Tweet
Share
More Decks by suto
See All by suto
DevelopersIO2023「Amazon DataZoneを触ってみた」
sutotakeshi
0
1.2k
re:Growth2022「Analytics系アップデートまとめ」
sutotakeshi
0
650
Glue DataBrewでデータを クリーニング、加工してみよう
sutotakeshi
0
800
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
26
1.9k
The Straight Up "How To Draw Better" Workshop
denniskardys
231
130k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Design by the Numbers
sachag
278
19k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
26
4k
Into the Great Unknown - MozCon
thekraken
30
1.4k
The Brand Is Dead. Long Live the Brand.
mthomps
53
38k
Building an army of robots
kneath
302
42k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
23
1.7k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
ReactJS: Keep Simple. Everything can be a component!
pedronauck
663
120k
Optimizing for Happiness
mojombo
375
69k
Transcript
OSSデータカタログツール 「DataHub」を触ってみた 2022/07/29 データアナリティクス事業本部 須藤 健志
2 自己紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤のコンサル・構築を担当] Blog
https://dev.classmethod.jp/author/suto-takeshi/ Twitter @metronom9145 好きなAWSサービス Glue DataBrew、CDK 2022 APN AWS Top Engineers (Analytics) , 2022 APN ALL AWS Certifications Engineers 選出
3 アジェンダ • データカタログについて • Datahubとは • Datahubの機能 • Datahubの導入方法
• Datahubを触ってみた所感
4 データカタログについて データカタログとは • 企業内で保有する全データのメタデータを集約し、データ の現状把握や利活用を促進させるためのツール • メタデータ • 発生元(Data
source) • 流れ(Data lineage) • 定義(Data definition) • 機能 • 検索 • タグやラベル付与
5 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データ連携 ・欲しいデータが見つからない ・どの部署に依頼すれば手に入る? ・もらったデータの意味がわからない
・データ管理が部署ごとにバラバラ ・データ定義書のメンテナンスが出来ていない ・データ情報の整理に時間がかかる
6 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データカタログ ツール ・欲しいデータ情報をすばやくゲット ・現場へのデータ利活用がしやすくなる
・データ資産の整理がしやすくなる ・データへのガバナンスが捗る
7 データカタログについて なぜデータカタログが注目されるのか • データレイクの登場 • →あらゆるデータを一箇所で管理 • →集約したデータの意味の把握と整理が必要 •
ビジネスの利益拡大にデータを活用 • →情報取得をすばやく行い、 分析や研究に多くの時間を費やせるようにする
8 Datahubとは OSSデータカタログツール (LinkedIn社製)
9 Datahubとは 対応している主なデータソース ※v0.8.38時点 • Athena • Big Query •
dbt • Glue • Hive • Iceberg • Kafka • MariaDB • Metabase • MySQL • Oracle • Postgre • Looker • Redash • Redshift • S3 • Snowflake • Tableau 取り込み方法 • 基本は取込用の構成ファイル「レシピ」を作成し、CLIによるプッシュベースの実行 • CLIを使わず、UI上でレシピを記述して取り込み実行にも対応 • cronによるスケジューリングも可能 • Airflow、Spark、Great Expectationsなどのジョブによる取込も可能
10 Datahubの機能 データの検索 • 取込んだ情報 のほぼ全ての テキストが検 索にヒット • 検索エンジンは
Elastic Search ※v0.8.38時点
11 Datahubの機能 データリネージ • パイプラインによ るデータの流れを 把握できる ※v0.8.38時点
12 Datahubの機能 ラベル付け • Tag、Owners、 Description等の 追加情報を付与 • Terms(Business Glossary)などを
駆使して、更な る情報追加やメ タデータ同士の 関連付け ※v0.8.38時点
13 Datahubの機能 セキュリティ • ユーザー・ユーザ ーグループの作成 /削除、パスワー ドリセットがUI上 で可能 •
認証サービスとの 連携も対応 • 各ユーザー・グル ープごとのアクセ ス権限を管理可能 ※v0.8.38時点
14 Datahubの機能 サーバーの 統計情報 • 「Analytics」画面 で、メタデータ の登録数、ユー ザーアクティビ ティ、データア
クセス数などの 統計情報を確認 できる ※v0.8.38時点
15 Datahubの導入方法 ①ローカル上でクイックセットアップ • 構築に必要なツール • Python3.6以上、docker、jq、 docker-compose、Datahub CLI(acryl-datahub) •
コマンド'datahub docker quickstart'を実行するだけでデプロイ完了 作業PCなどのローカル上にDockerコンテナによって構築する いち早くDatahubを試したい時に有用
16 Datahubの導入方法 ②AWS EKS or GCP GKE上でデプロイ • 構築に必要なツール •
AWSの場合:AWS CLI、eksctl、kubectl、Helm • GCPの場合:Cloud SDK、kubectl、Helm • クラスターを作成し、Helmチャートによるデプロイ Datahubの全コンポーネントを、コンテナサービスのクラスター上で構 築する
17 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI •
Eksctl • Kubectl • Helm ストレージのメンテナンス ワークロードに手間
18 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI •
Eksctl • Kubectl • Helm より本番運用を意識した構成に
19 Datahubを触ってみた所感 • 公式ドキュメントが充実している • 他の無償OSSと比べて開発が進んでいる • 対応データソース、UIデザイン、セキュリティ機能、GUI操作 • 一定の学習コストはかかる
• レシピの書き方 • 自動化にはワークフロー管理ツールの組み合わせが必要 • 取り込み後の運用が大事 • 実用レベルに持っていくため、データカタログを「育てていく」 ための運用が必要 ※v0.8.38時点
None