Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OSSデータカタログツール「DataHub」を触ってみた
Search
suto
July 21, 2022
0
5.1k
OSSデータカタログツール「DataHub」を触ってみた
Developers.IO 2022で発表した資料です
suto
July 21, 2022
Tweet
Share
More Decks by suto
See All by suto
DevelopersIO2023「Amazon DataZoneを触ってみた」
sutotakeshi
0
1.4k
re:Growth2022「Analytics系アップデートまとめ」
sutotakeshi
0
660
Glue DataBrewでデータを クリーニング、加工してみよう
sutotakeshi
0
870
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
Designing on Purpose - Digital PM Summit 2013
jponch
116
7k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
How GitHub (no longer) Works
holman
311
140k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
2
170
Navigating Team Friction
lara
183
15k
Designing for Performance
lara
604
68k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.2k
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Transcript
OSSデータカタログツール 「DataHub」を触ってみた 2022/07/29 データアナリティクス事業本部 須藤 健志
2 自己紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤のコンサル・構築を担当] Blog
https://dev.classmethod.jp/author/suto-takeshi/ Twitter @metronom9145 好きなAWSサービス Glue DataBrew、CDK 2022 APN AWS Top Engineers (Analytics) , 2022 APN ALL AWS Certifications Engineers 選出
3 アジェンダ • データカタログについて • Datahubとは • Datahubの機能 • Datahubの導入方法
• Datahubを触ってみた所感
4 データカタログについて データカタログとは • 企業内で保有する全データのメタデータを集約し、データ の現状把握や利活用を促進させるためのツール • メタデータ • 発生元(Data
source) • 流れ(Data lineage) • 定義(Data definition) • 機能 • 検索 • タグやラベル付与
5 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データ連携 ・欲しいデータが見つからない ・どの部署に依頼すれば手に入る? ・もらったデータの意味がわからない
・データ管理が部署ごとにバラバラ ・データ定義書のメンテナンスが出来ていない ・データ情報の整理に時間がかかる
6 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データカタログ ツール ・欲しいデータ情報をすばやくゲット ・現場へのデータ利活用がしやすくなる
・データ資産の整理がしやすくなる ・データへのガバナンスが捗る
7 データカタログについて なぜデータカタログが注目されるのか • データレイクの登場 • →あらゆるデータを一箇所で管理 • →集約したデータの意味の把握と整理が必要 •
ビジネスの利益拡大にデータを活用 • →情報取得をすばやく行い、 分析や研究に多くの時間を費やせるようにする
8 Datahubとは OSSデータカタログツール (LinkedIn社製)
9 Datahubとは 対応している主なデータソース ※v0.8.38時点 • Athena • Big Query •
dbt • Glue • Hive • Iceberg • Kafka • MariaDB • Metabase • MySQL • Oracle • Postgre • Looker • Redash • Redshift • S3 • Snowflake • Tableau 取り込み方法 • 基本は取込用の構成ファイル「レシピ」を作成し、CLIによるプッシュベースの実行 • CLIを使わず、UI上でレシピを記述して取り込み実行にも対応 • cronによるスケジューリングも可能 • Airflow、Spark、Great Expectationsなどのジョブによる取込も可能
10 Datahubの機能 データの検索 • 取込んだ情報 のほぼ全ての テキストが検 索にヒット • 検索エンジンは
Elastic Search ※v0.8.38時点
11 Datahubの機能 データリネージ • パイプラインによ るデータの流れを 把握できる ※v0.8.38時点
12 Datahubの機能 ラベル付け • Tag、Owners、 Description等の 追加情報を付与 • Terms(Business Glossary)などを
駆使して、更な る情報追加やメ タデータ同士の 関連付け ※v0.8.38時点
13 Datahubの機能 セキュリティ • ユーザー・ユーザ ーグループの作成 /削除、パスワー ドリセットがUI上 で可能 •
認証サービスとの 連携も対応 • 各ユーザー・グル ープごとのアクセ ス権限を管理可能 ※v0.8.38時点
14 Datahubの機能 サーバーの 統計情報 • 「Analytics」画面 で、メタデータ の登録数、ユー ザーアクティビ ティ、データア
クセス数などの 統計情報を確認 できる ※v0.8.38時点
15 Datahubの導入方法 ①ローカル上でクイックセットアップ • 構築に必要なツール • Python3.6以上、docker、jq、 docker-compose、Datahub CLI(acryl-datahub) •
コマンド'datahub docker quickstart'を実行するだけでデプロイ完了 作業PCなどのローカル上にDockerコンテナによって構築する いち早くDatahubを試したい時に有用
16 Datahubの導入方法 ②AWS EKS or GCP GKE上でデプロイ • 構築に必要なツール •
AWSの場合:AWS CLI、eksctl、kubectl、Helm • GCPの場合:Cloud SDK、kubectl、Helm • クラスターを作成し、Helmチャートによるデプロイ Datahubの全コンポーネントを、コンテナサービスのクラスター上で構 築する
17 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI •
Eksctl • Kubectl • Helm ストレージのメンテナンス ワークロードに手間
18 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI •
Eksctl • Kubectl • Helm より本番運用を意識した構成に
19 Datahubを触ってみた所感 • 公式ドキュメントが充実している • 他の無償OSSと比べて開発が進んでいる • 対応データソース、UIデザイン、セキュリティ機能、GUI操作 • 一定の学習コストはかかる
• レシピの書き方 • 自動化にはワークフロー管理ツールの組み合わせが必要 • 取り込み後の運用が大事 • 実用レベルに持っていくため、データカタログを「育てていく」 ための運用が必要 ※v0.8.38時点
None