Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OSSデータカタログツール「DataHub」を触ってみた
Search
suto
July 21, 2022
0
5k
OSSデータカタログツール「DataHub」を触ってみた
Developers.IO 2022で発表した資料です
suto
July 21, 2022
Tweet
Share
More Decks by suto
See All by suto
DevelopersIO2023「Amazon DataZoneを触ってみた」
sutotakeshi
0
1.3k
re:Growth2022「Analytics系アップデートまとめ」
sutotakeshi
0
660
Glue DataBrewでデータを クリーニング、加工してみよう
sutotakeshi
0
840
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
31
6.3k
Docker and Python
trallard
40
3.1k
Building Applications with DynamoDB
mza
90
6.1k
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
Typedesign – Prime Four
hannesfritz
40
2.4k
Code Reviewing Like a Champion
maltzj
520
39k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
109
49k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
28
2k
Agile that works and the tools we love
rasmusluckow
327
21k
Designing for Performance
lara
604
68k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Transcript
OSSデータカタログツール 「DataHub」を触ってみた 2022/07/29 データアナリティクス事業本部 須藤 健志
2 自己紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤のコンサル・構築を担当] Blog
https://dev.classmethod.jp/author/suto-takeshi/ Twitter @metronom9145 好きなAWSサービス Glue DataBrew、CDK 2022 APN AWS Top Engineers (Analytics) , 2022 APN ALL AWS Certifications Engineers 選出
3 アジェンダ • データカタログについて • Datahubとは • Datahubの機能 • Datahubの導入方法
• Datahubを触ってみた所感
4 データカタログについて データカタログとは • 企業内で保有する全データのメタデータを集約し、データ の現状把握や利活用を促進させるためのツール • メタデータ • 発生元(Data
source) • 流れ(Data lineage) • 定義(Data definition) • 機能 • 検索 • タグやラベル付与
5 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データ連携 ・欲しいデータが見つからない ・どの部署に依頼すれば手に入る? ・もらったデータの意味がわからない
・データ管理が部署ごとにバラバラ ・データ定義書のメンテナンスが出来ていない ・データ情報の整理に時間がかかる
6 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データカタログ ツール ・欲しいデータ情報をすばやくゲット ・現場へのデータ利活用がしやすくなる
・データ資産の整理がしやすくなる ・データへのガバナンスが捗る
7 データカタログについて なぜデータカタログが注目されるのか • データレイクの登場 • →あらゆるデータを一箇所で管理 • →集約したデータの意味の把握と整理が必要 •
ビジネスの利益拡大にデータを活用 • →情報取得をすばやく行い、 分析や研究に多くの時間を費やせるようにする
8 Datahubとは OSSデータカタログツール (LinkedIn社製)
9 Datahubとは 対応している主なデータソース ※v0.8.38時点 • Athena • Big Query •
dbt • Glue • Hive • Iceberg • Kafka • MariaDB • Metabase • MySQL • Oracle • Postgre • Looker • Redash • Redshift • S3 • Snowflake • Tableau 取り込み方法 • 基本は取込用の構成ファイル「レシピ」を作成し、CLIによるプッシュベースの実行 • CLIを使わず、UI上でレシピを記述して取り込み実行にも対応 • cronによるスケジューリングも可能 • Airflow、Spark、Great Expectationsなどのジョブによる取込も可能
10 Datahubの機能 データの検索 • 取込んだ情報 のほぼ全ての テキストが検 索にヒット • 検索エンジンは
Elastic Search ※v0.8.38時点
11 Datahubの機能 データリネージ • パイプラインによ るデータの流れを 把握できる ※v0.8.38時点
12 Datahubの機能 ラベル付け • Tag、Owners、 Description等の 追加情報を付与 • Terms(Business Glossary)などを
駆使して、更な る情報追加やメ タデータ同士の 関連付け ※v0.8.38時点
13 Datahubの機能 セキュリティ • ユーザー・ユーザ ーグループの作成 /削除、パスワー ドリセットがUI上 で可能 •
認証サービスとの 連携も対応 • 各ユーザー・グル ープごとのアクセ ス権限を管理可能 ※v0.8.38時点
14 Datahubの機能 サーバーの 統計情報 • 「Analytics」画面 で、メタデータ の登録数、ユー ザーアクティビ ティ、データア
クセス数などの 統計情報を確認 できる ※v0.8.38時点
15 Datahubの導入方法 ①ローカル上でクイックセットアップ • 構築に必要なツール • Python3.6以上、docker、jq、 docker-compose、Datahub CLI(acryl-datahub) •
コマンド'datahub docker quickstart'を実行するだけでデプロイ完了 作業PCなどのローカル上にDockerコンテナによって構築する いち早くDatahubを試したい時に有用
16 Datahubの導入方法 ②AWS EKS or GCP GKE上でデプロイ • 構築に必要なツール •
AWSの場合:AWS CLI、eksctl、kubectl、Helm • GCPの場合:Cloud SDK、kubectl、Helm • クラスターを作成し、Helmチャートによるデプロイ Datahubの全コンポーネントを、コンテナサービスのクラスター上で構 築する
17 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI •
Eksctl • Kubectl • Helm ストレージのメンテナンス ワークロードに手間
18 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI •
Eksctl • Kubectl • Helm より本番運用を意識した構成に
19 Datahubを触ってみた所感 • 公式ドキュメントが充実している • 他の無償OSSと比べて開発が進んでいる • 対応データソース、UIデザイン、セキュリティ機能、GUI操作 • 一定の学習コストはかかる
• レシピの書き方 • 自動化にはワークフロー管理ツールの組み合わせが必要 • 取り込み後の運用が大事 • 実用レベルに持っていくため、データカタログを「育てていく」 ための運用が必要 ※v0.8.38時点
None