Slide 1

Slide 1 text

OSSデータカタログツール 「DataHub」を触ってみた 2022/07/29 データアナリティクス事業本部 須藤 健志

Slide 2

Slide 2 text

2 自己紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤のコンサル・構築を担当] Blog https://dev.classmethod.jp/author/suto-takeshi/ Twitter @metronom9145 好きなAWSサービス Glue DataBrew、CDK 2022 APN AWS Top Engineers (Analytics) , 2022 APN ALL AWS Certifications Engineers 選出

Slide 3

Slide 3 text

3 アジェンダ • データカタログについて • Datahubとは • Datahubの機能 • Datahubの導入方法 • Datahubを触ってみた所感

Slide 4

Slide 4 text

4 データカタログについて データカタログとは • 企業内で保有する全データのメタデータを集約し、データ の現状把握や利活用を促進させるためのツール • メタデータ • 発生元(Data source) • 流れ(Data lineage) • 定義(Data definition) • 機能 • 検索 • タグやラベル付与

Slide 5

Slide 5 text

5 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データ連携 ・欲しいデータが見つからない ・どの部署に依頼すれば手に入る? ・もらったデータの意味がわからない ・データ管理が部署ごとにバラバラ ・データ定義書のメンテナンスが出来ていない ・データ情報の整理に時間がかかる

Slide 6

Slide 6 text

6 データカタログについて こんな悩みを解決 アナリスト サイエンティスト ITエンジニア データカタログ ツール ・欲しいデータ情報をすばやくゲット ・現場へのデータ利活用がしやすくなる ・データ資産の整理がしやすくなる ・データへのガバナンスが捗る

Slide 7

Slide 7 text

7 データカタログについて なぜデータカタログが注目されるのか • データレイクの登場 • →あらゆるデータを一箇所で管理 • →集約したデータの意味の把握と整理が必要 • ビジネスの利益拡大にデータを活用 • →情報取得をすばやく行い、 分析や研究に多くの時間を費やせるようにする

Slide 8

Slide 8 text

8 Datahubとは OSSデータカタログツール (LinkedIn社製)

Slide 9

Slide 9 text

9 Datahubとは 対応している主なデータソース ※v0.8.38時点 • Athena • Big Query • dbt • Glue • Hive • Iceberg • Kafka • MariaDB • Metabase • MySQL • Oracle • Postgre • Looker • Redash • Redshift • S3 • Snowflake • Tableau 取り込み方法 • 基本は取込用の構成ファイル「レシピ」を作成し、CLIによるプッシュベースの実行 • CLIを使わず、UI上でレシピを記述して取り込み実行にも対応 • cronによるスケジューリングも可能 • Airflow、Spark、Great Expectationsなどのジョブによる取込も可能

Slide 10

Slide 10 text

10 Datahubの機能 データの検索 • 取込んだ情報 のほぼ全ての テキストが検 索にヒット • 検索エンジンは Elastic Search ※v0.8.38時点

Slide 11

Slide 11 text

11 Datahubの機能 データリネージ • パイプラインによ るデータの流れを 把握できる ※v0.8.38時点

Slide 12

Slide 12 text

12 Datahubの機能 ラベル付け • Tag、Owners、 Description等の 追加情報を付与 • Terms(Business Glossary)などを 駆使して、更な る情報追加やメ タデータ同士の 関連付け ※v0.8.38時点

Slide 13

Slide 13 text

13 Datahubの機能 セキュリティ • ユーザー・ユーザ ーグループの作成 /削除、パスワー ドリセットがUI上 で可能 • 認証サービスとの 連携も対応 • 各ユーザー・グル ープごとのアクセ ス権限を管理可能 ※v0.8.38時点

Slide 14

Slide 14 text

14 Datahubの機能 サーバーの 統計情報 • 「Analytics」画面 で、メタデータ の登録数、ユー ザーアクティビ ティ、データア クセス数などの 統計情報を確認 できる ※v0.8.38時点

Slide 15

Slide 15 text

15 Datahubの導入方法 ①ローカル上でクイックセットアップ • 構築に必要なツール • Python3.6以上、docker、jq、 docker-compose、Datahub CLI(acryl-datahub) • コマンド'datahub docker quickstart'を実行するだけでデプロイ完了 作業PCなどのローカル上にDockerコンテナによって構築する いち早くDatahubを試したい時に有用

Slide 16

Slide 16 text

16 Datahubの導入方法 ②AWS EKS or GCP GKE上でデプロイ • 構築に必要なツール • AWSの場合:AWS CLI、eksctl、kubectl、Helm • GCPの場合:Cloud SDK、kubectl、Helm • クラスターを作成し、Helmチャートによるデプロイ Datahubの全コンポーネントを、コンテナサービスのクラスター上で構 築する

Slide 17

Slide 17 text

17 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI • Eksctl • Kubectl • Helm ストレージのメンテナンス ワークロードに手間

Slide 18

Slide 18 text

18 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI • Eksctl • Kubectl • Helm より本番運用を意識した構成に

Slide 19

Slide 19 text

19 Datahubを触ってみた所感 • 公式ドキュメントが充実している • 他の無償OSSと比べて開発が進んでいる • 対応データソース、UIデザイン、セキュリティ機能、GUI操作 • 一定の学習コストはかかる • レシピの書き方 • 自動化にはワークフロー管理ツールの組み合わせが必要 • 取り込み後の運用が大事 • 実用レベルに持っていくため、データカタログを「育てていく」 ための運用が必要 ※v0.8.38時点

Slide 20

Slide 20 text

No content