Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OSSデータカタログツール「DataHub」を触ってみた

suto
July 21, 2022
5.1k

 OSSデータカタログツール「DataHub」を触ってみた

Developers.IO 2022で発表した資料です

suto

July 21, 2022
Tweet

Transcript

  1. 2 自己紹介 須藤 健志 (suto takeshi) 所属 データアナリティクス事業本部 [データ分析基盤や機械学習基盤のコンサル・構築を担当] Blog

    https://dev.classmethod.jp/author/suto-takeshi/ Twitter @metronom9145 好きなAWSサービス Glue DataBrew、CDK 2022 APN AWS Top Engineers (Analytics) , 2022 APN ALL AWS Certifications Engineers 選出
  2. 7 データカタログについて なぜデータカタログが注目されるのか • データレイクの登場 • →あらゆるデータを一箇所で管理 • →集約したデータの意味の把握と整理が必要 •

    ビジネスの利益拡大にデータを活用 • →情報取得をすばやく行い、 分析や研究に多くの時間を費やせるようにする
  3. 9 Datahubとは 対応している主なデータソース ※v0.8.38時点 • Athena • Big Query •

    dbt • Glue • Hive • Iceberg • Kafka • MariaDB • Metabase • MySQL • Oracle • Postgre • Looker • Redash • Redshift • S3 • Snowflake • Tableau 取り込み方法 • 基本は取込用の構成ファイル「レシピ」を作成し、CLIによるプッシュベースの実行 • CLIを使わず、UI上でレシピを記述して取り込み実行にも対応 • cronによるスケジューリングも可能 • Airflow、Spark、Great Expectationsなどのジョブによる取込も可能
  4. 12 Datahubの機能 ラベル付け • Tag、Owners、 Description等の 追加情報を付与 • Terms(Business Glossary)などを

    駆使して、更な る情報追加やメ タデータ同士の 関連付け ※v0.8.38時点
  5. 13 Datahubの機能 セキュリティ • ユーザー・ユーザ ーグループの作成 /削除、パスワー ドリセットがUI上 で可能 •

    認証サービスとの 連携も対応 • 各ユーザー・グル ープごとのアクセ ス権限を管理可能 ※v0.8.38時点
  6. 15 Datahubの導入方法 ①ローカル上でクイックセットアップ • 構築に必要なツール • Python3.6以上、docker、jq、 docker-compose、Datahub CLI(acryl-datahub) •

    コマンド'datahub docker quickstart'を実行するだけでデプロイ完了 作業PCなどのローカル上にDockerコンテナによって構築する いち早くDatahubを試したい時に有用
  7. 16 Datahubの導入方法 ②AWS EKS or GCP GKE上でデプロイ • 構築に必要なツール •

    AWSの場合:AWS CLI、eksctl、kubectl、Helm • GCPの場合:Cloud SDK、kubectl、Helm • クラスターを作成し、Helmチャートによるデプロイ Datahubの全コンポーネントを、コンテナサービスのクラスター上で構 築する
  8. 17 Datahubの導入方法 ③AWS EKS+AWSストレージ系サービスの組み合わせ • 構築に必要なツール • AWS CLI •

    Eksctl • Kubectl • Helm ストレージのメンテナンス ワークロードに手間
  9. 19 Datahubを触ってみた所感 • 公式ドキュメントが充実している • 他の無償OSSと比べて開発が進んでいる • 対応データソース、UIデザイン、セキュリティ機能、GUI操作 • 一定の学習コストはかかる

    • レシピの書き方 • 自動化にはワークフロー管理ツールの組み合わせが必要 • 取り込み後の運用が大事 • 実用レベルに持っていくため、データカタログを「育てていく」 ための運用が必要 ※v0.8.38時点