Upgrade to Pro — share decks privately, control downloads, hide ads and more …

私が選ぶ_COMETAアップデート_ベスト3.pdf

 私が選ぶ_COMETAアップデート_ベスト3.pdf

Avatar for d.harato

d.harato

May 19, 2025
Tweet

More Decks by d.harato

Other Decks in Technology

Transcript

  1. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 1

    !!! 祝 COMETA リリース1周年 !!!
  2. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 2

    COMETAの機能アップデートについて お気に入り機能の拡大 テーブル → データベース/スキーマ 2024/05 COMETA リリース! 複数カラムのリネージ対応 2024/06 COMETAの利用状況を ダッシュボードで確認可能に メタデータの更新日時が 表示されるように 2024/07 2024/08 Google Analytics (ユニバーサル アナリティクス)の廃止対応 任意のデータベース配下にある アセットのみの検索可能に ユーザー管理画面のデザイン変更 操作画面の応答パフォーマンス改善 メタデータをCSVでエクスポート可能に 用語集機能 メタデータの未入力項目も含む すべてアセットをエクスポート可能
  3. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 3

    COMETAの機能アップデートについて 2024/09 Tableau連携のリリース 2024/10 BigQueryのビュー・マテリアライズドビュー でデータプレビュー グローバルメニューに組織名が表示されるように 2024/11 2024/12 dbtメタデータ連携 データストア連携にてキーペア認証 (Snowflake) アセット取り込みジョブの 実行履歴 dbtのdescriptionをMarkdown形式で表示 BigQueryの「データセット」のメタデータを自動取得
  4. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 4

    COMETAの機能アップデートについて 2025/01 2025/02 Snowflakeのリネージを表示 (TROCCO, dbt連携なし) BigQueryのリネージを表示 (TROCCO, dbt連携なし) 2025/03 2024/04 Tableauリソースのリネージを表示 転送元サービスからE2Eでリネージを表示 (TROCCOでデータを転送時) BigQueryの「データセット」のメタデータを自動取 得 接続対象にカスタムデータベースが追加 Snowflakeのデータストア詳細画 面にてホスト名などが確認可能 メタデータ自動生成機能(ベータ版)
  5. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 5

    COMETAの機能アップデートについて 2025/05 対話型AIアシスト機能(ベータ版)
  6. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 6

    COMETAの機能アップデートについて 2025/05 対話型AIアシスト機能(ベータ版) 詳しいことは リリースノート見てください!
  7. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 7

    3位 メタデータ自動生成機能 書くのがめんどくさい説明を生成AIでカバー!!! • 「テーブル論理名」、「概要」、「テーブルの使用用 途」、「使用上の注意」などをいい感じに書いてく れる優れもの • テーブル情報のみならず、カラム情報についてもい い感じに書いてくれます
  8. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 8

    2位 Tableauリソースのリネージを表示 リネージ機能の拡張!!! • 転送元サービス〜TableauダッシュボードまでEnd to Endでのリネージ作成 • 源泉でのトラブルがどのダッシュボードに影響があるか一目で確認可能
  9. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 9

    1位 dbtメタデータ連携 COMETAとdbtの連携!!! • ymlファイルに記述しているテーブル・カラムのメタ データをCOMETAに反映可能 • オブジェクトのmetaやtagの値も反映可能 • dbtで作成したリソースがカラムレベルのリネージで 参照可能 • マークダウンで書かれたdescriptionがそのまま COMETA上でもマークダウンとして記載
  10. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 10

    終わりに • この一年で(多分)33個のアップデートがありました • 来年もこのままCOMETAの発展を願っています!!
  11. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 12

    ことのはじまり データカタログの製品比較について聞いてみたい〜 事前アンケート 作れますか?w pNさんの運営の人 数日前 ぼく z はい! (ぼくが一番知りたいよな…)
  12. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 13

    データカタログとは? 図書館の蔵書検索システムみたいなもの 図書館における 蔵書管理システム 組織における データカタログ 〜〜について調べたいから 〇〇についての資料を読みたい 〜〜について分析したいから 〇〇のデータを使用したい 蔵書管理 システム データカタログ どのような資料がどこにあるかを管理 どのようなデータどどこにあるかを管理 ① 資料を検索する ② 資料を利用する ① データを検索する ② データを利用する 市民 データサイエンティスト
  13. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 14

    データカタログの概観 組織のいろいろなシステムからメタデータを抽出して一箇所で管理する データカタログ MySQL PowerBI Salesforce Snowflake Tableau Postgres Airflow BigQuery ElasticSearch Redshift SageMaker Fivetran
  14. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 15

    メタデータとは? データカタログの文脈におけるメタデータは主に以下の3種類からなる テクニカルメタデータ ビジネスメタデータ オペレーショナルメタデータ ソースシステムにおける技術的な情報 例: • DBのテーブル名・カラム名・データ型 • BIツールのダッシュボード名 • データリネージ データの内容や業務に関する情報 例: • テーブル・カラムなどの説明 • データ品質の規則と測定結果 • データオーナー • データのプライバシーレベルなどの分類 データの処理に関する情報 例: • クエリのログと頻度、実行時間など • バッチプログラムの実行ログ • これらのメタデータを包括して扱うことで、よりよいデータカタログになる • ビジネスメタデータは必ずしもソースシステムから取得できないので、データカタログ側での人手での整備も 必要になってくる
  15. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 16

    データカタログの主機能について メタデータの種類 カテゴリ 説明 ビジネスメタデータ メタデータ管理 データの構造、意味、出所、ライフサイクルなどを体系的に記述・管理 検索性・探索性 必要なデータを容易に発見・特定するための検索機能や推薦機能 コラボレーション コメント、説明文、用語集などを通じたデータに関する知識共有を促進 データ品質・監視 データの整合性・鮮度・可用性をモニタリングし、異常検知・アラート テクニカルメタデータ パイプライン統合 ETL/ELTツールなどの連携により、処理スケジュールや依存関係の可視化を実現 オペレーショナルメタデータ 利用状況・改善 データの使用履歴や頻度を追跡し、改善・最適化に活用 - アクセス制御・セキュリティ ユーザーごとの閲覧・編集権限の制御や監査ログの管理 参考: ・ データ利活用・データスペース ガイドブック 第 2.0 版 ・ データカタログ製品の各種ドキュメント これらの観点をもとに、COMETA・OpenMetadata・Elemenatry Cloud・dbt cloud の4種類で比較してみたいと思います
  16. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 17

    あらかじめ… ぼく 平日2日間の成果物なのであたたかく見て欲しいです!
  17. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 18

    (ぼくの思う)データカタログ製品比較 大項目 COMETA(TROCCO) OpenMetadata Elementary Cloud dbt Cloud メタデータ管理 〇 〇 〇 〇 検索性・探索性 〇 〇 〇 〇 アクセス制御・セキュリティ △ 〇 △ 〇 コラボレーション × 〇 × × データ品質・監視 〇 〇 〇 〇 パイプライン統合 〇 〇 〇 〇 利用状況・改善 △ 〇 × ×
  18. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 19

    データカタログの主機能について(詳細) 大項目 小項目 説明 メタデータ管理 メタデータ自動収集 データベースやBIツールなどからのスキーマ・定義情報の取り込みが可能か データリネージ データの流れ(上流・下流)を視覚的に確認できるか タグ・分類・説明付与 データに対し業務分類や意味、自由記述などの付与が可能か データオーナー管理 データ資産ごとの責任者や問い合わせ先を一元管理できるか 用語集・ナレッジ連携 業務用語やFAQなどをデータカタログと連携・表示できるか データプロファイル データのNULL率、ユニーク率、分布状況を確認できるか 検索性・探索性 データ検索機能 キーワードやフィルターにより目的のデータを効率的に検索できるか アクセス制御・セキュリティ RBAC連携 ユーザーの権限に応じて閲覧・編集を制限できるか 監査証跡の記録 誰がいつ何をしたかのログを記録・閲覧できるか コラボレーション アセット情報の共有 アセットデータにメタデータの変更履歴や関連スレッドをアセット単位で管理可能かつ他ユーザーにも 共有可能 データ品質・監視 データテスト NULLや型不整合、閾値などの品質ルールを定義・適用できるか 異常検知アラート 更新遅延や品質異常に対して通知・アラートが可能か インシデント対応 データテスト失敗時、ユーザーチームをアサインしタスクとして対応状況を管理できるか パイプライン統合 統合先の豊富さ データベース・ストレージ・パイプライン・オーケストレーション・ダッシュボード・通知先などへの統合数(概算) スケジューリング表示 パイプラインのメタデータを取得できるか 利用状況・改善 利用頻度・傾向分析 人気データや未使用データなどの傾向を把握できるか 価格(体感) 価格の相対評価
  19. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 20

    (ぼくの思う)データカタログ製品比較 大項目 小項目 説明 優先度 (1:高, 3:低) COMETA(TROCCO) OpenMetadata Elementary Cloud dbt cloud メタデータ管理 メタデータ自動収集 データベースやBIツールなどからのスキーマ・定義情報の取り込みが可能か 1 ◦ ◦ ◦ ◦ データリネージ データの流れ(上流・下流)を視覚的に確認できるか 1 ◦ ◦ ◦ ◦ タグ・分類・説明付与 データに対し業務分類や意味、自由記述などの付与が可能か 1 ◦ ◦ ◦ ◦ データオーナー管理 データ資産ごとの責任者や問い合わせ先を一元管理できるか 1 △ ◦ ◦ ◦ 用語集・ナレッジ連携 業務用語やFAQなどをデータカタログと連携・表示できるか 1 ◦ ◦ ◦ ◦ データプロファイル データのNULL率、ユニーク率、分布状況を確認できるか 1 ◦ ◦ ◦ ◦ 検索性・探索性 データ検索機能 キーワードやフィルターにより目的のデータを効率的に検索できるか 1 ◦ ◦ ◦ ◦ アクセス制御・セキュリティ RBAC連携 ユーザーの権限に応じて閲覧・編集を制限できるか 1 ◦ ◦ ◦ ◦ 監査証跡の記録 誰がいつ何をしたかのログを記録・閲覧できるか 2 × ◦ × ◦
  20. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 21

    (ぼくの思う)データカタログ製品比較 大項目 小項目 説明 優先度 (1:高, 3:低) COMETA(TROCCO) OpenMetadata Elementary Cloud dbt cloud コラボレーション アセット情報の共有 アセットデータにメタデータの変更履歴や関連スレッドをアセット単位で管理可 能かつ他ユーザーにも共有可能 3 × ◦ × × データ品質・監視 データテスト NULLや型不整合、閾値などの品質ルールを定義・適用できるか 1 ◦ ◦ ◦ ◦ 異常検知アラート 更新遅延や品質異常に対して通知・アラートが可能か 1 ◦ ◦ ◦ ◦ インシデント対応 データテスト失敗時、ユーザーチームをアサインしタスクとして対応状況を管理 できるか 3 × ◦ ◦ × パイプライン統合 統合先の豊富さ データベース・ストレージ・パイプライン・オーケストレーション・ダッシュボード・通 知先などへのコネクター数(概算) 2 13 84 31 - スケジューリング表示 パイプラインのメタデータを取得できるか 3 ◦ ◦ ◦ ◦ 利用状況・改善 利用頻度・傾向分析 人気データや未使用データなどの傾向を把握できるか 1 △ ◦ × × 価格 相対評価 1 安い 高い 高い 高い
  21. © 2025 DATUM STUDIO Co. Ltd. PROPRIETARY & CONFIDENTIAL. 22

    終わりに② 製品名 所感 TROCCO(COMETA) 初期フェーズの基盤 OpenMetadata Elementary Cloud dbt cloud エンタープライズ基盤 データメッシュ基盤 データ品質を重視したい基盤 データ変換・セマンティックレイヤーを重視したい基盤 (ぼくが思う)データカタログの棲み分け