Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[旧版] OCI Data Catalog Overview 2021年10月版

oracle4engineer
October 12, 2021
470

[旧版] OCI Data Catalog Overview 2021年10月版

OCI Data Catalog に関する概要資料です。2021年10月時点での情報をベースとしています。最新情報は、随時アップデートされた資料やマニュアルを御確認下さい。

oracle4engineer

October 12, 2021
Tweet

More Decks by oracle4engineer

Transcript

  1. データベース ファイル等 センサー ソーシャル モバイル 業務部門 IT 開発者 データ サイエンティ

    スト 2 Copyright © 2021, Oracle and/or its affiliates 各種サービスを組み合わせることで、クラウド上に Data Lake を含むデータ基盤を実現 Oracleが提供する 包括的な Cloud Data Platform ソリューション Object Storage OCI Data Flow OCI GoldenGate OCI Streaming Stream Analytics for OCI Analytics Cloud Fast Connect Data Providers (対象データ) Data Consumers (データ利用者) *1) 2021年10月現在、Big Data Serviceに含まれたサービスとして提供中 Big Data Service ADW/ATP/ExaCS OCI Data Integration OCI Data Science Cloud SQL(*1) OCI Data Catalog Ingest, Integration, Data Refinery (収集) Data Persistence, Data Lake (蓄積/管理) Serving (提供) Visualize, Analytics, Data Science (可視化/分析/データサイエンス)
  2. Oracleエコシステムに最適化されたメタデータ管理サービス Oracle Cloud Infrastructure Data Catalog Copyright © 2021, Oracle

    and/or its affiliates 3 メタデータ収集と管理 テクニカル・メタデータの収集、 ビジネス・メタデータの追加、ビ ジネス辞書の管理、AI/MLレコメ ンデーション、カスタム・プロパ ティやタグによるメタデータの充 実 技術名、ビジネス用語、およびタ グに基づいて検索し、フィルター を使用して関心のあるオブジェク トを見つけることが可能 REST APIとSDKを備えた、安全で 信頼性の高いサーバーレスのネイ ティブOCIサービスとして提供。 他のOCIサービスとの連携・統合 も段階的に提供 検索と発見 Oracle Cloud に最適化
  3. メタデータを集約しデータ資産を有効に活用 サービス概要/特徴 • OCI Data Catalog は、Oracle Cloud上のデータ資産 を発見、検索、整理、強化、およびトレースするた めのインベントリサービスを提供します

    • OCI Data Catalog には、Business Glossary 機能が 組み込まれており、正しく信頼できるデータ資産を 有効に活用することが可能です こんな課題に役立ちます • Oracle Cloud 上のObject Storage (CSV,Excel,ORC,Avro,Parquet,JSON)、Database、 ATP/ADW、MySQL、Hive、Kafkaに存在するメタ データを統合管理したい • アナリスト、データサイエンティスト、データス チュワードなどのデータプロフェッショナルの分析 プロジェクトやデータサイエンスプロジェクトに、 単一ビューでのデータディスカバリーを提供したい サービス価格 • 無償 (OCIリソースに対する課金も不要) Oracle Cloud Infrastructure - Data Catalog Copyright © 2021, Oracle and/or its affiliates 4
  4. データ利用者がデータに対する適切な理解を得るための Data Catalog 必要とされる Data Catalog とは Copyright © 2021,

    Oracle and/or its affiliates 5 Data Analysts Data Scientists Data Engineers Developers Data Stewards 分析に適したデータが 見つからない • データ資産の全体像の欠如 • 部門固有知識への依存 • 困難を極めるデータ問題の トラブルシューティング • データの情報が簡単に入手 できない データレイクのデータを 理解するのは難しい • データ辞書が存在しない • 手動でのスキーマ定義 • データモデルをそもそも 共有できていない データガバナンスを 改善する必要がある • データの所有権が不明瞭 • 一般的なビジネス概念の欠如 • データ問題を解決するための コラボレーションがない • 機密データの拡散
  5. Data Catalog にMetadata Enrichment(メタデータの強化) が必要となる理由 必要とされる Data Catalog とは Copyright

    © 2021, Oracle and/or its affiliates 6 Data Analysts Data Scientists Data Engineers Developers Data Stewards 分析に適したデータが 見つからない • データ資産の全体像の欠如 • 部門固有知識への依存 • 困難を極めるデータ問題の トラブルシューティング • データの情報が簡単に入手 できない データレイクのデータを 理解するのは難しい • データ辞書が存在しない • 手動でのスキーマ定義 • データモデルをそもそも 共有できていない データガバナンスを 改善する必要がある • データの所有権が不明瞭 • 一般的なビジネス概念の欠如 • データ問題を解決するための コラボレーションがない • 機密データの拡散
  6. データ利用者のためのデータ資産全体像の考え方 Data Catalog を構成していく考え方 Copyright © 2021, Oracle and/or its

    affiliates 7 Technical Metadata Operational Metadata • ソースシステムからメタデータを収集 • 一般的に自動化されたプロセス Business Metadata • データ専門家による情報追加等 • 一般的に手動で行われるプロセス • (将来的に)AI/MLアシストによる強化 ◼ Enriche / Curate Business Glossary Metadata ◼ Harvesting • オペレーショナル情報(テクニカルオブ ジェクトについて) • 使用傾向、ジョブ実行サマリー、成功/ 失敗、更新日、リソース消費量など • ソースにあるオブジェクト情報 • スキーマ名、テーブル/カラム名、デー タタイプ、PK/FK、レポート、ETLフ ロー、変換ロジック、式など • データリネージとデータプロファイル • テクニカルオブジェクトについての追 加のビジネスコンテキスト • ビジネスコンセプトの用語集、分類、 注釈。説明、所有者、部署、地域、更 新頻度 評価、コメント、Q&A、フリー フォームタグなど
  7. OCI Data Catalog によるデータアナリスト向けのサポート Oracle Cloud Infrastructure Data Catalog Copyright

    © 2021, Oracle and/or its affiliates 9 ◼ Oracle (Cloud) eco-system内のデータストアに対するデータ・ ディスカバリーのサポート - オラクルのオンプレミスおよびOCIのデータソース、クラウド サービス、および一部の3rd Partyデータソースに対応 ◼ Object Storageのためのメタストアと統一カタログを提供 - オラクルのデータベース、オブジェクト・ストレージ、およびク エリ・サービスを横断 ◼ Oracle (Cloud) eco-system各サービスとの統合に基づく付加価 値の提供 - データ管理ツール、アナリティクス、データサイエンス、データ 統合ツール、ディスカバリーとデータガバナンスをサポートする アプリなど Metadata
  8. 主なユースケース Oracle Cloud Infrastructure Data Catalog Copyright © 2021, Oracle

    and/or its affiliates 10 1. データ&アナリティクス・ユーザーが、ビ ジネスコンテキストを持つ信頼できるデー タを見つけるための、時間と労力を節約 2. 分析のために、Object Storage Data Lake, Autonomous Data Warehouse, Oracle and non-Oracle databases全体のデータを迅速 に探索 3. ビジネス用語集、カスタムエンリッチメン ト、関連するテクニカルメタデータを管理 し、データガバナンスを向上 Discovery, Glossary, Metastore Oracle Cloud and on-prem sources Unified Metadata
  9. * 現在提供中の機能はすべて無料で利用可能 • テクニカル・メタデー タの自動収集 • OCIおよびオンプレミス でサポートされている ソース -

    Object Storage, Oracle DB, Autonomous DB, MySQL - Hive, Kafka, MS SQL Server, Azure SQL DB, IBM DB2, PostgreSQL - BETA - Oracle Analytics • データレイクのファイ ルをまとめる論理的な エンティティ • OCIテナンシー内データ ソースの自動検出 • 用語やカテゴリーを含 むビジネス用語集 • ユーザー定義のカスタ ムエンリッチメントプ ロパティ • アノテーション(注釈)の ための自由形式のタグ • AI/MLベースのレコメ ンデーションでアセッ トをビジネス用語にリ ンク • データ利用者のための 共同作業環境 • テクニカル名、ビジネ ス用語、タグ、カスタ ムプロパティに基づく 検索 • システム階層別にデー タ資産を閲覧 • テクニカルおよびビジ ネスコンテキストの詳 細を表示 • OCI Data Flowのメタス トアをサポート • ADB Data Lake Acceleratorのサポート • セキュアでスケーラブ ルなサーバーレスのク ラウドネイティブOCI サービス • Java、Python、Ruby、 GoによるREST APIと SDKの提供 • IAMベースのポリシー 管理によるアクセスコ ントロール OCI Data Catalog が提供している機能(2021年10月時点) Copyright © 2021, Oracle and/or its affiliates 11 Metadata Curation Search and Browse Optimized for Oracle Cloud Metadata Harvesting New New New New
  10. https://docs.oracle.com/en-us/iaas/releasenotes/services/data-catalog/ • OCI Data Flow の永続的なメタストアをサポート • テナント内で利用可能なデータソースを自動的に検出し、それらを使用してデータ資産を作成 • Excelベースのエクスポートおよびインポートにより、収穫したリレーショナルデータベースオブジェ

    クトのカスタムプロパティの値を一括で更新可能 • オブジェクトストアで時間制限のある事前認証リクエストベースの接続を使用 • 安全に構成されたリレーショナルデータソースおよびKafkaデータソースに対してSSL対応のデータア セットを作成 2021年6月30日リリースの新機能および機能強化 Copyright © 2021, Oracle and/or its affiliates 14
  11. 主な利用ステップ OCI Data Catalog の操作プロセス Copyright © 2021, Oracle and/or

    its affiliates 15 インスタンスへのアクセス データカタログインスタンスを開きます。 データアセットの作成 データソースをデータアセットとして登録します。 データアセットの取得 データアセットからテクニカルメタデータを取得します。 ビジネス用語集の作成 ビジネス用語集を作成して、企業のコンセプトを定義し、共通認識を確立します。 用語や属性などのリンク 手動や推奨機能を用いてビジネス用語を各オブジェクトにリンクします。 タグの追加 自由形式のタグで各オブジェクトに注釈を付けます。 データの検索 カタログを検索、参照、探索して、有用で信頼できるデータを見つけます。 継続的なメンテナンス カタログを継続的にメンテナンスし、データ資産を強化します。 1 2 3 4 5 6 7 8
  12. 2021年10月時点 サポートされるデータソース Copyright © 2021, Oracle and/or its affiliates 18

    データソースタイプ バージョン Oracle Database 12.1 / 12.2 / 18 / 19 / 20 / 21 Oracle Database on Oracle Cloud Infrastructure 12.1 / 12.2 / 18 / 19 Exadata DB Systems 12.1 / 12.2 / 18 / 19 Oracle Object Storage[*] Latest Autonomous Data Warehouse 18c/19c Autonomous Transaction Processing 18c/19c MySQL 8.0.x OCI MySQL Database Service 8.0.25-u3-cloud PostgreSQL 10.1 / 9.6, 9.5, 9.4, 9.3, 9.2, 9.1, and 9.0 / 8.4, 8.3, and 8.2 Apache Hive CDH 5.4 and higher / Apache 1.0, 2.0, 3.0 and higher Microsoft SQL Server 2019 / 2017 / 2016 SP2 / 2014 SP3 / 2012 SP4 IBM DB2 10.5.0.11 / 11.5.5.0 Apache Kafka 2.12-2.3.0 Microsoft Azure SQL Database 12.00.2000 [*] CSV(,/¥t/|/;), XML, Avro, Excel, Apache Parquet, Apache ORC, JSON(Simple) New
  13. 複数ファイルを論理的なエンティティとして管理 主な機能: Logical Data Entities Copyright © 2021, Oracle and/or

    its affiliates 19 • オブジェクトストレージ内のファイルをグルー プ化するための論理的エンティティ - データレイクのコンテンツを意味ある形で整理 - カタログ内のオブジェクト数の増加を防ぐ • ファイル名のパターンに基づいて関連ファイル を推定 - 正規表現によるパターンの定義 - データ資産にパターンを割り当てて収穫 • 他のデータエンティティと同様に、アノテー ション、タグ付け、メタデータの充実、検索、 フィルタリングが可能
  14. OCI Data Flowからアクセス可能なメタストアを提供 主な機能: OCI Data Flow向けメタストア Copyright © 2021,

    Oracle and/or its affiliates 20 • Object Storageのファイルに定義されたデータ ベース、テーブル、パーティションのメタスト アを作成 • OCI Data Flow アプリケーションのSpark SQL から使用 • Sparkアプリケーションや実行処理で永続的に 使用 New!!
  15. データレイク内のデータの検索、論理スキーマの推測、ADWからの直接クエリ Data Catalog を用いた ADWの拡張 Copyright © 2021, Oracle and/or

    its affiliates 21 New!! Data Catalog Object Storage Autonomous Database(s) OAC Analytical Tool of choice • データレイクから即座にインサイトを得る • Data Catalog により、データレイクのファ イルをADBで簡単に確認可能 • メタデータを一元管理し、DB間で共有 • 推論されたスキーマを自動的にADBに反映し、 データをロードして直接クエリを実行 • Oracle SQLを使用してデータセットを分析 • 用語集の定義、カスタムプロパティ、タグ からデータの意味を把握 • 大規模なデータの問い合わせ
  16. カスタム・プロパティによるメタデータ・キュレーションの向上 主な機能:Custom Properties Copyright © 2021, Oracle and/or its affiliates

    23 • ビジネスコンテキスト、データの分類、 理解、発見のためのカスタムプロパティ の定義 • データエキスパートが、データに関する 知識を共有 - リッチテキスト、数値、日付、Boolean - 値のリストを使用 - あらゆるタイプのカタログオブジェクト に関連付け可能 • オブジェクトのカスタムプロパティの値 に基づいた検索、フィルタ、ソート • 検索結果でのカスタムプロパティのク イックビュー
  17. AI/MLによる用語/カテゴリーのリンク推奨機能 主な機能:Recommendations Copyright © 2021, Oracle and/or its affiliates 24

    • ビジネスコンテキストとテクニ カルメタデータのリンクに必要 な手作業を削減 • ファジー・マッチングとAI/ML 技術を用いて、リンク可能な用 語を推奨 • データエンティティとアトリ ビュートで利用可能 • 最大10件の推奨を表示 • 推奨された用語をオブジェクト にリンク可能
  18. Oracle Cloud 環境に最適化された機能を提供 主な機能: Optimized for Oracle Cloud Copyright ©

    2021, Oracle and/or its affiliates 26 • 安全性、信頼性、拡張性に優れたサーバーレス のネイティブOCIサービス • IAMベースのポリシー管理によるアクセスコン トロール • OCI Eventsとの統合によるハーベスティング関 連イベントの連携 • 他のアプリケーションやサービスとの統合のた めのREST APIとSDKの提供
  19. メタデータを集約しデータ資産を有効に活用 サービス概要/特徴 • OCI Data Catalog は、Oracle Cloud上のデータ資産 を発見、検索、整理、強化、およびトレースするた めのインベントリサービスを提供します

    • OCI Data Catalog には、Business Glossary 機能が 組み込まれており、正しく信頼できるデータ資産を 有効に活用することが可能です こんな課題に役立ちます • Oracle Cloud 上のObject Storage (CSV,Excel,ORC,Avro,Parquet,JSON)、Database、 ATP/ADW、MySQL、Hive、Kafkaに存在するメタ データを統合管理したい • アナリスト、データサイエンティスト、データス チュワードなどのデータプロフェッショナルの分析 プロジェクトやデータサイエンスプロジェクトに、 単一ビューでのデータディスカバリーを提供したい サービス価格 • 無償 (OCIリソースに対する課金も不要) Oracle Cloud Infrastructure - Data Catalog Copyright © 2021, Oracle and/or its affiliates 27