Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[旧版] OCI Data Catalog Overview 2021年10月版
Search
oracle4engineer
PRO
October 12, 2021
0
470
[旧版] OCI Data Catalog Overview 2021年10月版
OCI Data Catalog に関する概要資料です。2021年10月時点での情報をベースとしています。最新情報は、随時アップデートされた資料やマニュアルを御確認下さい。
oracle4engineer
PRO
October 12, 2021
Tweet
Share
More Decks by oracle4engineer
See All by oracle4engineer
Oracle Cloud Infrastructureデータベース・クラウド:各バージョンのサポート期間
oracle4engineer
PRO
29
13k
【Oracle Cloud ウェビナー】生成AI対応のデータベースが変える、業務アプリケーション構築のこれから
oracle4engineer
PRO
2
39
OCI Vault 概要
oracle4engineer
PRO
0
9.8k
Data Safeの機能詳細
oracle4engineer
PRO
0
4.8k
OCI Security サービス 概要
oracle4engineer
PRO
0
6.6k
OCI 運用監視サービス 概要
oracle4engineer
PRO
0
4.8k
OCI Network Firewall 概要
oracle4engineer
PRO
0
4.2k
Exadata Database Service on Dedicated Infrastructure(ExaDB-D) UI スクリーン・キャプチャ集
oracle4engineer
PRO
2
3.2k
ExaDB-D dbaascli で出来ること
oracle4engineer
PRO
0
3.9k
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Teambox: Starting and Learning
jrom
133
8.8k
Raft: Consensus for Rubyists
vanstee
136
6.6k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
44
2.2k
Making Projects Easy
brettharned
115
5.9k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
How To Stay Up To Date on Web Technology
chriscoyier
788
250k
Thoughts on Productivity
jonyablonski
67
4.3k
Visualization
eitanlees
145
15k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
Gamification - CAS2011
davidbonilla
80
5k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.4k
Transcript
Oracle Cloud Infrastructure Data Catalog 2021年10月版 日本オラクル株式会社 クラウド事業戦略統括 ビジネス推進本部 Senior
Business Development Manager 谷川 信朗
データベース ファイル等 センサー ソーシャル モバイル 業務部門 IT 開発者 データ サイエンティ
スト 2 Copyright © 2021, Oracle and/or its affiliates 各種サービスを組み合わせることで、クラウド上に Data Lake を含むデータ基盤を実現 Oracleが提供する 包括的な Cloud Data Platform ソリューション Object Storage OCI Data Flow OCI GoldenGate OCI Streaming Stream Analytics for OCI Analytics Cloud Fast Connect Data Providers (対象データ) Data Consumers (データ利用者) *1) 2021年10月現在、Big Data Serviceに含まれたサービスとして提供中 Big Data Service ADW/ATP/ExaCS OCI Data Integration OCI Data Science Cloud SQL(*1) OCI Data Catalog Ingest, Integration, Data Refinery (収集) Data Persistence, Data Lake (蓄積/管理) Serving (提供) Visualize, Analytics, Data Science (可視化/分析/データサイエンス)
Oracleエコシステムに最適化されたメタデータ管理サービス Oracle Cloud Infrastructure Data Catalog Copyright © 2021, Oracle
and/or its affiliates 3 メタデータ収集と管理 テクニカル・メタデータの収集、 ビジネス・メタデータの追加、ビ ジネス辞書の管理、AI/MLレコメ ンデーション、カスタム・プロパ ティやタグによるメタデータの充 実 技術名、ビジネス用語、およびタ グに基づいて検索し、フィルター を使用して関心のあるオブジェク トを見つけることが可能 REST APIとSDKを備えた、安全で 信頼性の高いサーバーレスのネイ ティブOCIサービスとして提供。 他のOCIサービスとの連携・統合 も段階的に提供 検索と発見 Oracle Cloud に最適化
メタデータを集約しデータ資産を有効に活用 サービス概要/特徴 • OCI Data Catalog は、Oracle Cloud上のデータ資産 を発見、検索、整理、強化、およびトレースするた めのインベントリサービスを提供します
• OCI Data Catalog には、Business Glossary 機能が 組み込まれており、正しく信頼できるデータ資産を 有効に活用することが可能です こんな課題に役立ちます • Oracle Cloud 上のObject Storage (CSV,Excel,ORC,Avro,Parquet,JSON)、Database、 ATP/ADW、MySQL、Hive、Kafkaに存在するメタ データを統合管理したい • アナリスト、データサイエンティスト、データス チュワードなどのデータプロフェッショナルの分析 プロジェクトやデータサイエンスプロジェクトに、 単一ビューでのデータディスカバリーを提供したい サービス価格 • 無償 (OCIリソースに対する課金も不要) Oracle Cloud Infrastructure - Data Catalog Copyright © 2021, Oracle and/or its affiliates 4
データ利用者がデータに対する適切な理解を得るための Data Catalog 必要とされる Data Catalog とは Copyright © 2021,
Oracle and/or its affiliates 5 Data Analysts Data Scientists Data Engineers Developers Data Stewards 分析に適したデータが 見つからない • データ資産の全体像の欠如 • 部門固有知識への依存 • 困難を極めるデータ問題の トラブルシューティング • データの情報が簡単に入手 できない データレイクのデータを 理解するのは難しい • データ辞書が存在しない • 手動でのスキーマ定義 • データモデルをそもそも 共有できていない データガバナンスを 改善する必要がある • データの所有権が不明瞭 • 一般的なビジネス概念の欠如 • データ問題を解決するための コラボレーションがない • 機密データの拡散
Data Catalog にMetadata Enrichment(メタデータの強化) が必要となる理由 必要とされる Data Catalog とは Copyright
© 2021, Oracle and/or its affiliates 6 Data Analysts Data Scientists Data Engineers Developers Data Stewards 分析に適したデータが 見つからない • データ資産の全体像の欠如 • 部門固有知識への依存 • 困難を極めるデータ問題の トラブルシューティング • データの情報が簡単に入手 できない データレイクのデータを 理解するのは難しい • データ辞書が存在しない • 手動でのスキーマ定義 • データモデルをそもそも 共有できていない データガバナンスを 改善する必要がある • データの所有権が不明瞭 • 一般的なビジネス概念の欠如 • データ問題を解決するための コラボレーションがない • 機密データの拡散
データ利用者のためのデータ資産全体像の考え方 Data Catalog を構成していく考え方 Copyright © 2021, Oracle and/or its
affiliates 7 Technical Metadata Operational Metadata • ソースシステムからメタデータを収集 • 一般的に自動化されたプロセス Business Metadata • データ専門家による情報追加等 • 一般的に手動で行われるプロセス • (将来的に)AI/MLアシストによる強化 ◼ Enriche / Curate Business Glossary Metadata ◼ Harvesting • オペレーショナル情報(テクニカルオブ ジェクトについて) • 使用傾向、ジョブ実行サマリー、成功/ 失敗、更新日、リソース消費量など • ソースにあるオブジェクト情報 • スキーマ名、テーブル/カラム名、デー タタイプ、PK/FK、レポート、ETLフ ロー、変換ロジック、式など • データリネージとデータプロファイル • テクニカルオブジェクトについての追 加のビジネスコンテキスト • ビジネスコンセプトの用語集、分類、 注釈。説明、所有者、部署、地域、更 新頻度 評価、コメント、Q&A、フリー フォームタグなど
Oracle (Cloud) eco-systemに最適化されたフルマネージド型データカタログ・サービス Oracle Cloud Infrastructure Data Catalog Copyright ©
2021, Oracle and/or its affiliates 8 ◼ ◼ ◼
OCI Data Catalog によるデータアナリスト向けのサポート Oracle Cloud Infrastructure Data Catalog Copyright
© 2021, Oracle and/or its affiliates 9 ◼ Oracle (Cloud) eco-system内のデータストアに対するデータ・ ディスカバリーのサポート - オラクルのオンプレミスおよびOCIのデータソース、クラウド サービス、および一部の3rd Partyデータソースに対応 ◼ Object Storageのためのメタストアと統一カタログを提供 - オラクルのデータベース、オブジェクト・ストレージ、およびク エリ・サービスを横断 ◼ Oracle (Cloud) eco-system各サービスとの統合に基づく付加価 値の提供 - データ管理ツール、アナリティクス、データサイエンス、データ 統合ツール、ディスカバリーとデータガバナンスをサポートする アプリなど Metadata
主なユースケース Oracle Cloud Infrastructure Data Catalog Copyright © 2021, Oracle
and/or its affiliates 10 1. データ&アナリティクス・ユーザーが、ビ ジネスコンテキストを持つ信頼できるデー タを見つけるための、時間と労力を節約 2. 分析のために、Object Storage Data Lake, Autonomous Data Warehouse, Oracle and non-Oracle databases全体のデータを迅速 に探索 3. ビジネス用語集、カスタムエンリッチメン ト、関連するテクニカルメタデータを管理 し、データガバナンスを向上 Discovery, Glossary, Metastore Oracle Cloud and on-prem sources Unified Metadata
* 現在提供中の機能はすべて無料で利用可能 • テクニカル・メタデー タの自動収集 • OCIおよびオンプレミス でサポートされている ソース -
Object Storage, Oracle DB, Autonomous DB, MySQL - Hive, Kafka, MS SQL Server, Azure SQL DB, IBM DB2, PostgreSQL - BETA - Oracle Analytics • データレイクのファイ ルをまとめる論理的な エンティティ • OCIテナンシー内データ ソースの自動検出 • 用語やカテゴリーを含 むビジネス用語集 • ユーザー定義のカスタ ムエンリッチメントプ ロパティ • アノテーション(注釈)の ための自由形式のタグ • AI/MLベースのレコメ ンデーションでアセッ トをビジネス用語にリ ンク • データ利用者のための 共同作業環境 • テクニカル名、ビジネ ス用語、タグ、カスタ ムプロパティに基づく 検索 • システム階層別にデー タ資産を閲覧 • テクニカルおよびビジ ネスコンテキストの詳 細を表示 • OCI Data Flowのメタス トアをサポート • ADB Data Lake Acceleratorのサポート • セキュアでスケーラブ ルなサーバーレスのク ラウドネイティブOCI サービス • Java、Python、Ruby、 GoによるREST APIと SDKの提供 • IAMベースのポリシー 管理によるアクセスコ ントロール OCI Data Catalog が提供している機能(2021年10月時点) Copyright © 2021, Oracle and/or its affiliates 11 Metadata Curation Search and Browse Optimized for Oracle Cloud Metadata Harvesting New New New New
新機能(リリースノートより) Copyright © 2021, Oracle and/or its affiliates 12
https://docs.oracle.com/en-us/iaas/releasenotes/services/data-catalog/ • 新規ユーザー向けに、データカタログの機能に関する情報を入手しやすいよう「データカタログの概 要」ページを提供 • 用語集の階層内で用語やカテゴリを移動して、ビジネス用語集を再編成するように強化 • データカタログオブジェクトのカスタムプロパティの値が更新されたときにイベントを生成する機能 を提供 •
OCI Vault シークレットを使用して、ウォレットやパスワードなどのデータ資産接続の詳細を提供す る • MySQL Databaseサービスからの収集をサポート 2021年9月1日リリースの新機能および機能強化 Copyright © 2021, Oracle and/or its affiliates 13
https://docs.oracle.com/en-us/iaas/releasenotes/services/data-catalog/ • OCI Data Flow の永続的なメタストアをサポート • テナント内で利用可能なデータソースを自動的に検出し、それらを使用してデータ資産を作成 • Excelベースのエクスポートおよびインポートにより、収穫したリレーショナルデータベースオブジェ
クトのカスタムプロパティの値を一括で更新可能 • オブジェクトストアで時間制限のある事前認証リクエストベースの接続を使用 • 安全に構成されたリレーショナルデータソースおよびKafkaデータソースに対してSSL対応のデータア セットを作成 2021年6月30日リリースの新機能および機能強化 Copyright © 2021, Oracle and/or its affiliates 14
主な利用ステップ OCI Data Catalog の操作プロセス Copyright © 2021, Oracle and/or
its affiliates 15 インスタンスへのアクセス データカタログインスタンスを開きます。 データアセットの作成 データソースをデータアセットとして登録します。 データアセットの取得 データアセットからテクニカルメタデータを取得します。 ビジネス用語集の作成 ビジネス用語集を作成して、企業のコンセプトを定義し、共通認識を確立します。 用語や属性などのリンク 手動や推奨機能を用いてビジネス用語を各オブジェクトにリンクします。 タグの追加 自由形式のタグで各オブジェクトに注釈を付けます。 データの検索 カタログを検索、参照、探索して、有用で信頼できるデータを見つけます。 継続的なメンテナンス カタログを継続的にメンテナンスし、データ資産を強化します。 1 2 3 4 5 6 7 8
データプロフェッショナルに提供される共通のUI 主な機能:Single Collaborative Environment Copyright © 2021, Oracle and/or its
affiliates 16 • • • •
対象となるデータソースのメタデータ収集 主な機能:Metadata Harvesting Copyright © 2021, Oracle and/or its affiliates
17
2021年10月時点 サポートされるデータソース Copyright © 2021, Oracle and/or its affiliates 18
データソースタイプ バージョン Oracle Database 12.1 / 12.2 / 18 / 19 / 20 / 21 Oracle Database on Oracle Cloud Infrastructure 12.1 / 12.2 / 18 / 19 Exadata DB Systems 12.1 / 12.2 / 18 / 19 Oracle Object Storage[*] Latest Autonomous Data Warehouse 18c/19c Autonomous Transaction Processing 18c/19c MySQL 8.0.x OCI MySQL Database Service 8.0.25-u3-cloud PostgreSQL 10.1 / 9.6, 9.5, 9.4, 9.3, 9.2, 9.1, and 9.0 / 8.4, 8.3, and 8.2 Apache Hive CDH 5.4 and higher / Apache 1.0, 2.0, 3.0 and higher Microsoft SQL Server 2019 / 2017 / 2016 SP2 / 2014 SP3 / 2012 SP4 IBM DB2 10.5.0.11 / 11.5.5.0 Apache Kafka 2.12-2.3.0 Microsoft Azure SQL Database 12.00.2000 [*] CSV(,/¥t/|/;), XML, Avro, Excel, Apache Parquet, Apache ORC, JSON(Simple) New
複数ファイルを論理的なエンティティとして管理 主な機能: Logical Data Entities Copyright © 2021, Oracle and/or
its affiliates 19 • オブジェクトストレージ内のファイルをグルー プ化するための論理的エンティティ - データレイクのコンテンツを意味ある形で整理 - カタログ内のオブジェクト数の増加を防ぐ • ファイル名のパターンに基づいて関連ファイル を推定 - 正規表現によるパターンの定義 - データ資産にパターンを割り当てて収穫 • 他のデータエンティティと同様に、アノテー ション、タグ付け、メタデータの充実、検索、 フィルタリングが可能
OCI Data Flowからアクセス可能なメタストアを提供 主な機能: OCI Data Flow向けメタストア Copyright © 2021,
Oracle and/or its affiliates 20 • Object Storageのファイルに定義されたデータ ベース、テーブル、パーティションのメタスト アを作成 • OCI Data Flow アプリケーションのSpark SQL から使用 • Sparkアプリケーションや実行処理で永続的に 使用 New!!
データレイク内のデータの検索、論理スキーマの推測、ADWからの直接クエリ Data Catalog を用いた ADWの拡張 Copyright © 2021, Oracle and/or
its affiliates 21 New!! Data Catalog Object Storage Autonomous Database(s) OAC Analytical Tool of choice • データレイクから即座にインサイトを得る • Data Catalog により、データレイクのファ イルをADBで簡単に確認可能 • メタデータを一元管理し、DB間で共有 • 推論されたスキーマを自動的にADBに反映し、 データをロードして直接クエリを実行 • Oracle SQLを使用してデータセットを分析 • 用語集の定義、カスタムプロパティ、タグ からデータの意味を把握 • 大規模なデータの問い合わせ
ビジネス用語集とメタデータの強化 主な機能:Business Glossary and Metadata Enrichment Copyright © 2021, Oracle
and/or its affiliates 22 • Harvest( ) • • Excel / • ( ) •
カスタム・プロパティによるメタデータ・キュレーションの向上 主な機能:Custom Properties Copyright © 2021, Oracle and/or its affiliates
23 • ビジネスコンテキスト、データの分類、 理解、発見のためのカスタムプロパティ の定義 • データエキスパートが、データに関する 知識を共有 - リッチテキスト、数値、日付、Boolean - 値のリストを使用 - あらゆるタイプのカタログオブジェクト に関連付け可能 • オブジェクトのカスタムプロパティの値 に基づいた検索、フィルタ、ソート • 検索結果でのカスタムプロパティのク イックビュー
AI/MLによる用語/カテゴリーのリンク推奨機能 主な機能:Recommendations Copyright © 2021, Oracle and/or its affiliates 24
• ビジネスコンテキストとテクニ カルメタデータのリンクに必要 な手作業を削減 • ファジー・マッチングとAI/ML 技術を用いて、リンク可能な用 語を推奨 • データエンティティとアトリ ビュートで利用可能 • 最大10件の推奨を表示 • 推奨された用語をオブジェクト にリンク可能
収集・管理されているメタデータの情報を検索 主な機能: Search and Exploration Copyright © 2021, Oracle and/or
its affiliates 25 • • •
Oracle Cloud 環境に最適化された機能を提供 主な機能: Optimized for Oracle Cloud Copyright ©
2021, Oracle and/or its affiliates 26 • 安全性、信頼性、拡張性に優れたサーバーレス のネイティブOCIサービス • IAMベースのポリシー管理によるアクセスコン トロール • OCI Eventsとの統合によるハーベスティング関 連イベントの連携 • 他のアプリケーションやサービスとの統合のた めのREST APIとSDKの提供
メタデータを集約しデータ資産を有効に活用 サービス概要/特徴 • OCI Data Catalog は、Oracle Cloud上のデータ資産 を発見、検索、整理、強化、およびトレースするた めのインベントリサービスを提供します
• OCI Data Catalog には、Business Glossary 機能が 組み込まれており、正しく信頼できるデータ資産を 有効に活用することが可能です こんな課題に役立ちます • Oracle Cloud 上のObject Storage (CSV,Excel,ORC,Avro,Parquet,JSON)、Database、 ATP/ADW、MySQL、Hive、Kafkaに存在するメタ データを統合管理したい • アナリスト、データサイエンティスト、データス チュワードなどのデータプロフェッショナルの分析 プロジェクトやデータサイエンスプロジェクトに、 単一ビューでのデータディスカバリーを提供したい サービス価格 • 無償 (OCIリソースに対する課金も不要) Oracle Cloud Infrastructure - Data Catalog Copyright © 2021, Oracle and/or its affiliates 27
本資料に関するお問合せ Nobu Tanigawa
[email protected]
Copyright © 2021, Oracle and/or its
affiliates 28
None