Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OCI Data Catalog Overview 2022年5月版
Search
oracle4engineer
PRO
May 31, 2022
Technology
1
780
OCI Data Catalog Overview 2022年5月版
OCI Data Catalog に関する概要資料です。2022年5月時点での情報をベースとしています。最新情報は、随時アップデートされた資料やマニュアルを御確認下さい。
oracle4engineer
PRO
May 31, 2022
Tweet
Share
More Decks by oracle4engineer
See All by oracle4engineer
OCI IAM Identity Domain_APEX管理者サイトとの認証連携/Identity Domain for APEX Admin Site
oracle4engineer
PRO
0
27
OCI IAM Identity Domain_パスワードセット後の”サインインへ進む”ボタン非表示/Identity Domain Hidden Continue to Sign In Button
oracle4engineer
PRO
0
31
[TechNight #91] Oracle Database 最新パフォーマンス分析手法
oracle4engineer
PRO
4
300
LLM拡張解体新書/llm-extension-deep-dive
oracle4engineer
PRO
27
8.7k
【Oracle Cloud ウェビナー】【入門&再入門】はじめてのOracle Cloud Infrastructure [+最新情報]
oracle4engineer
PRO
1
200
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
2
8.1k
マーケットプレイス版Oracle WebCenter Content For OCI
oracle4engineer
PRO
3
1k
話題の MCP と巡る OCI RAG ソリューションの旅 - Select AI with RAG と Generative AI Agents ディープダイブ
oracle4engineer
PRO
6
180
【Oracle Cloud ウェビナー】インフラのプロフェッショナル集団KELが考えるOCIでのソリューション実現
oracle4engineer
PRO
1
150
Other Decks in Technology
See All in Technology
2025新卒研修・HTML/CSS #弁護士ドットコム
bengo4com
2
3.6k
마라톤 끝의 단거리 스퍼트: 2025년의 AI
inureyes
PRO
1
200
Wasmで社内ツールを作って配布しよう
askua
0
160
With Devin -AIの自律とメンバーの自立
kotanin0
2
950
「育てる」サーバーレス 〜チーム開発研修で学んだ、小さく始めて大きく拡張するAWS設計〜
yu_kod
1
210
地域コミュニティへの「感謝」と「恩返し」 / 20250726jawsug-tochigi
kasacchiful
0
110
AI駆動開発 with MixLeap Study【大阪支部 #3】
lycorptech_jp
PRO
0
280
経理出身PdMがAIプロダクト開発を_ハンズオンで学んだ話.pdf
shunsukenarita
1
260
20250728 MCP, A2A and Multi-Agents in the future
yoshidashingo
1
160
経験がないことを言い訳にしない、 AI時代の他領域への染み出し方
parayama0625
0
280
解消したはずが…技術と人間のエラーが交錯する恐怖体験
lamaglama39
0
150
データエンジニアがクラシルでやりたいことの現在地
gappy50
3
780
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
51
8.7k
Six Lessons from altMBA
skipperchong
28
3.9k
A Tale of Four Properties
chriscoyier
160
23k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
770
Git: the NoSQL Database
bkeepers
PRO
431
65k
Facilitating Awesome Meetings
lara
54
6.5k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Rails Girls Zürich Keynote
gr2m
95
14k
Being A Developer After 40
akosma
90
590k
Building Applications with DynamoDB
mza
95
6.5k
Raft: Consensus for Rubyists
vanstee
140
7k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Transcript
Oracle Cloud Infrastructure Data Catalog 2022年5月版 日本オラクル株式会社 事業戦略統括 事業開発本部 Senior
Business Development Manager 谷川 信朗
データベース ファイル等 センサー ソーシャル モバイル 業務部門 IT 開発者 データ サイエンティ
スト 2 Copyright © 2022, Oracle and/or its affiliates 各種サービスを組み合わせることで、クラウド上に Data Lake を含むデータ基盤を実現 Oracleが提供する 包括的な Cloud Data Platform ソリューション Object Storage OCI Data Flow OCI GoldenGate OCI Streaming Stream Analytics for OCI Analytics Cloud Fast Connect Data Providers (対象データ) Data Consumers (データ利用者) *1) 2022年5月現在、Big Data Serviceに含まれたサービスとして提供中 Big Data Service ADW/ATP/ExaCS OCI Data Integration OCI Data Science Cloud SQL(*1) OCI Data Catalog Ingest, Integration, Data Refinery (収集) Data Persistence, Data Lake (蓄積/管理) Serving (提供) Visualize, Analytics, Data Science (可視化/分析/データサイエンス)
Oracleエコシステムに最適化されたメタデータ管理サービス Oracle Cloud Infrastructure Data Catalog Copyright © 2022, Oracle
and/or its affiliates 3 メタデータ収集と管理 テクニカル・メタデータの収集、 ビジネス・メタデータの追加、ビ ジネス辞書の管理、AI/MLレコメ ンデーション、カスタム・プロパ ティやタグによるメタデータの充 実 技術名、ビジネス用語、およびタ グに基づいて検索し、フィルター を使用して関心のあるオブジェク トを見つけることが可能 REST APIとSDKを備えた、安全で 信頼性の高いサーバーレスのネイ ティブOCIサービスとして提供。 他のOCIサービスとの連携・統合 も段階的に提供 検索と発見 Oracle Cloud に最適化
メタデータを集約しデータ資産を有効に活用 サービス概要/特徴 • OCI Data Catalog は、Oracle Cloud上のデータ資産 を発見、検索、整理、強化、およびトレースするた めのインベントリサービスを提供します
• OCI Data Catalog には、Business Glossary 機能が 組み込まれており、正しく信頼できるデータ資産を 有効に活用することが可能です こんな課題に役立ちます • Oracle Cloud 上のObject Storage (CSV,Excel,ORC,Avro,Parquet,JSON)、Database、 ATP/ADW、MySQL、Hive、Kafkaに存在するメタ データを統合管理したい • アナリスト、データサイエンティスト、データス チュワードなどのデータプロフェッショナルの分析 プロジェクトやデータサイエンスプロジェクトに、 単一ビューでのデータディスカバリーを提供したい サービス価格 • 無償 (OCIリソースに対する課金も不要) Oracle Cloud Infrastructure - Data Catalog Copyright © 2022, Oracle and/or its affiliates 4
データ利用者がデータに対する適切な理解を得るための Data Catalog 必要とされる Data Catalog とは Copyright © 2022,
Oracle and/or its affiliates 5 Data Analysts Data Scientists Data Engineers Developers Data Stewards 分析に適したデータが 見つからない • データ資産の全体像の欠如 • 部門固有知識への依存 • 困難を極めるデータ問題の トラブルシューティング • データの情報が簡単に入手 できない データレイクのデータを 理解するのは難しい • データ辞書が存在しない • 手動でのスキーマ定義 • データモデルをそもそも 共有できていない データガバナンスを 改善する必要がある • データの所有権が不明瞭 • 一般的なビジネス概念の欠如 • データ問題を解決するための コラボレーションがない • 機密データの拡散
Data Catalog にMetadata Enrichment(メタデータの強化) が必要となる理由 必要とされる Data Catalog とは Copyright
© 2022, Oracle and/or its affiliates 6 Data Analysts Data Scientists Data Engineers Developers Data Stewards 分析に適したデータが 見つからない • データ資産の全体像の欠如 • 部門固有知識への依存 • 困難を極めるデータ問題の トラブルシューティング • データの情報が簡単に入手 できない データレイクのデータを 理解するのは難しい • データ辞書が存在しない • 手動でのスキーマ定義 • データモデルをそもそも 共有できていない データガバナンスを 改善する必要がある • データの所有権が不明瞭 • 一般的なビジネス概念の欠如 • データ問題を解決するための コラボレーションがない • 機密データの拡散
データ利用者のためのデータ資産全体像の考え方 Data Catalog を構成していく考え方 Copyright © 2022, Oracle and/or its
affiliates 7 Technical Metadata Operational Metadata • ソースシステムからメタデータを収集 • 一般的に自動化されたプロセス Business Metadata • データ専門家による情報追加等 • 一般的に手動で行われるプロセス • (将来的に)AI/MLアシストによる強化 ◼ Enriche / Curate Business Glossary Metadata ◼ Harvesting • オペレーショナル情報(テクニカルオブ ジェクトについて) • 使用傾向、ジョブ実行サマリー、成功/ 失敗、更新日、リソース消費量など • ソースにあるオブジェクト情報 • スキーマ名、テーブル/カラム名、デー タタイプ、PK/FK、レポート、ETLフ ロー、変換ロジック、式など • データリネージとデータプロファイル • テクニカルオブジェクトについての追 加のビジネスコンテキスト • ビジネスコンセプトの用語集、分類、 注釈。説明、所有者、部署、地域、更 新頻度 評価、コメント、Q&A、フリー フォームタグなど
Oracle (Cloud) eco-systemに最適化されたフルマネージド型データカタログ・サービス Oracle Cloud Infrastructure Data Catalog Copyright ©
2022, Oracle and/or its affiliates 8 ◼ ◼ ◼
OCI Data Catalog によるデータアナリスト向けのサポート Oracle Cloud Infrastructure Data Catalog Copyright
© 2022, Oracle and/or its affiliates 9 ◼ Oracle (Cloud) eco-system内のデータストアに対するデータ・ ディスカバリーのサポート - オラクルのオンプレミスおよびOCIのデータソース、クラウド サービス、および一部の3rd Partyデータソースに対応 ◼ Object Storageのためのメタストアと統一カタログを提供 - オラクルのデータベース、オブジェクト・ストレージ、およびク エリ・サービスを横断 ◼ Oracle (Cloud) eco-system各サービスとの統合に基づく付加価 値の提供 - データ管理ツール、アナリティクス、データサイエンス、データ 統合ツール、ディスカバリーとデータガバナンスをサポートする アプリなど Metadata
主なユースケース Oracle Cloud Infrastructure Data Catalog Copyright © 2022, Oracle
and/or its affiliates 10 1. データ&アナリティクス・ユーザーが、ビ ジネスコンテキストを持つ信頼できるデー タを見つけるための、時間と労力を節約 2. 分析のために、Object Storage Data Lake, Autonomous Data Warehouse, Oracle and non-Oracle databases全体のデータを迅速 に探索 3. ビジネス用語集、カスタムエンリッチメン ト、関連するテクニカルメタデータを管理 し、データガバナンスを向上 Discovery, Glossary, Metastore Oracle Cloud and on-prem sources Unified Metadata
* 現在提供中の機能はすべて無料で利用可能 • テクニカル・メタデー タの自動収集 • OCIおよびオンプレミス でサポートされている ソース -
Object Storage, Oracle DB, Autonomous DB, MySQL - Hive, Kafka, MS SQL Server, Azure SQL DB, IBM DB2, PostgreSQL - BETA - Oracle Analytics • データレイクのファイ ルをまとめる論理的な エンティティ • OCIテナンシー内データ ソースの自動検出 • 用語やカテゴリーを含 むビジネス用語集 • ユーザー定義のカスタ ムエンリッチメントプ ロパティ • アノテーション(注釈)の ための自由形式のタグ • AI/MLベースのレコメ ンデーションでアセッ トをビジネス用語にリ ンク • データ利用者のための 共同作業環境 • テクニカル名、ビジネ ス用語、タグ、カスタ ムプロパティに基づく 検索 • システム階層別にデー タ資産を閲覧 • テクニカルおよびビジ ネスコンテキストの詳 細を表示 • OCI Data Flowのメタス トアをサポート • ADB Data Lake Acceleratorのサポート • セキュアでスケーラブ ルなサーバーレスのク ラウドネイティブOCI サービス • Java、Python、Ruby、 GoによるREST APIと SDKの提供 • IAMベースのポリシー 管理によるアクセスコ ントロール OCI Data Catalog が提供している機能(2022年5月時点) Copyright © 2022, Oracle and/or its affiliates 11 Metadata Curation Search and Browse Optimized for Oracle Cloud Metadata Harvesting
新機能(リリースノートより) Copyright © 2022, Oracle and/or its affiliates 12
https://docs.oracle.com/en-us/iaas/releasenotes/services/data-catalog/ • IBM DB2 AS400 システムからのメタデータのハーベスティングをサポート • Oracle Object Storageデータ資産のHarvestジョブを作成する際、論理エンティティのファイル名パ
ターンを作成、割り当てることをサポート • Spark 3.2でメタストアを使用 • メタストア操作の回復力とパフォーマンスの向上 2022年4月5日リリースの新機能および機能強化 Copyright © 2022, Oracle and/or its affiliates 13
https://docs.oracle.com/en-us/iaas/releasenotes/services/data-catalog/ • Logical Entity(論理エンティティ)で、ファイル名のパターンに複雑な正規表現を設定することなくエ ンティティを自動的に生成できるように強化 • ハーベスト時に自動的に識別されるパーティションにより、データ・レイク内のファイルをよりよく 理解することができるように強化 • メタストアからデータカタログにメタデータを同期することで、検索やメタデータのエンリッチメン
トを容易に行うことができるように強化 • 用語集でビジネス用語の関係を定義できるように強化 • Microsoft ExcelベースでOracle Object Storageデータアセットの論理エンティティのカスタム・プロ パティ値をエクスポートまたはインポートすることができるように強化 • zlib形式で圧縮されたOracle Object Storageファイルのメタデータを取得できるように強化 2021年12月16日リリースの新機能および機能強化 Copyright © 2022, Oracle and/or its affiliates 14
https://docs.oracle.com/en-us/iaas/releasenotes/services/data-catalog/ • 新規ユーザー向けに、データカタログの機能に関する情報を入手しやすいよう「データカタログの概 要」ページを提供 • 用語集の階層内で用語やカテゴリを移動して、ビジネス用語集を再編成するように強化 • データカタログオブジェクトのカスタムプロパティの値が更新されたときにイベントを生成する機能 を提供 •
OCI Vault シークレットを使用して、ウォレットやパスワードなどのデータ資産接続の詳細を提供す る • MySQL Databaseサービスからの収集をサポート 2021年9月1日リリースの新機能および機能強化 Copyright © 2022, Oracle and/or its affiliates 15
https://docs.oracle.com/en-us/iaas/releasenotes/services/data-catalog/ • OCI Data Flow の永続的なメタストアをサポート • テナント内で利用可能なデータソースを自動的に検出し、それらを使用してデータ資産を作成 • Excelベースのエクスポートおよびインポートにより、収穫したリレーショナルデータベースオブジェ
クトのカスタムプロパティの値を一括で更新可能 • オブジェクトストアで時間制限のある事前認証リクエストベースの接続を使用 • 安全に構成されたリレーショナルデータソースおよびKafkaデータソースに対してSSL対応のデータア セットを作成 2021年6月30日リリースの新機能および機能強化 Copyright © 2022, Oracle and/or its affiliates 16
主な利用ステップ OCI Data Catalog の操作プロセス Copyright © 2022, Oracle and/or
its affiliates 17 インスタンスへのアクセス データカタログインスタンスを開きます。 データアセットの作成 データソースをデータアセットとして登録します。 データアセットの取得 データアセットからテクニカルメタデータを取得します。 ビジネス用語集の作成 ビジネス用語集を作成して、企業のコンセプトを定義し、共通認識を確立します。 用語や属性などのリンク 手動や推奨機能を用いてビジネス用語を各オブジェクトにリンクします。 タグの追加 自由形式のタグで各オブジェクトに注釈を付けます。 データの検索 カタログを検索、参照、探索して、有用で信頼できるデータを見つけます。 継続的なメンテナンス カタログを継続的にメンテナンスし、データ資産を強化します。 1 2 3 4 5 6 7 8
データプロフェッショナルに提供される共通のUI 主な機能:Single Collaborative Environment Copyright © 2022, Oracle and/or its
affiliates 18 • • • •
対象となるデータソースのメタデータ収集 主な機能:Metadata Harvesting Copyright © 2022, Oracle and/or its affiliates
19
2022年5月時点 サポートされるデータソース Copyright © 2022, Oracle and/or its affiliates 20
データソースタイプ バージョン Oracle Database 12.1 / 12.2 / 18 / 19 / 20 / 21 Oracle Database on Oracle Cloud Infrastructure 12.1 / 12.2 / 18 / 19 Exadata DB Systems 12.1 / 12.2 / 18 / 19 Oracle Object Storage[*] Latest Autonomous Data Warehouse 18c/19c Autonomous Transaction Processing 18c/19c MySQL 8.0.x OCI MySQL Database Service 8.0.25-u3-cloud PostgreSQL 10.1 / 9.6, 9.5, 9.4, 9.3, 9.2, 9.1, and 9.0 / 8.4, 8.3, and 8.2 Apache Hive CDH 5.4 and higher / Apache 1.0, 2.0, 3.0 and higher Microsoft SQL Server 2019 / 2017 / 2016 SP2 / 2014 SP3 / 2012 SP4 IBM DB2 LUW (DB2 for Linux, UNIX and Windows) 10.5.0.11 / 11.5.5.0 Ibm DB2 AS400 7.1+ Apache Kafka 2.12-2.3.0 Microsoft Azure SQL Database 12.00.2000 [*] CSV(,/¥t/|/;), XML, Avro, Excel, Apache Parquet, Apache ORC, JSON(Simple)
複数ファイルを論理的なエンティティとして管理 主な機能: Logical Data Entities Copyright © 2022, Oracle and/or
its affiliates 21 • オブジェクトストレージ内のファイルをグルー プ化するための論理的エンティティ - データレイクのコンテンツを意味ある形で整理 - カタログ内のオブジェクト数の増加を防ぐ • ファイル名のパターンに基づいて関連ファイル を推定 - 正規表現によるパターンの定義 - データ資産にパターンを割り当てて収穫 • 他のデータエンティティと同様に、アノテー ション、タグ付け、メタデータの充実、検索、 フィルタリングが可能
OCI Data Flowからアクセス可能なメタストアを提供 主な機能: OCI Data Flow向けメタストア Copyright © 2022,
Oracle and/or its affiliates 22 • Object Storageのファイルに定義されたデータ ベース、テーブル、パーティションのメタスト アを作成 • OCI Data Flow アプリケーションのSpark SQL から使用 • Sparkアプリケーションや実行処理で永続的に 使用
データレイク内のデータの検索、論理スキーマの推測、ADWからの直接クエリ Data Catalog を用いた ADWの拡張 Copyright © 2022, Oracle and/or
its affiliates 23 Data Catalog Object Storage Autonomous Database(s) OAC Analytical Tool of choice • データレイクから即座にインサイトを得る • Data Catalog により、データレイクのファ イルをADBで簡単に確認可能 • メタデータを一元管理し、DB間で共有 • 推論されたスキーマを自動的にADBに反映し、 データをロードして直接クエリを実行 • Oracle SQLを使用してデータセットを分析 • 用語集の定義、カスタムプロパティ、タグ からデータの意味を把握 • 大規模なデータの問い合わせ
ビジネス用語集とメタデータの強化 主な機能:Business Glossary and Metadata Enrichment Copyright © 2022, Oracle
and/or its affiliates 24 • Harvest( ) • • Excel / • ( ) •
カスタム・プロパティによるメタデータ・キュレーションの向上 主な機能:Custom Properties Copyright © 2022, Oracle and/or its affiliates
25 • ビジネスコンテキスト、データの分類、 理解、発見のためのカスタムプロパティ の定義 • データエキスパートが、データに関する 知識を共有 - リッチテキスト、数値、日付、Boolean - 値のリストを使用 - あらゆるタイプのカタログオブジェクト に関連付け可能 • オブジェクトのカスタムプロパティの値 に基づいた検索、フィルタ、ソート • 検索結果でのカスタムプロパティのク イックビュー
AI/MLによる用語/カテゴリーのリンク推奨機能 主な機能:Recommendations Copyright © 2022, Oracle and/or its affiliates 26
• ビジネスコンテキストとテクニ カルメタデータのリンクに必要 な手作業を削減 • ファジー・マッチングとAI/ML 技術を用いて、リンク可能な用 語を推奨 • データエンティティとアトリ ビュートで利用可能 • 最大10件の推奨を表示 • 推奨された用語をオブジェクト にリンク可能
収集・管理されているメタデータの情報を検索 主な機能: Search and Exploration Copyright © 2022, Oracle and/or
its affiliates 27 • • •
Oracle Cloud 環境に最適化された機能を提供 主な機能: Optimized for Oracle Cloud Copyright ©
2022, Oracle and/or its affiliates 28 • 安全性、信頼性、拡張性に優れたサーバーレス のネイティブOCIサービス • IAMベースのポリシー管理によるアクセスコン トロール • OCI Eventsとの統合によるハーベスティング関 連イベントの連携 • 他のアプリケーションやサービスとの統合のた めのREST APIとSDKの提供
メタデータを集約しデータ資産を有効に活用 サービス概要/特徴 • OCI Data Catalog は、Oracle Cloud上のデータ資産 を発見、検索、整理、強化、およびトレースするた めのインベントリサービスを提供します
• OCI Data Catalog には、Business Glossary 機能が 組み込まれており、正しく信頼できるデータ資産を 有効に活用することが可能です こんな課題に役立ちます • Oracle Cloud 上のObject Storage (CSV,Excel,ORC,Avro,Parquet,JSON)、Database、 ATP/ADW、MySQL、Hive、Kafkaに存在するメタ データを統合管理したい • アナリスト、データサイエンティスト、データス チュワードなどのデータプロフェッショナルの分析 プロジェクトやデータサイエンスプロジェクトに、 単一ビューでのデータディスカバリーを提供したい サービス価格 • 無償 (OCIリソースに対する課金も不要) Oracle Cloud Infrastructure - Data Catalog Copyright © 2022, Oracle and/or its affiliates 29
本資料に関するお問合せ Nobu Tanigawa
[email protected]
Copyright © 2022, Oracle and/or its
affiliates 30
None