Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OCI Data Integration Overview

OCI Data Integration Overview

OCI Data Integration に関する概要資料です。2022年12月時点での情報をベースとしています。最新情報は、随時アップデートされた資料やマニュアルを御確認下さい。

oracle4engineer

December 01, 2022
Tweet

More Decks by oracle4engineer

Other Decks in Technology

Transcript

  1. データ統合(Data Integration)における課題 Copyright © 2022, Oracle and/or its affiliates 2

    アクセスできないデータの存在 と、その影響による機会損失 信用できないデータに基づく 機械学習処理の実行 不完全で質の低いデータによる、 ビジネス判断力の低下
  2. ユーザー部門がIT部門に求める”いつでもどこでもデータにアクセスできる基盤” データ統合分野におけるトレンド Copyright © 2022, Oracle and/or its affiliates 3

    2022年までに 自動化される 従来型 データ統合タスク (Gartner 2019) 80% の企業 39% のDBA 45% が自動化 2025年までに 従来型 データセンターの 運用を停止 (Datamation 2019) 50以上の データベースを 常時管理 (Oracle Survey)
  3. Cloud, Big Data Analytics and AI/ML 新たなビジネス機会を牽引する最新のテクノロジー Copyright © 2022,

    Oracle and/or its affiliates 4 Cloud: 無限のストレージ上で展開可能な即時かつ弾力的実行環境 Big Data: データレイクが支える予測分析 Data Science AI & ML: 競争優位を得るためのデジタルトランスフォーメーション 最新のテクノロジーの恩恵を取り込むことでの解決・改善
  4. データドリブンな組織に必要とされる統一された”Data Ecosystem” Copyright © 2022, Oracle and/or its affiliates 5

    データドリブンを実践する組織には、データを理解し、変換/管理し、価値を獲得し、その価 値を活用するための統一されたデータエコシステムが必要
  5. データベース ファイル等 センサー ソーシャル モバイル 業務部門 IT 開発者 データ サイエンティ

    スト 6 Copyright © 2022, Oracle and/or its affiliates 各種サービスを組み合わせることで、クラウド上に Data Lake を含むデータ基盤を実現 Oracleが提供する 包括的な Cloud Data Platform ソリューション Object Storage OCI Data Flow OCI GoldenGate OCI Streaming Stream Analytics for OCI Analytics Cloud Fast Connect Data Providers (対象データ) Data Consumers (データ利用者) *1) 2022年12月現在、Big Data Serviceに含まれたサービスとして提供中 Big Data Service ADW/ATP/ExaCS OCI Data Integration OCI Data Science Cloud SQL(*1) OCI Data Catalog Ingest, Integration, Data Refinery (収集) Data Persistence, Data Lake (蓄積/管理) Serving (提供) Visualize, Analytics, Data Science (可視化/分析/データサイエンス)
  6. GUIベースのフルマネージド型ETLサービス Oracle Cloud Infrastructure Data Integration Copyright © 2022, Oracle

    and/or its affiliates 7 ノーコード・データフロー設計 直感的なユーザー・インターフェ イスと豊富なコンポーネントによ り、生産性の高いETL/ELT処理の データフロー設計やマッピング設 計が可能 GUIによるインタラクティブな データプリパレーションやプロ ファイリングにより、ユーザー自 身でのデータ検証やデータ調整を 可能 処理内容に応じて最適な実行コー ドを生成し、Spark ETLによる大 量データの並列処理や、SQLプッ シュダウンによるE-LT処理をフル マネージドで切り替え実行可能 データ没入型エクスペリエンス フルマネージド型ETLエンジン
  7. GUIベースのクラウドETLサービス サービス概要/特徴 • OCI Data Integration は、様々なデータ変換処理を 行うためのETL機能と、コーディング無しで設計す るグラフィカルなインタフェースを提供します •

    OCI Data Integration により、簡単にデータの準 備、統合、ロードを行うことが可能です。 こんな課題に役立ちます • データサイエンスやアナリティクスに使用される データレイクへの大規模なデータのロードと変換を 効率的に実行したい • 分析目的で使用されるDW(自律型データウェアハ ウスなど)へのスケーラブルなデータロードと変換 を効率的に実行したい サービス価格 • Oracle Cloud Infrastructure - Data Integration - Workspace(ETL開発時): ¥19.2 [Workspace Usage Per Hour] • Oracle Cloud Infrastructure - Data Integration(ETL実行時): ¥4.8 [Gigabyte of Data Processed Per Hour] • Oracle Cloud Infrastructure - Data Integration - Pipeline Operator Execution(Pipeline/Schedule実行時): ¥36.0 [Execution Hour] Oracle Cloud Infrastructure - Data Integration Copyright © 2022, Oracle and/or its affiliates 8
  8. 開発者の生産性を最大化 • データフローを構築するための強力なグラ フィカルエディタ • Data Xplorerでデータを視覚的にプレビュー • データフローをパラメータ化して柔軟性を最 大化

    [ベネフィット] • 開発者がより迅速にイノベーションを起こせ るようにする • 簡素化されたETL設計と保守 • パワフルで柔軟なデータ統合変換 “No Code Data Flow Design” Copyright © 2022, Oracle and/or its affiliates 10
  9. データの移動と統合を簡単に • タスクによりデータ統合プロセスの構成を簡 素化し、価値を迅速に提供 • データローダ タスク(Data Loader Task):デー タXplorerを使って反復的にデータセットを準備

    し変換を実行 • 統合タスク(Integration Task):データフローの 設定と実行 [ベネフィット] • 短時間で生産性を向上させ、データをロード • ベストプラクティスの推進とデータフロー ルールの再利用が可能 ガイド付きタスクの提供 Copyright © 2022, Oracle and/or its affiliates 11 Data Loader Taskによる データロード 基本的なプロファイリングやData Preparation
  10. Oracle Cloud に最適化された接続性 • Oracle Cloud および オンプレミス環境のデー タソースに接続が可能 •

    Oracle Autonomous Database (ADW/ATP) • Oracle Database & Exadata DB Systems • Oracle Object Storage: CSV, JSON, Parquet, Avro • MySQL / PostgreSQL / Apache Hive • Microsoft SQL Server & Azure SQL Database • Amazon RDS (MySQL, Oracle, Microsoft SQL Server) • その他(*マニュアルをご参照ください) [ベネフィット] • Oracle Cloudに最適化された接続性 • 使いやすいネイティブアダプタの拡張セット Broad Connectivityの提供 Copyright © 2022, Oracle and/or its affiliates 12 Data Integration OCI Data Integration ORACLE AUTONOMOUS DATABASE ORACLE AUTONOMOUS DATABASE Amazon RDS
  11. 運用フェーズでのメンテナンス負荷削減 • 運用フェーズでしばしば発生する、データ ソース側のスキーマ変更による影響(スキー マ・ドリフト)に対する、手動メンテナンスの 高コスト化を抑制 • 事前準備したルールベースにより、スキーマ の変更を動的に処理することで、スキーマの ドリフトから保護

    [ベネフィット] • シンプルなメンテナンスで開発コストを最小 化 • 開発者の時間を解放して、データからより多 くの価値を得ることが可能 Schema Drift Protection の提供 Copyright © 2022, Oracle and/or its affiliates 14
  12. 業界をリードするパフォーマンス • ETLとE-LTの両方の処理をサポート • 高性能なエンジンで実行するコードを生成 • 分散データ処理のためのSparkベースのETL • DBMSエンジン上でのE-LT処理のプッシュダウ ン最適化

    • ソースデータベースとターゲットデータベース がAutonomous Data Warehouseインスタンス などの同じデータアセットである場合、完全な SQLプッシュダウン処理をサポート [ベネフィット] • データを大規模に処理するための高効率な実 行 • 完全に管理されたサーバーレスランタイム Spark ETLまたはSQLプッシュダウンを搭載 Copyright © 2022, Oracle and/or its affiliates 15 Integration Execution Service Optimizer Spark Execution
  13. https://docs.oracle.com/en-us/iaas/releasenotes/services/data-integration/ • データソースまたはターゲットとしてHDFS(Hadoop分散ファイルシステム)をサポート • データローダータスクでソース・タイプが「データベース」または「ファイル・ストレージ」の場合に複数のデー タ・エンティティをロードすることができるようになりました • 別コンパートメントへアプリケーションの移動ができるようになりました。またアプリケーションのOCIDコピー ができるようになりました。 •

    スケジュールの実行間隔は最低で30分となります。 • 公開されたパイプライン内のタスクを、同じワークスペースまたは別のワークスペース内の別のアプリケーション 内のタスクにマップすることができます。 • データフローでソース、ターゲット、または式の演算子をすばやく複製します。 • データフローで式演算子を使用して、ランタイムシステムで生成されたパラメーターを使用します。 2022年5月16日リリースの新機能および機能強化 Copyright © 2022, Oracle and/or its affiliates 17
  14. OCIコンソールから一元的に操作 OCI Data Integration で使用するコンポーネント(1/2) Copyright © 2022, Oracle and/or

    its affiliates 19 WORKSPACE Project, Folder, Data Asset, Task, Data Flow, Applicationをまとめる統合的なリソース・コン テナ PROJECT 設計時リソース(Task, Data Flow)のためのコンテナ FOLDER Projectや別のFolder内に設計時リソースを分けて格納するためのフォルダー DATA ASSET メタデータを含むデータソースや物理ストアを表すコンポーネント CONNECTION データソースへの接続情報コンポーネント(1つのData Assetに関連付け) DATA ENTITY テーブルやビュー、ファイルなどのデータ集合体を表すコンポーネント SCHEMA Data Asset内のData Entityの集合体を表すコンポーネント DATA FLOW ソースからターゲットの間のデータの流れおよび操作を定義する設計時リソース(Integration Taskに追加) PIPELINE 複数タスクを順番に接続するためのオーケストレーション・コンポーネント
  15. OCIコンソールから一元的に操作 OCI Data Integration で使用するコンポーネント(2/2) Copyright © 2022, Oracle and/or

    its affiliates 20 OPERATOR Data Flowの設計時に使用する入出力やデータ操作を表すコンポーネント PARAMETER Operatorの詳細に割り当てることが出来る変数コンポーネント TASK データ操作を行う設計時リソース(Integration Task, Data Loader Task, Pipeline Task)、 Applicationに登録して実行するコンポーネント APPLICATION 依存関係とともに登録されたTaskなどの実行用コンテナ(テスト環境および本番環境) PATCH アプリケーションの更新を表現するコンポーネント(ログとして格納) RUN Taskの実行を表現する実行用コンポーネント SCHEDULE スケジュール実行を定義するランタイムリソース TASK SCHEDULE スケジュールのランタイムリソースとタスクを関連付けたランタイムリソース
  16. Data Flow の設計時に使用するOperator Operator コンポーネント一覧(1/2) Copyright © 2022, Oracle and/or

    its affiliates 21 Data Flow で処理を設計する際に、キャンバスへ各Operatorをドラックアンドドロップして設定を追加していきま す。他にも将来のリリースで様々なOperatorが追加される予定です。 Source Operator 入力元となるデータエンティティ。Data Asset, Connection, Schemaなどを設定する。 データエンティティに直接SQLを入力しオーバーライドも可能 Target Operator 変換後のデータをロードする出力先となるデータエンティティ。 Insert, Overwrite, Mergeが選択可能。また、Mappingの設定もTarget側で設定する。 Filter Operator データに対するフィルター処理を行うOperator。 Join Operator データのJoin(結合)を行うOperator。Inner, Left Outer, Right Outer, Full Outer が選択可能。 Expression Operator データに対して派生フィールドを追加する式のOperator。Parameterを割り当てることも可能。 Aggregate Operator すべての行または行のグループに対して、集計やカウントのような計算処理を行うOperator。 Distinct Operator 一意の値を持つ個別の行を返す Sort Operator データの並べ替えを昇順または降順で実行
  17. Data Flow の設計時に使用するOperator Operator コンポーネント一覧(2/2) Copyright © 2022, Oracle and/or

    its affiliates 22 Data Flow で処理を設計する際に、キャンバスへ各Operatorをドラックアンドドロップして設定を追加していきま す。他にも将来のリリースで様々なOperatorが追加される予定です。 Union Operator Union(統合)処理を行うOperator Minus Operator 片方のエンティティにデータが存在しない行を返す Intersect Operator 重複行を見つけ排除可否を設定する Split Operator 単一の入力データを2つ以上の出力に分割する Pivot Operator Pivot操作を行うOperator Lookup Operator プライマリソースの条件と値に基づいてルックアップソースを参照する Function Operator OCI Data Integration から OCI Function を起動するOperator
  18. データのサンプリング、プロファイリング、Data Preparation Data Xplorer は、Task実行前にサンプリングやプロファイリングが可能な機能で、Data Flow や Data Loader 作成中に使用します。

    • データ プロファイル : 行の総数や属性などのデータの概要を表示します。 • 属性プロファイル : データ タイプ、最小値、最大値など、選択した属性の概要を表示します。 Data Xplorer Copyright © 2022, Oracle and/or its affiliates 23
  19. Data Xplorer内で適用するPreparation処理 Transformationコンポーネント Copyright © 2022, Oracle and/or its affiliates

    24 Data Xplorerの属性ごとに変換処理を適用するためのコンポーネントです。下記以外にも、今後のリリースで随時 機能追加が予定されています。 Change Case 指定した属性のデータを大文字/小文字変換します Change Data Type 指定した属性のデータ型を変更します Create Unique ID 一意のIDを生成します Exclude 指定した属性およびそのデータをDATA ENTITYから除外します Extract 指定した属性から正規表現や文字列で抽出した値を新しい属性として追加します Format 日付や数字のフォーマットのような特定のフォーマットルールをデータに適用します Hash データXplorerで属性の暗号化された値を生成します Merge Attributes 指定した2つ以上の属性およびそのデータをマージします Null Fill Up 指定した属性に含まれるNULLを指定した文字列等で埋めます Rename 指定した属性の名前を変更します Replace 指定した属性のデータを指定した文字列で置換します Replace by Pattern パターン指定でのデータ変換をおこないます Sort データを昇順または降順で並べ替えます
  20. 主な利用ステップ OCI Data Integration の操作プロセス Copyright © 2022, Oracle and/or

    its affiliates 25 Workspace にアクセス OCIコンソールからインスタンスのWorkspaceにアクセスします。 Data Asset の作成 Data Integrationに使用するデータソースを登録します。 Connectionの作成と登録 接続情報を作成し、Data Assetに追加します。 Project/Folderの作成 適宜、設計時リソースとしてProjectとFolderを作成します。 Data Flowの作成 Data Flow をデザインします。 Integration/Data Loader Taskの作成 作成したData FlowをIntegration Task に登録、適宜Data Loader Taskを追加します。 Applicationへの登録 作成したTaskをApplicationに登録し、テスト環境実行や本番環境にデプロイします。 Taskの実行とモニタリング 実行およびモニタリングを行います。 1 2 3 4 5 6 7 8
  21. 2022年5月現在 サポートされるデータソース(1/2) Copyright © 2022, Oracle and/or its affiliates 26

    Data Source Type Version Source Target Amazon RDS for SQL Server 2019/2017/2016SP2/2014SP3/2012SP4 ✔ Amazon Redshift Amazon Redshift ✔ Apache Hive CDH 5.4 and higher/Apache 1.0, 2.0, 3.0+ ✔ Hadoop Distributed File System (Hdfs) 3.1.2 ✔ ✔ Azure SQL Database 11.0+/12.0+ ✔ Microsoft Azure Synapse Analytics 12.0+ ✔ Microsoft SQL Server 2019/2017/2016SP2/2014SP3/2012SP4 ✔ MySQL 5.7.x and 8.0.x ✔ ✔ MySQL on Amazon RDS 5.7.x and 8.0.x ✔ Amazon S3 Amazon S3 ✔ Autonomous Data Warehouse 18c/19c ✔ ✔ Autonomous Transaction Processing 18c/19c ✔ ✔ Oracle Database 12.1 / 12.2 / 18 / 19 / 20 / 21 ✔ ✔ Oracle Database on OCI 12.1 / 12.2 / 18 / 19 ✔ ✔ Exadata DB Systems 12.1 / 12.2 / 18 / 19 ✔ ✔ Oracle Object Storage Latest ✔ ✔ *「+」と記載されているものはオンラインドキュメント上” and higher”と記載されているものです
  22. 2022年5月現在 サポートされるデータソース(2/2) Copyright © 2022, Oracle and/or its affiliates 27

    Data Source Type Version Source Target Oracle on Amazon RDS 12.1 / 12.2 / 18 / 19 / 20 / 21 ✔ Oracle Business Intelligence Cloud Connector (BICC)を使用したOracle Fusion Applications BICC APIバージョン13.20.10+, Fusion Applicationsバージョン13.20.10 (20 Oct)+ ✔ Oracle Business Intelligence Publisher(BIP) を使用するOracle Fusion Applications 11.1.1.9+ ✔ PostgreSQL 12.0+/11.0+/10.1/ 9.6, 9.5, 9.4, 9.3, 9.2, 9.1, and 9.0 / 8.4, 8.3, and 8.2 ✔ IBM DB2 Linux、UNIX、Windows向けのDB2 V11.1+/V10.1+/V9.1+/V8.x+ z/OSのDB2 V12+/V11+/V10+/V9.1+ z/OSのDB2 UDB V8.1 DB2 i 7.1+/6.1+ i5/OS DB2 V5R4+ ✔ Aurora PostgreSQL on AWS 1.0+ ✔ InfluxDB 1.8/2.x ✔ *「+」と記載されているものはオンラインドキュメント上” and higher”と記載されているものです
  23. ◼ Oracle Object Storage、AmazonS3データアセットでサポートされるオブジェクトタイプ • CSV, JSON, Parquet, Avro ◼

    Oracle Object StorageでCSV/JSON使用時にサポートされる圧縮タイプ/メソッド • Auto(Default), Gzip, Bzip2, Deflate, Lz4, Snappy ◼ Oracle Business Intelligence Cloud Connector (BICC)を使用したOracle Fusion Applications • データソースとしてのみサポート • BICC APIバージョン13.20.10以上、Fusion Applications 13.20.10(20-Oct)以上 ◼ Oracle Database でサポートされないデータ型 • ROWID, UROWID, BFILE, TIMESTAMP WITH LOCAL TIMEZONE, INTERVAL DAY TO SECOND, INTERVAL YEAR TO MONTH, XMLTYPE, SDO_GEOMETRY データソースに関する補足 Copyright © 2022, Oracle and/or its affiliates 28
  24. ◼ 階層型データのサポート • 現在、JSON, 複数行JSON, Avro, Parquet(Oracle Object Storageデータ・エンティティのみ)を使用 して、階層データ型を使用したデータの読取りおよび書込みを行うことが可能です。詳細はオン

    ラインマニュアルを御確認下さい。 ◼ 新規出力ファイル生成のサポート • 出力先ファイルをあらかじめ準備しておいて出力する操作以外に、新規ファイルを生成するオプ ションの選択が可能です データソースに関する補足 Copyright © 2022, Oracle and/or its affiliates 29
  25. 2022年12月時点 OCI Data Integration 価格(日本円) Copyright © 2022, Oracle and/or

    its affiliates 30 Pay as You Go Annual Flex Metric Metric Minimum Oracle Cloud Infrastructure – Data Integration - Workspace ¥22.4 ¥22.4 Workspace Usage Per Hour - Oracle Cloud Infrastructure – Data Integration ¥5.6 ¥5.6 Gigabyte of Data Processed Per Hour - Oracle Cloud Infrastructure – Data Integration - Pipeline Operator Execution ¥42.0 ¥42.0 Execution Hour - 【補足】 • 金額は1$=140円換算の日本円表記です。 • 以下の合計で課金されます。 • Workspace利用時間[per Workspace/Hour] • 1時間あたりに処理(読み込んだ)したデータの量[per GB/Hour] • Pipeline OperatorおよびSchedulerを使用する場合は以下がように課金が加わります。 • テナントごとに月に最初の30時間分の実行時間は無償 • 最小1分単位の実行時間で計算
  26. OCI Data Integration を常時起動し、日次バッチを実行する場合 (参考)構成例と価格イメージ Copyright © 2022, Oracle and/or

    its affiliates 31 Annual Flex 単価[¥] Work space 数 使用時間 [時間/日] データ量 [GB/時間] 実行時間 [時間/日] Annual Flex 月額[¥] (744時間) Annual Flex 年額[¥] (12ヶ月) ETL環境 (設計含む) Oracle Cloud Infrastructure – Data Integration - Workspace ¥22.4 1 24 ¥16,666 ¥199,987 処理実行 (データ) Oracle Cloud Infrastructure – Data Integration ¥5.6 50 4 ¥34,720 ¥416,640 スケジューラー Oracle Cloud Infrastructure – Data Integration - Pipeline Operator Execution ¥42.0 4 ¥3,948 ¥47,376 小計 ¥55,334 ¥664,003 ◼ 200GB(50[GB/h])、処理時間4時間の日次バッチを実行する場合 ※バッチ処理の複雑さなどによって変動要素があるため、詳細な見積は別途営業担当に御相談下さい ※2022年12月現在の価格に基づき作成
  27. GUIベースのクラウドETLサービス サービス概要/特徴 • OCI Data Integration は、様々なデータ変換処理を 行うためのETL機能と、コーディング無しで設計す るグラフィカルなインタフェースを提供します •

    OCI Data Integration により、簡単にデータの準 備、統合、ロードを行うことが可能です こんな課題に役立ちます • データサイエンスやアナリティクスに使用される データレイクへの大規模なデータのロードと変換を 効率的に実行したい • 分析目的で使用されるDW(自律型データウェアハウ スなど)へのスケーラブルなデータロードと変換を 効率的に実行したい サービス価格 • Oracle Cloud Infrastructure - Data Integration - Workspace(ETL開発時): ¥224 [Workspace Usage Per Hour] • Oracle Cloud Infrastructure - Data Integration(ETL実行時): ¥5.6 [Gigabyte of Data Processed Per Hour] • Oracle Cloud Infrastructure - Data Integration - Pipeline Operator Execution(Pipeline/Schedule実行時): ¥42.0 [Execution Hour] Oracle Cloud Infrastructure - Data Integration Copyright © 2022, Oracle and/or its affiliates 32 * 2022年12月現在