Slide 1

Slide 1 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync ハンズオンセミナー ~SaaS→DWH やCDC 機能での レプリケーション処理構築を体験~ 2022/09/15 CData Software Japan

Slide 2

Slide 2 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp 本日の内容 1. CData Sync のご紹介 2. CData Sync ハンズオン 3. 質疑応答 1. Salesforce → PostgreSQL 処理 2. CDC によるPostgreSQL → MySQL 処理 3. CDC によるMySQL → Amazon Redshift 処理

Slide 3

Slide 3 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp 1. About CData Software 1. CData Sync のご紹介

Slide 4

Slide 4 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp EMPLOYEES 200+ ACTIVE CUSTOMERS 9,000+ OEM PARTNERS 100+ © 2022 CData Software Inc. | www.cdata.com CData Software CData Software, Inc. • 本社:US(NC州), オフィス:日本 / 欧州 / インド / 中国 • データコネクティビティ テクノロジーのリーダー CData Software Japan, LLC • 宮城県仙台市 • 2016/06 〜

Slide 5

Slide 5 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp © 2022 CData Software Inc. | www.cdata.com CData Sync SaaS データのDB・DWH への連携 ・データパイプライン構築 • 3ステップ、ノーコードでデータパイプライ ン処理を作成、データ統合基盤を構築 • 高度な差分更新メカニズム(CDC など)を搭載 • オンプレ・クラウドどちらにもデプロイ可能 なアプリケーション製品 • 400を超えるデータソース • 20を超える主要なデータレイク・データベー ス・データウェアハウスへのデータ複製

Slide 6

Slide 6 text

© 2022 CData Software Inc. | www.cdata.com SaaSを中心とする400(API Profile含 む)を超えるデータソース 主要なデータレイク・データベース・ データウェアハウス CData Sync 400を超えるデータソースのデータをノーコードでデータベースにレプリケーション シンプルな設定 ETL/ELT 方式 高度な差分更新 柔軟なジョブ管理 ノーコード、3ステップで データ統合基盤を構築 標準SQLによるデータ抽出 時での変換、もしくは、デ ータウェアハウスへの取り 込み後の変換どちらにも対 応 CDC(ChangeDataCapture) などの高度な差分更新メカ ニズムを搭載 処理負荷を軽減し、日々の ジョブ実行時間の短縮を実 現 オブジェクト(テーブルや項目)、処理方式 (洗い替えor差分など)や条件(一部のレコ ードのみ)を指定したジョブ作成が可能 作成したジョブはスケジュール、および、 Web APIやコマンドラインで実行可能

Slide 7

Slide 7 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp 主要なRDB およびクラウドデータストアを同期先に https://www.cdata.com/jp/sync/#destinations From traditional RDB to modern cloud data stores as Sync destination

Slide 8

Slide 8 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp 400+のデータソースをサポート Industry Leading 400+ SaaS and DB supported as data source

Slide 9

Slide 9 text

© 2022 CData Software Inc. | www.cdata.com CData Sync 3つの簡単なステップでデータパイプライン処理を構築 1 データソースの コネクションを設定 2 同期先のコネクションを設定 3 ジョブ設定&実行 CData Sync の管理コンソールにログインし てサポートされている400を超えるクラウド アプリケーション、データベース、データウ ェアハウスなどの連携先を選択してください。 接続したいデータソースへの接続は通常、デ ータソースのWeb インターフェースへのロ グインだけで完了します。 データをレプリケーションする同期先のデー タストア(データレイク・データベース・デ ータウェアハウス)を選択してください。 接続したい同期先への接続は通常、データソ ースと同様にWeb インターフェースへのロ グインだけで完了します。 同期ジョブの設定にてオブジェクト(テーブ ルや項目)、処理方式(洗い替え or 差分な ど)や条件(一部のレコードのみ)を指定し ます。 作成したジョブの実行スケジュール(日次・ 月次など)を設定します。

Slide 10

Slide 10 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync の多様な活用シーン suitable for analytics, application integration, backup, AI& Machine Learning

Slide 11

Slide 11 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp 1. About CData Software Change Data Capture(CDC)について

Slide 12

Slide 12 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp データソースがDB の差分更新 DB 向けの差分抽出の方式:Change Data Capture(CDC) - これまでのように全件取得してからフィルタリングではなく、更新レコードを検知してそれだけ抽出する仕組みのこと - CDC には複数の方式がある(クエリベース、トリガー、ログベース) https://datacater.io/blog/2020-06-22/everything-you-need-to-know-about-cdc.html

Slide 13

Slide 13 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp CDC まとめ 種類 リアルタイム 削除レコード対応 パフォーマンス 対応Ver(DB) クエリベース △ × △ 〇 トリガー 〇 〇 △ PostgreSQL:Ver9.1~ ログベース 〇 〇 〇 PostgreSQL:Ver9.4~ MySQL:Ver8.0~(default利用) SQL Server:Enterprise など 差分データを取得する方式はログベースが圧倒的に良い

Slide 14

Slide 14 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp CDC:クエリベース クエリベースでは対象テーブルにタイムスタンプで検索する → SQLのWhere 句に更新日付の条件を入れることで、差分データを抽出できるようになる 例) Select * from Account Where updated_at> ‘yyyy-MM-dd(最終更新日時)’ ポジ要素: - DB 側の設定不要ですぐ実行可 ネガ要素: - データ量によってデータベース全体に負荷が掛かる - 更新日時項目を持つ必要がある - 削除レコードは検知できない

Slide 15

Slide 15 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp CDC:トリガー トリガーによるCDC では、変更が行われたタイミングで別テーブルに変更情報を連携 → 対象テーブルに変更が行われたタイミングで、別テーブルに「Insert、Update、Delete」の内容を連携できる ポジ要素: - 削除も含めて全変更情報を取得可 ネガ要素: - 別テーブルの管理で運用が複雑化 - トリガー処理がプラスされる=元のステートメントの実行時間が増える - テーブルのスキーマ変更時は手動対応する必要がある

Slide 16

Slide 16 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp CDC:ログベース トランザクションログを利用した差分データ抽出の方式 → すべての変更イベントをリアルタイムで検知 ポジ要素: - ログを直接参照でDB へのパフォーマンスに影響与えない - スキーマ変更も気にせず、管理が容易 ネガ要素: - 古いバージョンのDB では未対応であることが多い

Slide 17

Slide 17 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync のCDC 機能について - 2022/09/15 時点では下記コネクタでCDC をサポート中 SQL Server、 Oracle、 MySQL、 PostgreSQL - 実現できるデータパイプライン構成の例 セルフホスティング型を利用し、オンプレミスにあるDBと同じネットワーク内に CData Sync をホスティングし、CDC 機能でクラウド連携

Slide 18

Slide 18 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp 1. About CData Software 2. CData Sync ハンズオン

Slide 19

Slide 19 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp ハンズオン内容 1. Salesforce → PostgreSQL 処理 https://www.cdata.com/jp/blog/salesforce-sync-postgresql 2. CDC によるPostgreSQL → MySQL 処理 https://www.cdata.com/jp/blog/postgresql-sync-mysql 3. CDC によるMySQL → Amazon Redshift 処理 https://www.cdata.com/jp/blog/mysql-sync-redshift

Slide 20

Slide 20 text

© 2022 CData Software Japan, LLC | www.cdata.com/jp 1 Chome-6-27 Chuo, Aoba Ward, Sendai, Miyagi Prefecture 980-0021, Japan Tel: 050-5578-7390 CData Japan 600 Market St. #300 Chapel Hill, NC 27516 USA Tel: (919) 885-0202 Fax: (919) 928-5455 US Headquarters - United Kingdom - Central & Eastern Europe - Central China Additional Offices Contact Us Worldwide Offices for Global Sales and Support www.cdata.com