Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CData Sync ハンズオンセミナー~SaaS→DWH やCDC 機能でのレプリケーション処理構築を体験~

CData Sync ハンズオンセミナー~SaaS→DWH やCDC 機能でのレプリケーション処理構築を体験~

2022/09/15 開催「CData Sync ハンズオンセミナー」の資料です。

CData ではツールでSaaS データを利用するためのデータ接続(=データコネクティビティ)製品を開発・提供しています。CData Sync は、3ステップでSaaS データをDB / DWH にレプリケーションする処理を構築できるデータレプリケーションツールです。Salesforce、Dynamics 365、kintone をはじめ400以上のSaaS に接続可能、主要なDB / DWH 対応しています。
RDB -> DWH のシナリオにも力をいれており、変更データキャプチャ(CDC)機能を強化し、稼働しているDB に負担を少なくしてDWH への継続的なデータレプリケーションを実現します。
本セミナーでは、CData Sync を実際に触っていただきデータレプリケーション処理の構築を体験していただきます。

CData Software Japan

September 14, 2022
Tweet

More Decks by CData Software Japan

Other Decks in Technology

Transcript

  1. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync
    ハンズオンセミナー
    ~SaaS→DWH やCDC 機能での
    レプリケーション処理構築を体験~
    2022/09/15
    CData Software Japan

    View Slide

  2. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    本日の内容
    1. CData Sync のご紹介
    2. CData Sync ハンズオン
    3. 質疑応答
    1. Salesforce → PostgreSQL 処理
    2. CDC によるPostgreSQL → MySQL 処理
    3. CDC によるMySQL → Amazon Redshift 処理

    View Slide

  3. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. About CData Software
    1. CData Sync のご紹介

    View Slide

  4. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    EMPLOYEES
    200+
    ACTIVE CUSTOMERS
    9,000+
    OEM PARTNERS
    100+
    © 2022 CData Software Inc. | www.cdata.com
    CData Software
    CData Software, Inc.
    • 本社:US(NC州), オフィス:日本 / 欧州 / インド / 中国
    • データコネクティビティ テクノロジーのリーダー
    CData Software Japan, LLC
    • 宮城県仙台市
    • 2016/06 〜

    View Slide

  5. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    © 2022 CData Software Inc. | www.cdata.com
    CData Sync
    SaaS データのDB・DWH への連携 ・データパイプライン構築
    • 3ステップ、ノーコードでデータパイプライ
    ン処理を作成、データ統合基盤を構築
    • 高度な差分更新メカニズム(CDC など)を搭載
    • オンプレ・クラウドどちらにもデプロイ可能
    なアプリケーション製品
    • 400を超えるデータソース
    • 20を超える主要なデータレイク・データベー
    ス・データウェアハウスへのデータ複製

    View Slide

  6. © 2022 CData Software Inc. | www.cdata.com
    SaaSを中心とする400(API Profile含
    む)を超えるデータソース
    主要なデータレイク・データベース・
    データウェアハウス
    CData Sync
    400を超えるデータソースのデータをノーコードでデータベースにレプリケーション
    シンプルな設定 ETL/ELT 方式 高度な差分更新 柔軟なジョブ管理
    ノーコード、3ステップで
    データ統合基盤を構築
    標準SQLによるデータ抽出
    時での変換、もしくは、デ
    ータウェアハウスへの取り
    込み後の変換どちらにも対

    CDC(ChangeDataCapture)
    などの高度な差分更新メカ
    ニズムを搭載
    処理負荷を軽減し、日々の
    ジョブ実行時間の短縮を実

    オブジェクト(テーブルや項目)、処理方式
    (洗い替えor差分など)や条件(一部のレコ
    ードのみ)を指定したジョブ作成が可能
    作成したジョブはスケジュール、および、
    Web APIやコマンドラインで実行可能

    View Slide

  7. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    主要なRDB およびクラウドデータストアを同期先に
    https://www.cdata.com/jp/sync/#destinations
    From traditional RDB to modern cloud data stores as Sync destination

    View Slide

  8. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    400+のデータソースをサポート
    Industry Leading 400+ SaaS and DB supported as data source

    View Slide

  9. © 2022 CData Software Inc. | www.cdata.com
    CData Sync
    3つの簡単なステップでデータパイプライン処理を構築
    1
    データソースの
    コネクションを設定 2 同期先のコネクションを設定 3 ジョブ設定&実行
    CData Sync の管理コンソールにログインし
    てサポートされている400を超えるクラウド
    アプリケーション、データベース、データウ
    ェアハウスなどの連携先を選択してください。
    接続したいデータソースへの接続は通常、デ
    ータソースのWeb インターフェースへのロ
    グインだけで完了します。
    データをレプリケーションする同期先のデー
    タストア(データレイク・データベース・デ
    ータウェアハウス)を選択してください。
    接続したい同期先への接続は通常、データソ
    ースと同様にWeb インターフェースへのロ
    グインだけで完了します。
    同期ジョブの設定にてオブジェクト(テーブ
    ルや項目)、処理方式(洗い替え or 差分な
    ど)や条件(一部のレコードのみ)を指定し
    ます。
    作成したジョブの実行スケジュール(日次・
    月次など)を設定します。

    View Slide

  10. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync の多様な活用シーン
    suitable for analytics, application integration, backup, AI& Machine Learning

    View Slide

  11. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. About CData Software
    Change Data Capture(CDC)について

    View Slide

  12. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    データソースがDB の差分更新
    DB 向けの差分抽出の方式:Change Data Capture(CDC)
    - これまでのように全件取得してからフィルタリングではなく、更新レコードを検知してそれだけ抽出する仕組みのこと
    - CDC には複数の方式がある(クエリベース、トリガー、ログベース)
    https://datacater.io/blog/2020-06-22/everything-you-need-to-know-about-cdc.html

    View Slide

  13. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC まとめ
    種類 リアルタイム 削除レコード対応 パフォーマンス 対応Ver(DB)
    クエリベース △ × △ 〇
    トリガー 〇 〇 △ PostgreSQL:Ver9.1~
    ログベース 〇 〇 〇
    PostgreSQL:Ver9.4~
    MySQL:Ver8.0~(default利用)
    SQL Server:Enterprise
    など
    差分データを取得する方式はログベースが圧倒的に良い

    View Slide

  14. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC:クエリベース
    クエリベースでは対象テーブルにタイムスタンプで検索する
    → SQLのWhere 句に更新日付の条件を入れることで、差分データを抽出できるようになる
    例) Select * from Account Where updated_at> ‘yyyy-MM-dd(最終更新日時)’
    ポジ要素:
    - DB 側の設定不要ですぐ実行可
    ネガ要素:
    - データ量によってデータベース全体に負荷が掛かる
    - 更新日時項目を持つ必要がある
    - 削除レコードは検知できない

    View Slide

  15. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC:トリガー
    トリガーによるCDC では、変更が行われたタイミングで別テーブルに変更情報を連携
    → 対象テーブルに変更が行われたタイミングで、別テーブルに「Insert、Update、Delete」の内容を連携できる
    ポジ要素:
    - 削除も含めて全変更情報を取得可
    ネガ要素:
    - 別テーブルの管理で運用が複雑化
    - トリガー処理がプラスされる=元のステートメントの実行時間が増える
    - テーブルのスキーマ変更時は手動対応する必要がある

    View Slide

  16. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC:ログベース
    トランザクションログを利用した差分データ抽出の方式
    → すべての変更イベントをリアルタイムで検知
    ポジ要素:
    - ログを直接参照でDB へのパフォーマンスに影響与えない
    - スキーマ変更も気にせず、管理が容易
    ネガ要素:
    - 古いバージョンのDB では未対応であることが多い

    View Slide

  17. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync のCDC 機能について
    - 2022/09/15 時点では下記コネクタでCDC をサポート中
    SQL Server、 Oracle、 MySQL、 PostgreSQL
    - 実現できるデータパイプライン構成の例
    セルフホスティング型を利用し、オンプレミスにあるDBと同じネットワーク内に CData Sync をホスティングし、CDC 機能でクラウド連携

    View Slide

  18. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. About CData Software
    2. CData Sync ハンズオン

    View Slide

  19. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    ハンズオン内容
    1. Salesforce → PostgreSQL 処理
    https://www.cdata.com/jp/blog/salesforce-sync-postgresql
    2. CDC によるPostgreSQL → MySQL 処理
    https://www.cdata.com/jp/blog/postgresql-sync-mysql
    3. CDC によるMySQL → Amazon Redshift 処理
    https://www.cdata.com/jp/blog/mysql-sync-redshift

    View Slide

  20. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1 Chome-6-27 Chuo, Aoba Ward,
    Sendai, Miyagi Prefecture
    980-0021, Japan
    Tel: 050-5578-7390
    CData Japan
    600 Market St. #300
    Chapel Hill, NC 27516 USA
    Tel: (919) 885-0202
    Fax: (919) 928-5455
    US Headquarters
    - United Kingdom
    - Central & Eastern Europe
    - Central China
    Additional Offices
    Contact Us
    Worldwide Offices for Global Sales and Support
    www.cdata.com

    View Slide