Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CData Sync セミナー

CData Sync セミナー

2022/08/03 開催「CData Sync セミナー」で発表した資料です。
CData Sync は、3ステップでSaaS データをDB / DWH にレプリケーションする処理を構築できるデータレプリケーションツールです。Salesforce、Dynamics 365、kintone をはじめ400以上のSaaS に接続可能、主要なDB / DWH 対応しています。

RDB->DWH のシナリオにも力をいれており、変更データキャプチャ(CDC)機能を強化し、稼働しているDB に負担を少なくしてDWH への継続的なデータレプリケーションを実現します。

CData Sync の製品紹介とCDC 機能について紹介します。

CData Software Japan

August 04, 2022
Tweet

More Decks by CData Software Japan

Other Decks in Technology

Transcript

  1. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync セミナー
    ~SaaS→DWH やCDC 機能をご紹介~
    2022/08/03
    CData Software Japan

    View Slide

  2. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. CData Sync とは?
    1. 企業紹介
    2. CData Sync 概要
    3. デモ:SaaS -> DB レプリケート処理構築
    2. 変更データキャプチャ(CDC)機能とは?
    1. CDC 機能紹介
    2. デモ:PostgreSQL -> Google BigQuery
    3. 質疑応答
    • セミナー中チャット欄で受け付けます!
    CData Sync セミナー

    View Slide

  3. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. About CData Software
    1. CData Software

    View Slide

  4. EMPLOYEES
    200+
    ACTIVE CUSTOMERS
    9,000+
    OEM PARTNERS
    100+
    © 2022 CData Software Inc. | www.cdata.com
    CData Software
    CData Software, Inc.
    • 本社:US(NC州), オフィス:日本 / 欧州 / インド / 中国
    • データコネクティビティ テクノロジーのリーダー
    CData Software Japan, LLC
    • 宮城県仙台市
    • 2016/06 〜

    View Slide

  5. © 2022 CData Software Inc. | www.cdata.com
    多様なデータソース、テクノロジー、
    プラットフォーム に対応した
    『データコネクティビティ』製品 250 を超える業界最多のデータソース
    100を超えるツールやプログラミング言語、フレーム
    ワークから
    オンプレ / クラウド / コンテナ / サーバーレス環境にて
    ライブラリ / アプリケーション / サービスにてご提供
    Any Platform
    Any Technology
    Any Data Source

    View Slide

  6. © 2022 CData Software Inc. | www.cdata.com
    Any Data Source
    業界最多の250を超える様々なデータソースへ接続
    Marketing
    CRM & ERP
    File & API
    Accounting
    Big Data & NoSQL
    Collaboration
    E-Commerce RDBMS

    View Slide

  7. © 2022 CData Software Inc. | www.cdata.com
    Any Technology
    100を超えるツールやプログラミング言語、フレームワークからデータにアクセス
    ODBC / JDBC / ADO.NET/ Python DBI など標準I/Fに加えてツール専用コネクタ
    BI ・ アナリティクス データ統合基盤
    アプリ間データ連携 ローコード・ノーコード データ仮想化
    開発環境・カスタムアプリ
    Power BI
    Tableau
    Google DataPortal
    Amazon QuickSight
    Motionboard
    Sisense
    Qlik
    Domo
    Exploratory
    Alteryx
    Yellowfin BI
    Microstrategy
    IBM Cognos BI
    Oracle BI EE
    SAP BO
    TIBCO Spotfire
    SAP Lumira
    FineReport
    SAS
    ReDash
    Metabase
    Google BiGquery
    Google Cloud SQL
    Snowflake
    Amazon Redshift
    Amazon RDS
    Amazon S3
    Azure Synapse Analytics
    Azure SQL Database
    Azure Data Lakes
    Azure Strorage
    SAP HANA
    Oracle
    SQL Server
    IBM DB2
    MariaDB
    MySQL
    PostgreSQL
    MongoDB
    Cassandra
    Apache Hadoop
    Apache Kafka
    Vertica
    Informatica
    Talend
    Dell Boomi
    Embulk
    Magic xpi
    ASTERIA Warp
    DataSpider
    Waha! Transformer
    RACOON
    SQL Server Linked Server
    SQL Server PolyBase
    Access Linked Tables
    Salesforce Connect
    SharePoint External List
    SQL Server Integration Service
    Azure Data Factory
    Google Cloud Data Fusion
    MuleSoft Anypoint
    BizTalk Server
    Power Apps
    Power Automate
    Azure Logic Apps
    AppSheet
    Bubble
    FileMaker
    OutSystems
    Mendix
    TALON
    Unifinity
    Wagby
    WinActor
    UiPath
    Adalo
    DronaHQ
    SAP AppGyver
    RunMyProcess
    Robotic Clowd
    BizteX Connect
    Monaca
    Coopel
    Retool
    PEP
    Java
    .NET
    Python
    Delphi
    Go
    PHP
    Ruby
    Scala
    Kotlin
    NodeJS
    Google Apps Script
    Visual Studio
    IntelliJ
    Eclipse
    RAD Studio
    PowerShell
    A5:SQL Mk-2
    DBVisualizer
    DBeaver
    DB Artisan
    SQuirreL
    MySQL Workbench
    Denodo
    MySQL Federated Tables
    PostgreSQL FDW
    Oracle Gateway

    View Slide

  8. © 2022 CData Software Inc. | www.cdata.com
    Any Platform
    あらゆるプラットフォームのあらゆるアプリケーションからデータにアクセス
    • オンプレミス
    • クラウド
    AWS / GCP / Azure etc.
    • ハイブリッド
    Multi-Cloud / OnPre-Cloud
    Crossing the firewall / VPN
    • OS
    Windows / Linux / OSX
    • 実行基盤
    Desktop machine / Server(physical)
    / VM / Container / PaaS /
    Serverless
    • ライブラリ ( .jar / .dll / .so etc.)
    • デスクトップアプリケーション
    • サーバーアプリケーション
    • サービス (Marketplace / SaaS)
    オンプレ・クラウド OS・実行基盤 提供形態

    View Slide

  9. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Software Japan Customers

    View Slide

  10. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    信頼のグローバルOEM実績
    Embedded in the leading BI, ETL, Data Integration, Data Virtualization, and Data Warehousing tools
    https://www.cdata.com/jp/company/partners.aspx

    View Slide

  11. © 2022 CData Software Inc. | www.cdata.com
    Products
    データサイロ化の問題にシンプルかつ効果的なソリューションを提供
    CData Drivers
    CData Connect Cloud CData Arc CData API Server
    CData Sync
    あらゆるデータに標準SQL での接続を可能にする高機能・高品質データコネクタ
    クラウドサービスのデータにノー
    コードでアクセスできる Data
    Connectivity as a Service
    ファイル転送、EDI、SaaS 連携をひ
    とつのプラットフォームで実現
    ポイント&クリック設定だけで、データベー
    スから本格的なREST APIを開発・公開
    SaaS データのDB/DWH への連携 /
    データパイプライン
    ライブラリ
    サービス アプリケーション アプリケーション
    アプリケーション
    ODBC / JDBC / ADO.NET / Python / SSIS / BizTalk / Mule / Excel / Power
    BI / Tableau / PowerShell / FireDAC

    View Slide

  12. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    2. CData Sync

    View Slide

  13. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    企業データの種類が多様化し、サイロ化
    APIs Continue Growth As SaaS Adoption Becomes More Pervasive
    Specialized & Emerging Tech
    Smartsheet, Reckon, ExactOnline, MailChimp
    Relational / RDBMS
    MySQL, SQL, PostgreSQL
    Universal SaaS & Cloud Storage
    Salesforce, SAP, Dynamics, BigQuery, MongoDB
    Vertical Apps & Services
    Marketo, Eloqua, Splunk, ServiceNow, HubSpot

    View Slide

  14. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    企業で使うSaaS の数は急増
    # of SaaS Apps used in Corporate is increasing
    • 1企業で使うSaaS 種類の平均が110種類
    • アメリカのトレンドに日本も追従し、現在
    は1社10種類程度のSaaS 利用でも、数年
    後に数十種類になるのではないか
    https://stateofsaasops.bettercloud.com/

    View Slide

  15. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    現在、SaaS データの連携は
    どのようにおこなわれていますか?
    どのような点がネックとなっていますか?

    View Slide

  16. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    DEPTH: API 連携の対応要素は多種多様
    Protocols
    SOAP
    REST
    OData
    TCP
    Data Model
    Relational
    Document
    Key-Value
    Hierarchy
    Row Stores
    Metadata
    Static
    Dynamic
    Hybrid
    Row-scan
    Authentication
    BASIC/ NTLM
    Kerberos
    API Tokens
    Oauth / JWT
    Client Cert
    SSO
    Capabilities
    Aggregation
    JOIN
    Filtering
    Sort
    Paging
    Buld
    SaaS data integration has so many factors need to be considered

    View Slide

  17. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync を使ってノーコードで統合データ基盤を作成
    ツールや他のSaaS との連携を一つ一つ手組すること(1対1の連携)は、
    時間・コスト・安定性から大きな負担
    CData Sync で
    400+ のSaaS、NoSQL データをクラウドDWH に同期

    View Slide

  18. © 2022 CData Software Inc. | www.cdata.com
    CData Sync
    SaaS データのDB・DWH への連携 ・データパイプライン構築
    • 3ステップ、ノーコードでデータパイプライ
    ン処理を作成、データ統合基盤を構築
    • 高度な差分更新メカニズム(CDCなど)を搭載
    • オンプレ・クラウドどちらにもデプロイ可能
    なアプリケーション製品
    • 400を超えるデータソース
    • 20を超える主要なデータレイク・データベー
    ス・データウェアハウスへのデータ複製

    View Slide

  19. © 2022 CData Software Inc. | www.cdata.com
    SaaSを中心とする400(API Profile含
    む)を超えるデータソース
    主要なデータレイク・データベース・
    データウェアハウス
    CData Sync
    400を超えるデータソースのデータをノーコードでデータベースにレプリケーション
    シンプルな設定 ETL/ELT 方式 高度な差分更新 柔軟なジョブ管理
    ノーコード、3ステップで
    データ統合基盤を構築
    標準SQLによるデータ抽出時
    での変換、もしくは、データ
    ウェアハウスへの取り込み後
    の変換どちらにも対応
    CDC(ChangeDataCapture)な
    どの高度な差分更新メカニズ
    ムを搭載
    処理負荷を軽減し、日々の
    ジョブ実行時間の短縮を実現
    オブジェクト(テーブルや項目)、処理方式
    (洗い替えor差分など)や条件(一部のレコー
    ドのみ)を指定したジョブ作成が可能
    作成したジョブはスケジュール、および、Web
    APIやコマンドラインで実行可能

    View Slide

  20. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    主要なRDB およびクラウドデータストアを同期先に
    https://www.cdata.com/jp/sync/#destinations
    From traditional RDB to modern cloud data stores as Sync destination

    View Slide

  21. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    400+のデータソースをサポート
    Industry Leading 400+ SaaS and DB supported as data source

    View Slide

  22. © 2022 CData Software Inc. | www.cdata.com
    CData Sync
    3つの簡単なステップでデータパイプライン処理を構築
    1
    データソースの
    コネクションを設定 2 同期先のコネクションを設定 3 ジョブ設定&実行
    CData Syncの管理コンソールにログインして
    サポートされている400を超えるクラウドアプ
    リケーション、データベース、データウェアハ
    ウスなどの連携先を選択してください。
    接続したいデータソースへの接続は通常、デー
    タソースのWeb インターフェースへのログイ
    ンだけで完了します。
    データをレプリケーションする同期先のデータ
    ストア(データレイク・データベース・データ
    ウェアハウス)を選択してください。
    接続したい同期先への接続は通常、データソー
    スと同様にWeb インターフェースへのログイ
    ンだけで完了します。
    同期ジョブの設定にてオブジェクト(テーブル
    や項目)、処理方式(洗い替え or 差分など)
    や条件(一部のレコードのみ)を指定します。
    作成したジョブの実行スケジュール(日次・月
    次など)を設定します。

    View Slide

  23. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync の多様な活用シーン
    suitable for analytics, application integration, backup, AI& Machine Learning

    View Slide

  24. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    例:BigQueryにマーケティング、営業データを集約し可視化
    Google
    Analytics
    ダウンロード状況&問合せ
    契約状況
    マーケティングオートメーション
    サイトアクセス
    BigQuery
    データ連携 データ参照
    Data Portal
    その他
    (SNS, Chat, Blog…)
    Redshift
    Snowflake
    Example: Do you want 360 view of your customer interaction?

    View Slide

  25. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    利用コネクタによるライセンス
    Simple connection# based licensing. No charge for # of queries or records
    https://www.cdata.com/jp/sync/#purchase

    View Slide

  26. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync の強み
    Simple connection# based licensing. No charge for # of queries or records
    • 圧倒的な400+ の接続可能データソース(海外および国内SaaS)
    • 差分更新
    • カスタムSQL (ANSI-92 をカバー)
    • EAI ツールより、データパイプラインに特化している分シンプルな操作感
    • レコード数制限なし(従量課金なし)
    • 柔軟なログ対応
    • コネクタ、SQL エンジン、ネットワーク、セキュリティレイヤーまでのコードを自社保有

    View Slide

  27. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC機能による
    DB to DB での差分更新
    CData Software Japan 宮本

    View Slide

  28. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    本日の内容
    1.Change Data Capture(CDC) について
    2.CData Sync の CDC 機能について
    3.デモ

    View Slide

  29. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. About CData Software
    1. Change Data Capture(CDC) について

    View Slide

  30. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    差分更新のおさらい
    差分更新とは・・・・
    - (データソース側)前回から更新されたデータだけを取得 → 同期先に連携(マージ)することを指す
    - 差分更新有無はデータパイプラインツールを採用基準で重要な項目
    差分更新といえば・・・・
    - SaaS から DB へのレプリケーション構成で、SaaS のデータを前回からの差分で抽出できるかを指すことが多い
    - API側で更新日付によるフィルタリング処理が行わる場合に可能
    例)Salesforce の取引先情報(Account オブジェクト)のレプリケートでは初回は全件が対象となるが、
    2回目以降の連携ジョブでは更新された取引先情報だけしか連携されない。=連携件数が減るのでパフォーマンス向上
    DBの場合の差分更新は・・・?
    - 変更データを検知する仕組みを連携ツール(サービス)側で利用できれば可能
    - 最近はDBの差分更新機能(差分抽出)についての問合せが多い

    View Slide

  31. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    データソースがDBの差分更新
    DB向けの差分抽出の方式: Change Data Capture(CDC)
    - これまでのように全件取得してからフィルタリングではなく、更新レコードを検知してそれだけ抽出する仕組みのこと
    - CDC には複数の方式がある(クエリベース、トリガー、ログベース)
    https://datacater.io/blog/2020-06-22/everything-you-need-to-know-about-cdc.html

    View Slide

  32. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC:クエリベース
    クエリベースでは対象テーブルにタイムスタンプで検索する
    → SQLのWhere句に更新日付の条件を入れることで、差分データを抽出できるようになる
    例) Select * from Account Where updated_at> ‘yyyy-MM-dd(最終更新日時)’
    ポジ要素:
    - DB 側の設定不要ですぐ実行可
    ネガ要素:
    - データ量によってデータベース全体に負荷が掛かる
    - 更新日時項目を持つ必要がある
    - 削除レコードは検知できない

    View Slide

  33. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC:トリガー
    トリガーによるCDCでは、変更が行われたタイミングで別テーブルに変更情報を連携
    → 対象テーブルに変更が行われたタイミングで、別テーブルに「Insert、Update、Delete」の内容を連携できる
    ポジ要素:
    - 削除も含めて全変更情報を取得可
    ネガ要素:
    - 別テーブルの管理で運用が複雑化
    - トリガー処理がプラスされる=元のステートメントの実行時間が増える
    - テーブルのスキーマ変更時は手動対応する必要がある

    View Slide

  34. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC:ログベース
    トランザクションログを利用した差分データ抽出の方式
    → すべての変更イベントをリアルタイムで検知
    ポジ要素:
    - ログを直接参照でDBへのパフォーマンスに影響与えない
    - スキーマ変更も気にせず、管理が容易
    ネガ要素:
    - 古いバージョンのDBでは未対応であることが多い

    View Slide

  35. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC まとめ
    差分データを取得する方式はログベースが圧倒的に良い

    View Slide

  36. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CDC 専用のSaaS
    https://www.moderndatastack.xyz/companies/change-data-capture
    DBデータをCDC(ログベース)で取得することに
    特化したサービスが増えてきている
    →例えば kafka などのストリーミング系ソフトウェ
    アやサービスと組み合わせなども

    View Slide

  37. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. About CData Software
    2. CData Sync の CDC 機能について

    View Slide

  38. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync のCDC機能について
    - 2022/08/03 時点では下記コネクタでCDCをサポート中
    SQL Server、 Oracle、 MySQL、 PostgreSQL
    - 実現できるデータパイプライン構成の例
    セルフホスティング型を利用し、オンプレミスにあるDBと同じネットワーク内に CData Sync をホスティングし、CDC機能でクラウド連携

    View Slide

  39. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    CData Sync CDC機能の利用手順
    DB側の設定が完了していれば、ジョブ作成時に「変更データキャプチャ」を選択するだけ!!

    View Slide

  40. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1. About CData Software
    2. CDC 機能のデモ

    View Slide

  41. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    データソース:PostgreSQL を例に
    PostgreSQL → BigQuery を例に実際の手順を
    こちらの記事で解説します
    https://www.cdatablog.jp/entry/postgresql-sync-cdc

    View Slide

  42. © 2022 CData Software Japan, LLC | www.cdata.com/jp
    1 Chome-6-27 Chuo, Aoba Ward,
    Sendai, Miyagi Prefecture
    980-0021, Japan
    Tel: 050-5578-7390
    CData Japan
    600 Market St. #300
    Chapel Hill, NC 27516 USA
    Tel: (919) 885-0202
    Fax: (919) 928-5455
    US Headquarters
    - United Kingdom
    - Central & Eastern Europe
    - Central China
    Additional Offices
    Contact Us
    Worldwide Offices for Global Sales and Support
    www.cdata.com

    View Slide