Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CData Sync セミナー

CData Sync セミナー

2022/08/03 開催「CData Sync セミナー」で発表した資料です。
CData Sync は、3ステップでSaaS データをDB / DWH にレプリケーションする処理を構築できるデータレプリケーションツールです。Salesforce、Dynamics 365、kintone をはじめ400以上のSaaS に接続可能、主要なDB / DWH 対応しています。

RDB->DWH のシナリオにも力をいれており、変更データキャプチャ(CDC)機能を強化し、稼働しているDB に負担を少なくしてDWH への継続的なデータレプリケーションを実現します。

CData Sync の製品紹介とCDC 機能について紹介します。

CData Software Japan

August 04, 2022
Tweet

More Decks by CData Software Japan

Other Decks in Technology

Transcript

  1. © 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    セミナー ~SaaS→DWH やCDC 機能をご紹介~ 2022/08/03 CData Software Japan
  2. © 2022 CData Software Japan, LLC | www.cdata.com/jp 1. CData

    Sync とは? 1. 企業紹介 2. CData Sync 概要 3. デモ:SaaS -> DB レプリケート処理構築 2. 変更データキャプチャ(CDC)機能とは? 1. CDC 機能紹介 2. デモ:PostgreSQL -> Google BigQuery 3. 質疑応答 • セミナー中チャット欄で受け付けます! CData Sync セミナー
  3. EMPLOYEES 200+ ACTIVE CUSTOMERS 9,000+ OEM PARTNERS 100+ © 2022

    CData Software Inc. | www.cdata.com CData Software CData Software, Inc. • 本社:US(NC州), オフィス:日本 / 欧州 / インド / 中国 • データコネクティビティ テクノロジーのリーダー CData Software Japan, LLC • 宮城県仙台市 • 2016/06 〜
  4. © 2022 CData Software Inc. | www.cdata.com 多様なデータソース、テクノロジー、 プラットフォーム に対応した

    『データコネクティビティ』製品 250 を超える業界最多のデータソース 100を超えるツールやプログラミング言語、フレーム ワークから オンプレ / クラウド / コンテナ / サーバーレス環境にて ライブラリ / アプリケーション / サービスにてご提供 Any Platform Any Technology Any Data Source
  5. © 2022 CData Software Inc. | www.cdata.com Any Data Source

    業界最多の250を超える様々なデータソースへ接続 Marketing CRM & ERP File & API Accounting Big Data & NoSQL Collaboration E-Commerce RDBMS
  6. © 2022 CData Software Inc. | www.cdata.com Any Technology 100を超えるツールやプログラミング言語、フレームワークからデータにアクセス

    ODBC / JDBC / ADO.NET/ Python DBI など標準I/Fに加えてツール専用コネクタ BI ・ アナリティクス データ統合基盤 アプリ間データ連携 ローコード・ノーコード データ仮想化 開発環境・カスタムアプリ Power BI Tableau Google DataPortal Amazon QuickSight Motionboard Sisense Qlik Domo Exploratory Alteryx Yellowfin BI Microstrategy IBM Cognos BI Oracle BI EE SAP BO TIBCO Spotfire SAP Lumira FineReport SAS ReDash Metabase Google BiGquery Google Cloud SQL Snowflake Amazon Redshift Amazon RDS Amazon S3 Azure Synapse Analytics Azure SQL Database Azure Data Lakes Azure Strorage SAP HANA Oracle SQL Server IBM DB2 MariaDB MySQL PostgreSQL MongoDB Cassandra Apache Hadoop Apache Kafka Vertica Informatica Talend Dell Boomi Embulk Magic xpi ASTERIA Warp DataSpider Waha! Transformer RACOON SQL Server Linked Server SQL Server PolyBase Access Linked Tables Salesforce Connect SharePoint External List SQL Server Integration Service Azure Data Factory Google Cloud Data Fusion MuleSoft Anypoint BizTalk Server Power Apps Power Automate Azure Logic Apps AppSheet Bubble FileMaker OutSystems Mendix TALON Unifinity Wagby WinActor UiPath Adalo DronaHQ SAP AppGyver RunMyProcess Robotic Clowd BizteX Connect Monaca Coopel Retool PEP Java .NET Python Delphi Go PHP Ruby Scala Kotlin NodeJS Google Apps Script Visual Studio IntelliJ Eclipse RAD Studio PowerShell A5:SQL Mk-2 DBVisualizer DBeaver DB Artisan SQuirreL MySQL Workbench Denodo MySQL Federated Tables PostgreSQL FDW Oracle Gateway
  7. © 2022 CData Software Inc. | www.cdata.com Any Platform あらゆるプラットフォームのあらゆるアプリケーションからデータにアクセス

    • オンプレミス • クラウド AWS / GCP / Azure etc. • ハイブリッド Multi-Cloud / OnPre-Cloud Crossing the firewall / VPN • OS Windows / Linux / OSX • 実行基盤 Desktop machine / Server(physical) / VM / Container / PaaS / Serverless • ライブラリ ( .jar / .dll / .so etc.) • デスクトップアプリケーション • サーバーアプリケーション • サービス (Marketplace / SaaS) オンプレ・クラウド OS・実行基盤 提供形態
  8. © 2022 CData Software Japan, LLC | www.cdata.com/jp 信頼のグローバルOEM実績 Embedded

    in the leading BI, ETL, Data Integration, Data Virtualization, and Data Warehousing tools https://www.cdata.com/jp/company/partners.aspx
  9. © 2022 CData Software Inc. | www.cdata.com Products データサイロ化の問題にシンプルかつ効果的なソリューションを提供 CData

    Drivers CData Connect Cloud CData Arc CData API Server CData Sync あらゆるデータに標準SQL での接続を可能にする高機能・高品質データコネクタ クラウドサービスのデータにノー コードでアクセスできる Data Connectivity as a Service ファイル転送、EDI、SaaS 連携をひ とつのプラットフォームで実現 ポイント&クリック設定だけで、データベー スから本格的なREST APIを開発・公開 SaaS データのDB/DWH への連携 / データパイプライン ライブラリ サービス アプリケーション アプリケーション アプリケーション ODBC / JDBC / ADO.NET / Python / SSIS / BizTalk / Mule / Excel / Power BI / Tableau / PowerShell / FireDAC
  10. © 2022 CData Software Japan, LLC | www.cdata.com/jp 企業データの種類が多様化し、サイロ化 APIs

    Continue Growth As SaaS Adoption Becomes More Pervasive Specialized & Emerging Tech Smartsheet, Reckon, ExactOnline, MailChimp Relational / RDBMS MySQL, SQL, PostgreSQL Universal SaaS & Cloud Storage Salesforce, SAP, Dynamics, BigQuery, MongoDB Vertical Apps & Services Marketo, Eloqua, Splunk, ServiceNow, HubSpot
  11. © 2022 CData Software Japan, LLC | www.cdata.com/jp 企業で使うSaaS の数は急増

    # of SaaS Apps used in Corporate is increasing • 1企業で使うSaaS 種類の平均が110種類 • アメリカのトレンドに日本も追従し、現在 は1社10種類程度のSaaS 利用でも、数年 後に数十種類になるのではないか https://stateofsaasops.bettercloud.com/
  12. © 2022 CData Software Japan, LLC | www.cdata.com/jp 現在、SaaS データの連携は

    どのようにおこなわれていますか? どのような点がネックとなっていますか?
  13. © 2022 CData Software Japan, LLC | www.cdata.com/jp DEPTH: API

    連携の対応要素は多種多様 Protocols SOAP REST OData TCP Data Model Relational Document Key-Value Hierarchy Row Stores Metadata Static Dynamic Hybrid Row-scan Authentication BASIC/ NTLM Kerberos API Tokens Oauth / JWT Client Cert SSO Capabilities Aggregation JOIN Filtering Sort Paging Buld SaaS data integration has so many factors need to be considered
  14. © 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    を使ってノーコードで統合データ基盤を作成 ツールや他のSaaS との連携を一つ一つ手組すること(1対1の連携)は、 時間・コスト・安定性から大きな負担 CData Sync で 400+ のSaaS、NoSQL データをクラウドDWH に同期
  15. © 2022 CData Software Inc. | www.cdata.com CData Sync SaaS

    データのDB・DWH への連携 ・データパイプライン構築 • 3ステップ、ノーコードでデータパイプライ ン処理を作成、データ統合基盤を構築 • 高度な差分更新メカニズム(CDCなど)を搭載 • オンプレ・クラウドどちらにもデプロイ可能 なアプリケーション製品 • 400を超えるデータソース • 20を超える主要なデータレイク・データベー ス・データウェアハウスへのデータ複製
  16. © 2022 CData Software Inc. | www.cdata.com SaaSを中心とする400(API Profile含 む)を超えるデータソース

    主要なデータレイク・データベース・ データウェアハウス CData Sync 400を超えるデータソースのデータをノーコードでデータベースにレプリケーション シンプルな設定 ETL/ELT 方式 高度な差分更新 柔軟なジョブ管理 ノーコード、3ステップで データ統合基盤を構築 標準SQLによるデータ抽出時 での変換、もしくは、データ ウェアハウスへの取り込み後 の変換どちらにも対応 CDC(ChangeDataCapture)な どの高度な差分更新メカニズ ムを搭載 処理負荷を軽減し、日々の ジョブ実行時間の短縮を実現 オブジェクト(テーブルや項目)、処理方式 (洗い替えor差分など)や条件(一部のレコー ドのみ)を指定したジョブ作成が可能 作成したジョブはスケジュール、および、Web APIやコマンドラインで実行可能
  17. © 2022 CData Software Japan, LLC | www.cdata.com/jp 主要なRDB およびクラウドデータストアを同期先に

    https://www.cdata.com/jp/sync/#destinations From traditional RDB to modern cloud data stores as Sync destination
  18. © 2022 CData Software Inc. | www.cdata.com CData Sync 3つの簡単なステップでデータパイプライン処理を構築

    1 データソースの コネクションを設定 2 同期先のコネクションを設定 3 ジョブ設定&実行 CData Syncの管理コンソールにログインして サポートされている400を超えるクラウドアプ リケーション、データベース、データウェアハ ウスなどの連携先を選択してください。 接続したいデータソースへの接続は通常、デー タソースのWeb インターフェースへのログイ ンだけで完了します。 データをレプリケーションする同期先のデータ ストア(データレイク・データベース・データ ウェアハウス)を選択してください。 接続したい同期先への接続は通常、データソー スと同様にWeb インターフェースへのログイ ンだけで完了します。 同期ジョブの設定にてオブジェクト(テーブル や項目)、処理方式(洗い替え or 差分など) や条件(一部のレコードのみ)を指定します。 作成したジョブの実行スケジュール(日次・月 次など)を設定します。
  19. © 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    の多様な活用シーン suitable for analytics, application integration, backup, AI& Machine Learning
  20. © 2022 CData Software Japan, LLC | www.cdata.com/jp 例:BigQueryにマーケティング、営業データを集約し可視化 Google

    Analytics ダウンロード状況&問合せ 契約状況 マーケティングオートメーション サイトアクセス BigQuery データ連携 データ参照 Data Portal その他 (SNS, Chat, Blog…) Redshift Snowflake Example: Do you want 360 view of your customer interaction?
  21. © 2022 CData Software Japan, LLC | www.cdata.com/jp 利用コネクタによるライセンス Simple

    connection# based licensing. No charge for # of queries or records https://www.cdata.com/jp/sync/#purchase
  22. © 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    の強み Simple connection# based licensing. No charge for # of queries or records • 圧倒的な400+ の接続可能データソース(海外および国内SaaS) • 差分更新 • カスタムSQL (ANSI-92 をカバー) • EAI ツールより、データパイプラインに特化している分シンプルな操作感 • レコード数制限なし(従量課金なし) • 柔軟なログ対応 • コネクタ、SQL エンジン、ネットワーク、セキュリティレイヤーまでのコードを自社保有
  23. © 2022 CData Software Japan, LLC | www.cdata.com/jp CDC機能による DB

    to DB での差分更新 CData Software Japan 宮本
  24. © 2022 CData Software Japan, LLC | www.cdata.com/jp 本日の内容 1.Change

    Data Capture(CDC) について 2.CData Sync の CDC 機能について 3.デモ
  25. © 2022 CData Software Japan, LLC | www.cdata.com/jp 1. About

    CData Software 1. Change Data Capture(CDC) について
  26. © 2022 CData Software Japan, LLC | www.cdata.com/jp 差分更新のおさらい 差分更新とは・・・・

    - (データソース側)前回から更新されたデータだけを取得 → 同期先に連携(マージ)することを指す - 差分更新有無はデータパイプラインツールを採用基準で重要な項目 差分更新といえば・・・・ - SaaS から DB へのレプリケーション構成で、SaaS のデータを前回からの差分で抽出できるかを指すことが多い - API側で更新日付によるフィルタリング処理が行わる場合に可能 例)Salesforce の取引先情報(Account オブジェクト)のレプリケートでは初回は全件が対象となるが、 2回目以降の連携ジョブでは更新された取引先情報だけしか連携されない。=連携件数が減るのでパフォーマンス向上 DBの場合の差分更新は・・・? - 変更データを検知する仕組みを連携ツール(サービス)側で利用できれば可能 - 最近はDBの差分更新機能(差分抽出)についての問合せが多い
  27. © 2022 CData Software Japan, LLC | www.cdata.com/jp データソースがDBの差分更新 DB向けの差分抽出の方式:

    Change Data Capture(CDC) - これまでのように全件取得してからフィルタリングではなく、更新レコードを検知してそれだけ抽出する仕組みのこと - CDC には複数の方式がある(クエリベース、トリガー、ログベース) https://datacater.io/blog/2020-06-22/everything-you-need-to-know-about-cdc.html
  28. © 2022 CData Software Japan, LLC | www.cdata.com/jp CDC:クエリベース クエリベースでは対象テーブルにタイムスタンプで検索する

    → SQLのWhere句に更新日付の条件を入れることで、差分データを抽出できるようになる 例) Select * from Account Where updated_at> ‘yyyy-MM-dd(最終更新日時)’ ポジ要素: - DB 側の設定不要ですぐ実行可 ネガ要素: - データ量によってデータベース全体に負荷が掛かる - 更新日時項目を持つ必要がある - 削除レコードは検知できない
  29. © 2022 CData Software Japan, LLC | www.cdata.com/jp CDC:トリガー トリガーによるCDCでは、変更が行われたタイミングで別テーブルに変更情報を連携

    → 対象テーブルに変更が行われたタイミングで、別テーブルに「Insert、Update、Delete」の内容を連携できる ポジ要素: - 削除も含めて全変更情報を取得可 ネガ要素: - 別テーブルの管理で運用が複雑化 - トリガー処理がプラスされる=元のステートメントの実行時間が増える - テーブルのスキーマ変更時は手動対応する必要がある
  30. © 2022 CData Software Japan, LLC | www.cdata.com/jp CDC:ログベース トランザクションログを利用した差分データ抽出の方式

    → すべての変更イベントをリアルタイムで検知 ポジ要素: - ログを直接参照でDBへのパフォーマンスに影響与えない - スキーマ変更も気にせず、管理が容易 ネガ要素: - 古いバージョンのDBでは未対応であることが多い
  31. © 2022 CData Software Japan, LLC | www.cdata.com/jp CDC まとめ

    差分データを取得する方式はログベースが圧倒的に良い
  32. © 2022 CData Software Japan, LLC | www.cdata.com/jp CDC 専用のSaaS

    https://www.moderndatastack.xyz/companies/change-data-capture DBデータをCDC(ログベース)で取得することに 特化したサービスが増えてきている →例えば kafka などのストリーミング系ソフトウェ アやサービスと組み合わせなども
  33. © 2022 CData Software Japan, LLC | www.cdata.com/jp 1. About

    CData Software 2. CData Sync の CDC 機能について
  34. © 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    のCDC機能について - 2022/08/03 時点では下記コネクタでCDCをサポート中 SQL Server、 Oracle、 MySQL、 PostgreSQL - 実現できるデータパイプライン構成の例 セルフホスティング型を利用し、オンプレミスにあるDBと同じネットワーク内に CData Sync をホスティングし、CDC機能でクラウド連携
  35. © 2022 CData Software Japan, LLC | www.cdata.com/jp CData Sync

    CDC機能の利用手順 DB側の設定が完了していれば、ジョブ作成時に「変更データキャプチャ」を選択するだけ!!
  36. © 2022 CData Software Japan, LLC | www.cdata.com/jp 1. About

    CData Software 2. CDC 機能のデモ
  37. © 2022 CData Software Japan, LLC | www.cdata.com/jp データソース:PostgreSQL を例に

    PostgreSQL → BigQuery を例に実際の手順を こちらの記事で解説します https://www.cdatablog.jp/entry/postgresql-sync-cdc
  38. © 2022 CData Software Japan, LLC | www.cdata.com/jp 1 Chome-6-27

    Chuo, Aoba Ward, Sendai, Miyagi Prefecture 980-0021, Japan Tel: 050-5578-7390 CData Japan 600 Market St. #300 Chapel Hill, NC 27516 USA Tel: (919) 885-0202 Fax: (919) 928-5455 US Headquarters - United Kingdom - Central & Eastern Europe - Central China Additional Offices Contact Us Worldwide Offices for Global Sales and Support www.cdata.com