Upgrade to Pro — share decks privately, control downloads, hide ads and more …

『色々』強化された CData Sync V24.3 アップデートをプロダクトスペシャリストが大解説

『色々』強化された CData Sync V24.3 アップデートをプロダクトスペシャリストが大解説

2024年のアップデート情報を振り返るとともに、既存のCDCから進化した「拡張型CDC」、BigQueryやRedshiftからSalesforce・Dynamics 365へのリバースETL対応、Snowflakeのパフォーマンス大幅強化、BigQueryでのマルチバイト項目名対応、カスタムロールなど、基幹システムとデータウェアハウス・BIツールの連携をさらに強化するアップデートをご紹介します。最後に、2025年のアップデートの方向性についてもお届けします。

CData Software Japan

January 30, 2025
Tweet

More Decks by CData Software Japan

Other Decks in Technology

Transcript

  1. 「拡張型CDC」「リバースETL拡張」「コネクタ大強化」など、 CData Sync Update ウェビナー 『色々』強化された CData Sync V24.3アップデートを プロダクトスペシャリストが大解説

    「拡張型CDC」「リバースETL拡張」「コネクタ大強化」など、 基幹システムとデータウェアハウス・BIツールの連携をさらに密接に するアップデート。 講師:Senior Product Specialist 宮本 航太 Part 2
  2. 講師紹介 宮本 航太 シニアプロダクトスペシャリスト、PM for Apps - 2019 年よりCData Software

    にジョイン - 5年ほどApps 系を中心にサポートチームで活動 - 2024 年からプロダクトマネージメント部で Apps 系の日本側でのマネージメントに従事 2
  3. 2024アップデート内容のおさらい 2024年1月:Snowflake からSalesforce へのリバースETL、カスタムコネクタ開発用のAPI Connector 追加 2024年5月:Sync Cloud リリース 2024年5月:

    V24 リリース:SQL Server からSalesforce へのリバースETL、dbt Cloud 連携 2024年7月: HeatWave への連携 2024年8月:V24.2 リリース:リバースETLソース拡充、D365 CDC、 PostgreSQL 連携のパフォーマンス強化、ジョブリトライ、CDC初回ス キップ 2025年1月: V24.3 リリース 5
  4. Sync V24.3 アップデート機能のリスト 機能追加  拡張型CDC(変更データキャプチャ)機能  リバースETL 機能対応コネクタ追加 

    カスタムロール機能  コメント機能  コネクタ追加  メタデータキャッシュコントロール 機能改善  Snowflake へのパフォーマンス改善  Snowflake のVariant 型対応  BigQuery のマルチバイト項目名対応  Dynamics365 CDC でのヒストリーモードをサポート  コネクタでのAPI アップデート 7
  5. 拡張型CDC(変更データキャプチャ)機能 具体的な既存CDC 機能の課題点  「パフォーマンス」は PostgreSQL での問合せが多く、トランザクションログからの抽出時に関係 のないテーブルの変更データが存在するケースでの抽出で時間が掛かっていた  「リソース負荷」については、Oracle

    でのジョブを実行するたびにLogminer を開始させ、大量の トランザクションログを読み込む必要があり、OOM の問題が発生する可能性があった なぜ新しいCDC機能が搭載されたのか  近年、基幹システムのデータ分析のためにデータベースからクラウドデータウェアハウスへの連携 ケースが多くなり、CDC 機能の利用ケース増  リアルタイム、高頻度でレプリケーションしたいユーザーも増えた半面、「パフォーマンス」や 「リソース負荷」の問題が散見 9
  6. 拡張型CDC(変更データキャプチャ)機能 10 拡張型CDC とは  データベースの変更データをリアルタイムキャプチャできる機能。スケジュール機能との組合せで 1分以内のニアリアルタイム連携が実現できる  既存CDC よりもパフォーマンスよく同期先DB

    に連携することができる 拡張型CDC の仕組み 変更データの取得方法  トランザクションログなどの変更履歴リソースのリアルタイム監視 対応コネクタ  PostgreSQL とOracle のみ 同期先へのデータの流れ  次ページで説明
  7. 拡張型CDC(変更データキャプチャ)機能 「パフォーマンス」と「リソース負荷」への対応は? PostgreSQL  パフォーマンス改善  トランザクションログを常時監視し、変更ポイントを逐次更新することで、大量トランザ クション環境でも高速同期を実現 Oracle 

    パフォーマンス改善  常にLogminer を起動しつづける方式となりレプリケーション時間を短縮  リソース負荷改善  トランザクションログを溜めずに常時読み込むことで、一度に大量処理する負荷を抑え、 メモリ不足や高負荷を回避 12
  8. 拡張型CDC(変更データキャプチャ)機能  運用中の既存CDC ジョブで特に課題が無い  PostgreSQL でUTF-8 以外の文字コードを利用  Oracle

    Flashback 機能でCDC を構成している  Sync 内部のステージエリアに一時的にでも保存したくない 13 既存CDC 向き 拡張型CDC 向き  パフォーマンスを改善したい  DB側のリソースを軽減させたい  PostgreSQL のパーティションテーブルも同期したい  (ニア)リアルタイム連携をしたい
  9. 拡張型CDC(変更データキャプチャ)機能 ユースケース 1.在庫管理と販売状況の(ニア)リアルタイムでのモニタリング  実現したいこと 各店舗や倉庫の在庫情報や売上状況を5分単位で反映させて、ほぼリアルタイムな売上・在 庫の可視化を行い、在庫・発注の最適化と販促の効果検証を実現したい  既存CDC 機能だと…

    5分ごとに更新したいが、通常CDC 機能のバッチ連携だとデータ量が多いと遅延が発生する 可能性がある  拡張型CDC 機能だと… 拡張型CDC により、常に変更データを取り込み続けることで、5分ごとのレプリケーション を安定して実行できる 14
  10. 既存コネクタの機能強化 Snowflake  Snowflake への書き込みパフォーマンスおよびリソース負荷の改善  Snowflake Variant 型をサポート BigQuery

     マルチバイト文字を使用したカラム名でのレプリケーションをサポート Dynamics 365  変更データキャプチャ利用時でのヒストリーモードをサポート 21
  11. Snowflake  Snowflake への書き込みパフォーマンスおよびリソース負荷の改善  Snowflake Variant 型をサポート ①Snowflake に一時テーブルを作成

    ②Snowflake に内部ステージを作成 ③全レコードをローカルエリアにファイル出力 ④ファイルストリームでデータ読み出しながら内部ステージに取得した 全レコードアップロード ⑤ステージから一次テーブルにCOPY INTO でロード ⑥一時テーブルと対象テーブルでマージ 新方式 Snowflake:パフォーマンス/リソース負荷の改善 23
  12. Snowflake  Snowflake への書き込みパフォーマンスおよびリソース負荷の改善  Snowflake Variant 型をサポート 比較結果 ※新方式はジョブオプション(RowTransferType=CopyInto)

    の設定のみ Snowflake:パフォーマンス/リソース負荷の改善 「OOM が心配で転送サイズを小さくしすぎてパフォーマンスが出せない」、「そもそもSnowflake へののジョブ完了時間を短 縮させたい」といった場合は、本ジョブオプションの指定でどちらも改善できます。 24
  13. Snowflake  Snowflake への書き込みパフォーマンスおよびリソース負荷の改善  Snowflake Variant 型をサポート Snowflake: Variant

    型をサポート 25 さまざまフォーマット形式の半構造化データをスキーマレ スでSnowflake に格納することができ、特定のフィール ドの値が簡単に取得できるようになるデータ型  Snowflake Variant 型とは  CData Sync V24.3 以降では これまではSnowflake にVarchar 型でカラムを作成して いたが、V24.3 ではそのままのスキーマ構成で格納でき るので、JSON関数が利用したデータ利用が可能に
  14. Dynamics 365:CDC でのヒストリーモード Dynamics 365 CDC ジョブでのヒストリーモード  Dynamics 365

    CDC でも同期先DB でレコードの履歴管理が可能に ⇒例えば、商談確度の推移なども可視化したいケースではヒストリーモード利用で実現可 27
  15. 大規模利用向け機能、CDC、リバースETL 大規模利用に向けた機能追加/改善  ワークスペース機能  クラウドデータウェアハウスへの大量データ転送のパフォーマンス改善 変更データキャプチャ機能強化  DB2 CDC

    (AS400, LUW) リバースETL  Kintone、Hubspot、Salesforce Marketing Cloud Account Engagement(Pardot) へのレプリケーション これらは現時点での予定であり、変更される可能性はございます 35