Upgrade to Pro — share decks privately, control downloads, hide ads and more …

レガシーDWH からSnowflake へのモダナイゼーション・データパイプライン刷新ポイント

レガシーDWH からSnowflake へのモダナイゼーション・データパイプライン刷新ポイント

レガシーDWHをSnowflakeに置き換えるだけでは、データ鮮度の改善やパフォーマンス向上は実現できません。多くの企業が移行後も日次バッチ依存や複雑な連携プロセスに悩まされています。
真のモダナイゼーションには、ETL中心からELT+CDC(Change Data Capture)への転換が不可欠です。CDCによるリアルタイム抽出で夜間バッチから脱却し、ステージ経由のバルクロードで転送を効率化することで、時間とコストを大幅削減できます。変換処理をSnowflake側に集約すれば、障害切り分けも迅速化されます。
実務的には、段階的なデータ移行の実施、並行稼働期間の設定、レガシーDWH(Oracle Exadata、Teradata等)からの連携対応、そして従量課金型と定額制のコスト比較が重要なポイントとなります。
本セッションでは、これらを実現する手段としてCData Syncの活用事例を紹介します。小売業のPOSデータ移行では、1日数百万件のトランザクションを段階移行とCDCの組み合わせでニアリアルタイム連携を実現しています。

Avatar for CData Software Japan

CData Software Japan

September 24, 2025
Tweet

More Decks by CData Software Japan

Other Decks in Technology

Transcript

  1. 2 Speaker 宮本 航太 シニアプロダクトスペシャリスト、PM for Apps - 2019 年よりCData

    Software にジョイン - 5年ほどApps 系を中心にサポートチームで活動 - 2024 年からApps 系のローカルPMに従事 © 2025 CData Software Inc
  2. 5 DWH を刷新しただけではスムーズな運用・活用に は繋がらない ・ DWH を刷新したけど、連携間隔は日次ペースでデータ鮮度 は変化無し ・ DWH

    を刷新したけど、連携ジョブのパフォーマンスが改善せず ・ DWH を刷新したけど、連携プロセスがスパゲッティ状態でメ ンテナンス性と拡張性が改善せず データパイプラインのモダナイゼーションが必要 © 2025 CData Software Inc
  3. 7 データパイプラインのモダナイゼーションで 注意しなければいけない4つのポイント ハード面 ①アーキテクチャの刷新 →ETL からELT CDCアプローチへの変革 ②最適な移行方法の確保 →並行稼働も視野に入れた連携ツールの採択

    ソフト面 ③データパイプラインのコストパフォーマンスの意識 →従量課金と定額のツールの選定ポイント ④拡張がしやすいデータ連携アプローチの選定 →学習コストが掛からないノーコードツールの利用 © 2025 CData Software Inc
  4. 10 レガシーDWH からSnowflake への移行で陥りやすい課題 © 2025 CData Software Inc ETL

    に変換集中 ➢ 加工後しか入らず、Snowflakeの計算力を活かせ てない 夜間バッチ依存 ➢ データの鮮度が日次止まり 細切れ転送 ➢ 行/小ファイルINSERTで遅い&高い 変換ロジック過多 ➢変換ロジック過多で障害解析が難航 Source DB ETL Snowflake (加工データのみ) レガシー構成
  5. 12 ELT+CDC を支えるアーキテクチャ設計のポイント © 2025 CData Software Inc ①CDC で抽出

    ②バルクロード ③変換処理 ① CDCでリアルタイム性を確保し、夜間バッチを脱却 ② ステージ経由でバルクロードし、大量Insert を回避、 ロード時間・コスト半減 ③変換処理をSnowflakeに集約 ・障害切り分けを迅速化 ・dbt などのデータモデリングツールとの組合せで、より高度な 変換処理を実現
  6. 13 パフォーマンスに寄与するCDC の使いどころ © 2025 CData Software Inc ・ DB側/ツールでログベースCDC

    が利用可能か? ⇒ 利用できない場合は業務テーブルにSQL でアクセス ・ トランザクションログを常時読み取り続けられるか? ⇒ ユースケースによっては各テーブルの変更情報が大量 に格納されるため、取得タイミングによっては変更レコード 抽出に時間が掛かる(赤色矢印 ) ⇒ ログを常時トレースしておくことで、以前の読み取り ポイントまで遡ることなく、最新のポイントから変更レコー ドを抽出できる(青色矢印 ) …→ AAA トランザクション ログファイル …→ AAA …→ BBB …→ AAA …→ BBB …→ CCC …→ DDD …→ EEE …→ ZZZ ・ ・ ・ ・
  7. 14 Snowflake へのデータ投入の効率化も連携のポイント バルクロードアプローチ © 2025 CData Software Inc ・

    ステージ経由でのロード ・ 細切れInsert ではなく、 “大きめファイル×並列” でバルクアップロード ・ PUT する際は圧縮でI/O 削減
  8. 18 並行稼働で意識すべきポイント © 2025 CData Software Inc SQL Server 既存ツール

    ・何年分のレコードを移行させるか? ⇒ 大量にある場合は、期間を絞って分割し てデータ移行を行える機能が必須 (直近5年分を半年単位で連携など) ・任意の日からの変更レコード抽出開始を 指定 ⇒ログベースCDC での抽出開始位置の調整。 全件取得は不要なので、今日以降の変更 データを対象になど 置き換えツール
  9. 19 レガシーDWH からの連携で意識すべきポイント © 2025 CData Software Inc SQL Server

    既存ツール 置き換えツール ・置き換えツールから接続できるか? ・DWH によってはCDC が使えるか? ⇒ Oracle Exadataなど
  10. 21 レガシーDWH ⇒ Snowflake 移行で押さえるべきポイントまとめ © 2025 CData Software Inc

    ・データ移行手段の設計 → CDC+バルクロード ・段階移行と並行稼働 → ゼロダウンタイム切替を意識した移行対応 ・コストと運用のリアリティ → レコード課金 vs 定額制、運用しやすさを考慮 SQL Server
  11. 23 この設計を最短で実現する手段の一つ – CData Sync 大量データ転送でも定額 CDC + バルクロード機能搭載 ©

    2025 CData Software Inc ELT 方式を採用 段階移行対策可 さまざまなデータをノーコードで別のデータストアに 複製(レプリケーション)出来るツール
  12. 24 ユースケース:小売業のPOSデータ移行 © 2025 CData Software Inc 現行ツール Before: オンプレPostgreSQL

    → ETLツール → 夜間に全量 バッチ(数時間) After: CData Syncで過去データの段階移行 → CDC モー ドで効率よくSnowflakeに反映 → ニアリアルタイ ム連携 成功要因: ・直近データからの段階移行+ログベースCDC ・ステージ経由バルクロードでコスト・時間を半減 POSデータ 段階移行 CDC連携 全件連携 移行対象: POS取引データ(1日数百万件)