Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks Lakehouse Federationで 運用負荷ゼロのデータ連携

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

Databricks Lakehouse Federationで 運用負荷ゼロのデータ連携

Avatar for Kenji Matsuda

Kenji Matsuda

March 26, 2026
Tweet

Other Decks in Technology

Transcript

  1. @IVRy Inc. All rights reserved. Databricks Lakehouse Federationで 運⽤負荷ゼロのデータ連携 株式会社IVRy

    データエンジニア 松⽥ 健司 JEDAI Meetup! AIエージェント特集 - Lakebase連携からセキュリティまで
  2. @IVRy Inc. All rights reserved. アジェンダ 7 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後の構成と View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  3. @IVRy Inc. All rights reserved. Lakehouse Federationとは? 8 外部データベースのデータをコピーせず に

    Unity Catalog 経由で直接クエリできる機能 メリット • データコピー不要 → ETLジョブ・ストレージコスト削減 • リアルタイム参照 → ソースDBの最新データを直接参照 • Unity Catalog でガバナンス統一 → アクセス制御・リネージを一元管理 なぜ Lakehouse Federation を導⼊したのか
  4. @IVRy Inc. All rights reserved. IVRyのデータアーキテクチャ 9 なぜ Lakehouse Federation

    を導⼊したのか https://findy-tools.io/companies/ivry/90/76
  5. @IVRy Inc. All rights reserved. 10 なぜ Lakehouse Federation を導⼊したのか

    課題:テーブルが増えるたびに 人手が必要 な運用だった Created by Nano banana
  6. @IVRy Inc. All rights reserved. アジェンダ 11 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後のアーキテクチャと View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  7. @IVRy Inc. All rights reserved. アジェンダ 14 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後の構成と View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  8. @IVRy Inc. All rights reserved. 15 ハマったポイント その1: NLB の

    PrivateLink 設定 PrivateLink経由の通信はSGのチェックをスルーする必要があった https://docs.databricks.com/aws/en/security/network/serverless-networ k-security/pl-to-internal-network
  9. @IVRy Inc. All rights reserved. 17 ハマったポイント その3: ServerlessとClassicで接続ルートが異なる 一部のジョブがClassicのままだったためFederationカタログを参照すると

    エラーが発生した →ServerlessはPricateLink、ClassicはVPC Pering経由に! https://docs.databricks.com/aws/en/security/network/serverless-network-security/ pl-to-internal-network
  10. @IVRy Inc. All rights reserved. アジェンダ 18 1. なぜ Lakehouse

    Federation を導入したのか 2. 導入後の構成と View の自動作成の仕組み 3. ハマったポイント 4. まとめと今後
  11. @IVRy Inc. All rights reserved. 19 まとめと今後 まとめ: 導入の成果 大規模テーブルと

    PII テーブルは Federation から除外し、 安全かつパフォーマンスの良い構成に Before After テーブルの追加 Slack申請→手動対応 自動 データ鮮度 数時間に一度 リアルタイム コスト ジョブとストレージ ゼロ 運用負荷 ジョブ監視・障害対応 ほぼゼロ
  12. @IVRy Inc. All rights reserved. 20 まとめと今後 今後 1. データ削除時の影響

    ◦ PostgreSQLのデータが削除されると後続のデータ利用に影響が出る問題 への対応 2. 大規模テーブルの対応 ◦ dltHubをLakeflow Connectを利用してCDC 更新へ移行し、 よりリアルタイムかつコスト削減した連携を目指す