Slide 1

Slide 1 text

2 Lakeflow Connect: Simple Ingestion Connectors 2 Presenter Date

Slide 2

Slide 2 text

5 オンプレミス データベース SaaSアプリ メッセージ バス クラウド ストレージ SaaSアプリ データプラットフォーム

Slide 3

Slide 3 text

6 現在の問題 データ取り込みの非効率性 高コスト 価値提供の遅延 専門チームへの依存 生産性の低下。サイロ化 されるオーナーシップ ガバナンスが限定的なパッチ ワークソリューション 利用されないデータ セキュリティのリスク

Slide 4

Slide 4 text

7 現在の問題 データ取り込みの非効率性 高コスト 価値提供の遅延 専門チームへの依存 生産性の低下。サイロ化 されるオーナーシップ ガバナンスが限定的なパッチ ワークソリューション 利用されないデータ セキュリティのリスク

Slide 5

Slide 5 text

8 現在の問題 ガバナンスが限定的なパッチ ワークソリューション 利用されないデータ セキュリティのリスク 専門チームへの依存 生産性の低下。サイロ化 されるオーナーシップ データ取り込みの非効率性 高コスト 価値提供の遅延

Slide 6

Slide 6 text

9 Lakeflow Connect レイクハウスと統合 効率的なエンドツーエンド シンプルかつ低メンテナンス

Slide 7

Slide 7 text

10 Lakeflow Connect レイクハウスと統合 効率的なエンドツーエンド シンプルかつ低メンテナンス 頭痛を低減、迅速な価値創出、デー タの民主化

Slide 8

Slide 8 text

11 Lakeflow Connect レイクハウスと統合 効率的なエンドツーエンド シンプルかつ低メンテナンス ● スキーマ進化 ● 観測可能性とアラート ● リトライとエラー対応 ● スキーママッピング ● データサンプリング ● SCD type 2 ● シンプルなUIとAPI ● …

Slide 9

Slide 9 text

12 Lakeflow Connect レイクハウスと統合 効率的なエンドツーエンド シンプルかつ低メンテナンス あなたの作業場所に存在する セキュアで安定したパイプライン

Slide 10

Slide 10 text

13 Lakeflow Connect レイクハウスと統合 効率的なエンドツーエンド シンプルかつ低メンテナンス ● Unity Catalog ● ワークフロー ● Agent Framework & Evaluation ● パイプラインの単一インタフェース ● 取り込みのための単一アカウント ● …

Slide 11

Slide 11 text

14 Lakeflow Connect 効率的なエンドツーエンド レイクハウスと統合 シンプルかつ低メンテナンス コスト削減、パフォーマンスや スケーラビリティの改善

Slide 12

Slide 12 text

15 Lakeflow Connect 効率的なエンドツーエンド レイクハウスと統合 シンプルかつ低メンテナンス ● インクリメンタルな読み込み ● インクリメンタルな書き込み ● インクリメンタルな変換 ● …

Slide 13

Slide 13 text

©2024 Databricks Inc. — All rights reserved 16 ロードマップ アプリケーション Public Preview Private Preview Private Preview Private Preview データベース Private Preview … … Public Preview Public Preview 変更可能性あり | go/connectors/timelines In development Roadmap Roadmap Roadmap In Dev Roadmap In development Roadmap Roadmap Amazon DynamoDB Last updated November 2024

Slide 14

Slide 14 text

17 ディープダイブ

Slide 15

Slide 15 text

18 場面設定 私のデータはSalesforceやSQL Serverを含む数箇所に存在しています 私はある企業のデータエンジニアです

Slide 16

Slide 16 text

19 Before 構造化 ストリーミング 抽出ソフトウェアと インフラストラクチャ カスタム ノートブック

Slide 17

Slide 17 text

20 After Lakeflow Connect

Slide 18

Slide 18 text

22

Slide 19

Slide 19 text

24 UCの接続 取り込みパイプライン ワークフロー DAG セキュアに資格情報を格納 効率的なデータの取り込み ETLのオーケストレーション Unity Catalog セキュリティ、ガバナンス、カタログ、リネージの統合 Delta Lake 外部からアクセス可能な高信頼データストレージ コネクターとは?

Slide 20

Slide 20 text

マネージドの 取り込み処理 (サーバレスDLT) Lakeflow Connect: SaaS 取り込み 25 ストリーミング Delta テーブル 資格情報 (Unity Catalog) 2 1 3 Lakeflow ConnectはサーバレスコンピュートDLT パイプラインを用いて、外部ソースから ストリーミングDeltaテーブルにデータを収集します: 1. LakeflowサーバレスDLTジョブは、Unity Catalogから 資格情報を収集します。 2. ジョブは公開されているデータソースに到達 します (API、オープンOLAPポートなど)。 3. サービスはデータを変換し、ストリーミング Deltaテーブルに格納します。 サービス Lakeflow Connect

Slide 21

Slide 21 text

Lakeflow Connect : データベース取り込み 取り込みゲートウェイ(クラ シックコンピュートDLT) 26 ユーザー Web UI, API & CLI マネージド取り込み処理 (サーバレスDLT) ストリーミングDelta テーブル ステージング & 状態管理 (Unity Catalogボリューム) DLT DLT 資格情報 (Unity Catalog) 従来のデータベース (オンプレミス、クラウド ) 2 1 3 Lakeflow Connect 4 Lakeflow Connectは外部データベースからストリーミング Deltaテーブルにデータを収集 します。 1. クラシックコンピュート DLTジョブがUCから資格情報を収集します 2. データベースソースに接続し、データを収集するために資格情報を使用します 3. 最新の状態とステージングデータを Unity Catalogのボリュームに保存します 4. サーバレスDLTジョブは収集したデータを処理し、ストリーミング Delta テーブルに格納します

Slide 22

Slide 22 text

Lakeflow Connect - ブロンズテーブル ETL / ML / SQL タスク ワークフロー例 ワークフロー

Slide 23

Slide 23 text

28 パイプラインスケジュールの追加… …パイプラインタスクを持つジョブが作成

Slide 24

Slide 24 text

29 ソース固有の スライド SQL Server . . . (More WIP)

Slide 25

Slide 25 text

前提条件の概要 効率的なデータ複製と同期のために、ソースのSQL Serverにおける変更トラッキング(CT)やチェンジデータキャプチャ (CDC)を有効化します。 CT/CDCの目的: - 効率的なデータ複製、同期、監査の有効化。 - 変更をインクリメンタルに追跡することで、テーブルのフルスキャンと比較してオーバーヘッドを削減。 - 分析、レポート、その他のワークロード特性におけるリアルタイム、ニアリアルタイムのデータ取り込みをサポート。 CTのメリット: - 軽量なトラッキング: 主キーの変更のみをトラッキング。 - 最低限のストレージのインパクト: 変更を特定するために必要十分なデータを格納。 - 使いやすさ: 詳細な変更履歴なしにアプリケーションの同期を簡素化。 チェンジデータキャプチャのメリット: - 包括的なトラッキング: beforeとafterのデータを含む変更に関する詳細な情報。 - 履歴的な変更データ: 監査とデバッグのための変更を保持。 - ETLとのインテグレーション: SQL Serverインテグレーションサービスとのシームレスな連携。 SQL Server

Slide 26

Slide 26 text

前提条件の概要 Change TrackingとChange Data Captureの違い: SQL Server

Slide 27

Slide 27 text

©2024 Databricks Inc. — All rights reserved LakeFlow Connect Salesforce Connector Salesforce Sales Cloudとのビルトインかつ堅牢な取り込み カーソルカラムを用いたインクリメンタル取り込み 数式フィールドとカスタムオブジェクトをサポート 顧客離脱の予測、パーソナライズした顧客分析の ような様々なユースケースを解放 DatabricksにおけるSalesforce からデータ洞察を引き出すことです べてにアクセスを拡張

Slide 28

Slide 28 text

No content