Databricks概要 b. データエンジニアリングとは c. ETL処理 d. メダリオンアーキテクチャ e. Delta Live Tables f. オーケストレーション 2. ハンズオン(1.5時間) a. Databricksにおけるデータエンジニアリング b. Delta Live Tables
フォーマットで提供される生のデータを収集、分析 できるようにする システムの設計、構築に関する プロセスを意味します。このようなシステムによっ て、ユーザーはビジネスの成長に つながる実践的なデータアプリケーションを 作り出すことが可能となります。 9 What Is Data Engineering?
要がある膨大な量の様々なデータを所有しています。データエンジニアリングは、 アナリスト、データサイエンティスト、エグゼクティブのようなデータ利用者がすべてのデータを 信頼しながら、クイックかつセキュアに調査できるようにするためのプロセスをサポート するこ とを目的としています。 データが様々テクノロジーによって管理され、多様な構造で格納されているため、データアナリス トは課題に直面にしています。さらに、分析で使用するツールはデータが同じ テクノロジーで管理され、同じ構造で格納されていることを前提としています。 10 What Is Data Engineering?
TABLE raw_data as SELECT * FROM json.`…` CREATE TABLE clean_data as SELECT … FROM raw_data From: The CEO <[email protected]> Subject: ASAP で分析をお願い ! To: Michael Armbrust <[email protected]> 素晴らしいレポートだ! 毎日アップデートして もらえる? 毎分
Management Daily Partition Computation Checkpointin g & Retries Quality Checks Governance Data Discovery Backfill Handling Version Control Deployment Infrastructure CREATE TABLE raw_data as SELECT * FROM json.`…` CREATE TABLE clean_data as SELECT … FROM raw_data
= […] sum = 0 for n in numbers: sum += n print(n) SELECT sum(n) FROM numbers 命令型プログラム 宣言型プログラム クエリーオプティマイザがsumを 計算するベストな方法を特定します データの依存関係 (パーティショニング、ストレージ ロケーション、インデックスなど) 物理構造が変化した際にクエリーを 記述する必要はありません
CREATE MATERIALIZED VIEW report AS SELECT sum(profit) FROM prod.sales GROUP BY date • マテリアライズドビューは、最後に アップデートされた際の定義済み クエリーの結果を常に返却します(スナップ ショット) • マテリアライズドビューのデータを変更するこ とはできません。クエリーを変更することはで きます。