Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OTFSG勉強会 / Introduction to the History of Delta...
Search
Databricks Japan
June 18, 2025
Technology
0
240
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
6月17日に大阪で開催されたオープンテーブルフォーマット勉強会での発表資料になります。
Delta Lakeの歴史から、最新のIcebergへの対応について詳しく説明します。
Databricks Japan
June 18, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
Databricks連携で実現する DWHモダナイゼーション
databricksjapan
0
73
[2025年7月版] AI/BI 最新機能アップデート / AIBI update on July
databricksjapan
0
120
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
190
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
260
DatabricksとPower BIの連携メリット / Databricks PowerBI Integration Merits
databricksjapan
1
310
[2025年4月版] Databricks Academy ラボ環境 利用開始手順 / Databricks Academy Labs Onboarding
databricksjapan
2
550
Lakeflow Connectのご紹介
databricksjapan
1
320
MLflowの現在と未来 / MLflow Present and Future
databricksjapan
1
850
Iceberg Meetup Japan #1 : Iceberg and Databricks
databricksjapan
0
920
Other Decks in Technology
See All in Technology
dbt開発 with Claude Codeのためのガードレール設計
10xinc
1
410
Language Update: Java
skrb
2
280
AI エージェントとはそもそも何か? - 技術背景から Amazon Bedrock AgentCore での実装まで- / AI Agent Unicorn Day 2025
hariby
4
1.2k
AI開発ツールCreateがAnythingになったよ
tendasato
0
110
ライブサービスゲームQAのパフォーマンス検証による品質改善の取り組み
gree_tech
PRO
0
580
ヒューリスティック評価を用いたゲームQA実践事例
gree_tech
PRO
0
580
ChatGPTとPlantUML/Mermaidによるソフトウェア設計
gowhich501
1
120
AI駆動開発に向けた新しいエンジニアマインドセット
kazue
0
260
落ちる 落ちるよ サーバーは落ちる
suehiromasatoshi
0
140
Vault を基盤として整備し、 みんなに使ってもらえるようになるまで
takahiko
1
100
機械学習を扱うプラットフォーム開発と運用事例
lycorptech_jp
PRO
0
200
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
30k
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
GraphQLとの向き合い方2022年版
quramy
49
14k
Visualization
eitanlees
148
16k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
How to Think Like a Performance Engineer
csswizardry
26
1.9k
We Have a Design System, Now What?
morganepeng
53
7.8k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1.1k
Building Adaptive Systems
keathley
43
2.7k
Navigating Team Friction
lara
189
15k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Transcript
Delta Lake の 過去-現在-未来 Shotaro Kotani, Senior Partner Solutions Architect
+少しDatabricksの話
PSA@Databricks 2022年~ SIerさんの技術支援、製品のキャッチアップのお 手伝いをしています R&D@Deloitte 会計不正検知システムの研究開発 Databricks歴 = Spark歴 =
Delta Lake歴 最近 Iceberg 始めました Who am I 小谷 尚太郎 先日のDatabricks Summitにて
本日お話しすること Delta Lake 今昔 + Databricks と Iceberg ❤
Delta Lake の起源 Spark Summit 2018 での会話がきっかけ Dominique Brezinski Distinguished
Engineer@Apple Michael Armbrust Distinguished Engineer@Databricks Apple Payのネットワークの脅威検知した いんやけど、Parquetやったらトランザクショ ン効かへんし、DWHやったら機械学習モデ ルで推論できひんねん なんとかならへんかな? いけるんちゃう?ほなやってみよや → Spark+AI Summit 2019 でOSS化
Delta Lake の機能追加の歴史 最新は Ver 4.0.0 バージョン 0.x(2019年) • オープンソース化(2019年)
• ACIDトランザクション、スキーマエンフォースメント、タイムトラベル などの 基本機能 バージョン 1.0.x(2021年) • プロダクションレディとしての安定化 • Spark 3.1.xとの互換性 バージョン 2.x(2022年〜2023年) • Spark 3.2.x〜3.4.xとの互換性拡大 • Z Ordering のサポート • RESTOREコマンドの強化 バージョン 3.0.0(2023年10月) • UniForm (iceberg互換メタデータ) プレビュー開始 • Checkpoint V2(新しいチェックポイントフォーマット)導入 • ログコンパクションファイルのサポート • UPDATE/MERGE時のセーフキャスト強化 バージョン 3.1.0(2024年1月) • Deletion Vector によるMERGEの高速化 • メタデータ活用によるmin/max集計の高速化 • Delta Sharing経由のテーブルクエリ対応 • 統計情報によるMERGEの高速化 • Iceberg互換(UniForm)強化(MAP/LIST型対応) バージョン 3.2.x(2024年9月) • Liquid Clustering 対応 • クラスタリングテーブルのRESTORE対応 バージョン 3.3.x(2024年12月) • Identity Column(自動採番カラム)サポート • VACUUM LITE(高速VACUUM) • UniForm ALTER(既存テーブルへのUniForm有効化) • Type Widening(型拡張)サポート バージョン 4.0.x(2025年6月) • Spark 4.0.x対応 • Catalog Managed Table のサポート
Deletion Vector 削除、アップデート時にファイルの書き換えが不要に Before After
7 Iceberg v3
8 • Deletion Vectors • Row Lineage • Semi-Structured Data
and Geospatial Types • Delta Lake, Apache Parquet, and Apache Sparkとの相互互換性 Iceberg v3 の主な新機能
Catalog-managed Tables Delta Lake 4.0.0 から Preview, RFS 9 Catalog-managed
Tables, Commits トランザクション管理がObject Storageの Put-if-absense特性に依存 (トランザクションが単一テーブルスコープ) ~ Delta 4.0 カタログがトランザクションを仲介 (複数テーブルスコープへ拡張可能) エンジン (e.g. Spark) エンジン (e.g. Spark)
Multi Statement Transaction (Prpr) Catalog-managed Tables により、複数テーブルのトランザクションが... 掲載せず
Databricks ❤ Iceberg Public Preview - Managed Iceberg Tables
Unity Catalog エコシステム Salesforce Starburst Kafka PyIceberg Fabric Apache Spark
Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Iceberg REST APIs Other Catalogs ✅ Iceberg REST Snowflake
Demo: Snowflake から UC Table へクエリ Salesforce Starburst Kafka PyIceberg
Fabric Apache Spark Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Other Catalogs ✅ Iceberg REST Snowflake Iceberg REST APIs
今後は Snowflake からの Write Support も...
【本書の概要】 本書は、高い信頼性とハイパフォーマンスを両立する、OSSの ストレージレイヤソフトウェアであるDelta Lakeの入門書です。 セットアップから実際の操作手順、実行例まで、データ分析に 携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説 を行います。 Delta Lake
徹底入門 Delta Lake Up and Running の翻訳書です https://amzn.asia/d/3AOIsWg
None