Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
OTFSG勉強会 / Introduction to the History of Delta...
Search
Databricks Japan
June 18, 2025
Technology
0
270
OTFSG勉強会 / Introduction to the History of Delta Lake + Iceberg
6月17日に大阪で開催されたオープンテーブルフォーマット勉強会での発表資料になります。
Delta Lakeの歴史から、最新のIcebergへの対応について詳しく説明します。
Databricks Japan
June 18, 2025
Tweet
Share
More Decks by Databricks Japan
See All by Databricks Japan
[2025年10月版] Databricks Data + AI Boot Camp
databricksjapan
1
22
Microsoft Tech Brief 【2025年10月最新版!】 Fabric & Databricks が導く "未来型 AI Agentic Analytics" の最新アップデートを徹底解説!
databricksjapan
0
200
動画データのポテンシャルを引き出す! Databricks と AI活用への奮闘記(現在進行形)
databricksjapan
0
200
RedshiftからDatabricksに引っ越してみたら、 想像以上に良かった話
databricksjapan
0
180
Azure SynapseからAzure Databricksへ 移行してわかった新時代のコスト問題!?
databricksjapan
0
180
Databricks連携で実現する DWHモダナイゼーション
databricksjapan
0
160
[2025年7月版] AI/BI 最新機能アップデート / AIBI update on July
databricksjapan
0
180
AIもデータも、もっと身近に。Databricksで広がる金融業界の可能性 / FDUA-Study
databricksjapan
0
250
[2025年5月版] Azure Databricks最新機能アップデート / 202505 Azure Databricks Latest Updates
databricksjapan
0
300
Other Decks in Technology
See All in Technology
このままAIが発展するだけでAGI達成可能な理由
frievea
0
120
能登半島災害現場エンジニアクロストーク 【JAWS FESTA 2025 in 金沢】
ditccsugii
0
900
「使い方教えて」「事例教えて」じゃもう遅い! Microsoft 365 Copilot を触り倒そう!
taichinakamura
0
440
物体検出モデルでシイタケの収穫時期を自動判定してみた。 #devio2025
lamaglama39
0
230
フレームワークを意識させないワークショップづくり
keigosuda
0
210
データ戦略部門 紹介資料
sansan33
PRO
1
3.8k
Introdução a Service Mesh usando o Istio
aeciopires
0
200
新規事業におけるGORM+SQLx併用アーキテクチャ
hacomono
PRO
0
330
Dylib Hijacking on macOS: Dead or Alive?
patrickwardle
0
280
Sansan Engineering Unit 紹介資料
sansan33
PRO
1
3k
HR Force における DWH の併用事例 ~ サービス基盤としての BigQuery / 分析基盤としての Snowflake ~@Cross Data Platforms Meetup #2「BigQueryと愉快な仲間たち」
ryo_suzuki
0
230
能登半島地震で見えた災害対応の課題と組織変革の重要性
ditccsugii
0
1k
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
232
18k
Typedesign – Prime Four
hannesfritz
42
2.8k
Faster Mobile Websites
deanohume
310
31k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
35
6.1k
Facilitating Awesome Meetings
lara
56
6.6k
The Language of Interfaces
destraynor
162
25k
Bash Introduction
62gerente
615
210k
Navigating Team Friction
lara
190
15k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.6k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
9
910
Statistics for Hackers
jakevdp
799
220k
Transcript
Delta Lake の 過去-現在-未来 Shotaro Kotani, Senior Partner Solutions Architect
+少しDatabricksの話
PSA@Databricks 2022年~ SIerさんの技術支援、製品のキャッチアップのお 手伝いをしています R&D@Deloitte 会計不正検知システムの研究開発 Databricks歴 = Spark歴 =
Delta Lake歴 最近 Iceberg 始めました Who am I 小谷 尚太郎 先日のDatabricks Summitにて
本日お話しすること Delta Lake 今昔 + Databricks と Iceberg ❤
Delta Lake の起源 Spark Summit 2018 での会話がきっかけ Dominique Brezinski Distinguished
Engineer@Apple Michael Armbrust Distinguished Engineer@Databricks Apple Payのネットワークの脅威検知した いんやけど、Parquetやったらトランザクショ ン効かへんし、DWHやったら機械学習モデ ルで推論できひんねん なんとかならへんかな? いけるんちゃう?ほなやってみよや → Spark+AI Summit 2019 でOSS化
Delta Lake の機能追加の歴史 最新は Ver 4.0.0 バージョン 0.x(2019年) • オープンソース化(2019年)
• ACIDトランザクション、スキーマエンフォースメント、タイムトラベル などの 基本機能 バージョン 1.0.x(2021年) • プロダクションレディとしての安定化 • Spark 3.1.xとの互換性 バージョン 2.x(2022年〜2023年) • Spark 3.2.x〜3.4.xとの互換性拡大 • Z Ordering のサポート • RESTOREコマンドの強化 バージョン 3.0.0(2023年10月) • UniForm (iceberg互換メタデータ) プレビュー開始 • Checkpoint V2(新しいチェックポイントフォーマット)導入 • ログコンパクションファイルのサポート • UPDATE/MERGE時のセーフキャスト強化 バージョン 3.1.0(2024年1月) • Deletion Vector によるMERGEの高速化 • メタデータ活用によるmin/max集計の高速化 • Delta Sharing経由のテーブルクエリ対応 • 統計情報によるMERGEの高速化 • Iceberg互換(UniForm)強化(MAP/LIST型対応) バージョン 3.2.x(2024年9月) • Liquid Clustering 対応 • クラスタリングテーブルのRESTORE対応 バージョン 3.3.x(2024年12月) • Identity Column(自動採番カラム)サポート • VACUUM LITE(高速VACUUM) • UniForm ALTER(既存テーブルへのUniForm有効化) • Type Widening(型拡張)サポート バージョン 4.0.x(2025年6月) • Spark 4.0.x対応 • Catalog Managed Table のサポート
Deletion Vector 削除、アップデート時にファイルの書き換えが不要に Before After
7 Iceberg v3
8 • Deletion Vectors • Row Lineage • Semi-Structured Data
and Geospatial Types • Delta Lake, Apache Parquet, and Apache Sparkとの相互互換性 Iceberg v3 の主な新機能
Catalog-managed Tables Delta Lake 4.0.0 から Preview, RFS 9 Catalog-managed
Tables, Commits トランザクション管理がObject Storageの Put-if-absense特性に依存 (トランザクションが単一テーブルスコープ) ~ Delta 4.0 カタログがトランザクションを仲介 (複数テーブルスコープへ拡張可能) エンジン (e.g. Spark) エンジン (e.g. Spark)
Multi Statement Transaction (Prpr) Catalog-managed Tables により、複数テーブルのトランザクションが... 掲載せず
Databricks ❤ Iceberg Public Preview - Managed Iceberg Tables
Unity Catalog エコシステム Salesforce Starburst Kafka PyIceberg Fabric Apache Spark
Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Iceberg REST APIs Other Catalogs ✅ Iceberg REST Snowflake
Demo: Snowflake から UC Table へクエリ Salesforce Starburst Kafka PyIceberg
Fabric Apache Spark Flink Trino Tableau PowerBI Snowflake Atlassian HMS Glue SAP Iceberg Engines ✅ Data Sharing ✅ Delta Engines ✅ EMR Clickhouse Unity REST APIs Federation Delta Sharing Other Catalogs ✅ Iceberg REST Snowflake Iceberg REST APIs
今後は Snowflake からの Write Support も...
【本書の概要】 本書は、高い信頼性とハイパフォーマンスを両立する、OSSの ストレージレイヤソフトウェアであるDelta Lakeの入門書です。 セットアップから実際の操作手順、実行例まで、データ分析に 携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説 を行います。 Delta Lake
徹底入門 Delta Lake Up and Running の翻訳書です https://amzn.asia/d/3AOIsWg
None