Slide 1

Slide 1 text

©2026 Databricks, Inc. — All rights reserved Apache Iceberg Meetup Japan #5 Databricksにおける IcebergとDelta Lakeの 現在と未来 2026/5/20 Hiroyuki Nakazato, Sr. Specialist SA, Databricks Japan

Slide 2

Slide 2 text

©2026 Databricks, Inc. — All rights reserved スピーカー Hiroyuki Nakazato / 中里 浩之 経歴 • SIerでビッグデータ案件を中心に担当 • 通信事業者のサーバーサイド & データエンジニア • Azureのデータ & 分析のソリューションアーキテクト • 2023年11月より現職 データブリックス・ジャパン株式会社 Sr. Specialist Solutions Architect @hiroyuki-nakazato @nakazax

Slide 3

Slide 3 text

©2026 Databricks, Inc. — All rights reserved 🤔 Quiz: Databricksで 利用可能な OTFは?

Slide 4

Slide 4 text

©2026 Databricks, Inc. — All rights reserved Databricksは両フォーマットを ファーストクラスサポート

Slide 5

Slide 5 text

©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連

Slide 6

Slide 6 text

©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2017年 Ryan BlueがNetflixでIceberg を開発 RyanがNetflixのデータインフラチームで大規模テー ブルのメタデータ管理を刷新するプロジェクトとして スタート。 Ryan Blue氏写真

Slide 7

Slide 7 text

©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2021年 Tabular設立 Ryan BlueらがNetflixから独立、Tabularを設立。 Icebergの商用サポートとエコシステムの拡大を推 進。 Tabular社ロゴ

Slide 8

Slide 8 text

©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2023年 DatabricksがUniFormを発表 Delta Lakeへの書き込み時にIcebergメタデータを 自動生成。DatabricksのIcebergエコシステムへの 本格参入の第一歩。

Slide 9

Slide 9 text

©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2024年 DatabricksがTabularを買収 Icebergの産みの親たちがDatabricksに合流。 Delta/Iceberg両方のコア開発者が集結。 「競合」から「協調」へ。 Data + AI Summit 2024 KeynoteでのRyan Blue氏

Slide 10

Slide 10 text

©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2025年 Unity Catalog (UC) が Icebergをフルサポート Iceberg REST Catalog API, マネージドIceberg, 外部Icebergをフルサポート。 UCを通じて外部Icebergエンジンからの 読み書きが可能に。

Slide 11

Slide 11 text

©2026 Databricks, Inc. — All rights reserved IcebergとDatabricksの歴史 2017 Ryan BlueがNetflixで Icebergを開発 2018 Apache Software Foundationに寄贈 2021 Tabular設立 (Ryan Blueら) 2023 Databricksが UniFormを発表 2024 Databricksが Tabularを買収 2025 Unity Catalogで Icebergフルサポート 2026 Iceberg v3 Public Preview Iceberg 単体 Databricks 関連 2026年4月 Iceberg v3の パブリックプレビューを開始 Deletion Vectors、Row Lineage、 VARIANT型などのv3機能がDatabricks上で 利用可能に。 Databricksブログ https://www.databricks.com/jp/blog/next-era-open-lakeho use-apache-icebergtm-v3-public-preview-databricks

Slide 12

Slide 12 text

OTFへのDatabricksのコントリビューション Delta Lake、IcebergともにDatabricksが最大のコントリビューター 63% フォーマットの創始者である Databricksが 品質・ロードマップの両面で Deltaの開発をリード Source: GitHub REST API "List repository contributors" より2026-04-06時点のデータを取得 (api.github.com/repos/delta-io/delta/contributors, api.github.com/repos/apache/iceberg/contributors)。全コントリビューターの全期間累計 コ ミット数を集計。 Delta Lake: 384名, 4,827 commits。Apache Iceberg: 405名, 6,843 commits。会社帰属は GitHubプロフィールの companyフィールド、メールドメイン、公開情報に基づく推定で、未設定ユーザーは Otherに分類。Tabular社員は 2024年の買収により Databricksに合算。サブプロジェクト (delta-rs, iceberg-python, iceberg-rust等) は集計対象外。 35% Icebergコミュニティでも Databricksが最大の コントリビューターの 1社として開発を牽引

Slide 13

Slide 13 text

Delta LakeとIcebergの将来像 DatabricksがDelta LakeとIcebergのフォーマット統合をリード 将来像:2つのフォーマットの統合 DeltaおよびIcebergのクライアントからデー タ・メタデータの複製・変換なし に 同じテーブルへの読み書きを可能にする マネージドテーブル 統合メタデータ Parquet Delta Clients Iceberg Clients Delta, Icebergの両方のクライ アントが Unity Catalogを介し て単一のテーブルにアクセスで きるようになる。 Iceberg v4/Delta v5でメタ データの統一を計画中。将来的 にはDeltaもIcebergも1つの同 じ「マネージドテーブル」として 扱えるようになる。

Slide 14

Slide 14 text

フォーマット統合の 3ステップ Ryan BlueがDAIS 2025で語ったIcebergとDeltaの統合に向けたロードマップ 1 データ層の 統合 ✅ 完了 (v3) Parquetファイルレベルで の互換性を確保 (Deletion Vector, Row Lineage, VARIANT等) 2 メタデータ層の 統合 ♻ 進行中 (v4) Adaptive Metadata Tree で メタデータの構造を統合 3 カタログ層での 抽象化 UCで先行実装 ユーザーがフォーマットの違 いを意識する必要を なくす ▶ ▶

Slide 15

Slide 15 text

©2026 Databricks, Inc. — All rights reserved データ層の統合 (Iceberg v3) ステップ1

Slide 16

Slide 16 text

©2026 Databricks, Inc. — All rights reserved Iceberg v3での主要な変更 1 Deletion Vectors ファイル書換なしの行削除 UPDATE/DELETE/MERGE の書き込みコストを大幅に削 減 2 Row Lineage 永続行 ID + 変更追跡 CDC、データ品質監査の基 盤 3 VARIANT 型 半構造化データの型付き格 納 スキーマ事前定義不要 これらはDelta Lake側で先行実装されており その知見が Iceberg v3に還元された形 (参考) Iceberg v3 主要機能の概要は以下を参照 : speakerdeck.com/tomtanaka/apache-iceberg-meetup-in-japan-number-1-iceberg-v3-spec

Slide 17

Slide 17 text

©2026 Databricks, Inc. — All rights reserved Deltaの知見がIceberg v3に Deltaでの先行実装と主要なIceberg v3関連PR 機能 Delta 先行実装 主なIceberg PR 主な推進者 Deletion Vectors Delta 2.3 (2023) #11240 (Spec) #11476 (Core) Ryan Blue (Databricks; PMC Chair) Anton Okolnychyi (Databricks; PMC Roster) Row Lineage Delta 3.2 (2024) #11130 (Spec) #11948 (Core) Russell Spitzer (元Apple, 現Snowflake; PMC Roster) Amogh Jahagirdar (Databricks; PMC Roster) VARIANT Delta + Spark 4.0 #10831 (Spec) #11831 (Core) Aihua Xu (Snowflake) Reviewed by Ryan Blue (参考) Apache Iceberg Committee; PMC Roster (25), Committers (39) (2026/5/20時点) https://projects.apache.org/committee.html?iceberg

Slide 18

Slide 18 text

©2026 Databricks, Inc. — All rights reserved Deltaの知見がIceberg v3に “DatabricksのDeltaチームはIceberg のスペック策定にずっと関わってくれて、 Deltaで何がうまくいって何がダメだった か、アドバイスをくれた。おかげで同じ失 敗を繰り返さずに済んだ ” "The Delta folks from Databricks were really handy and they were consulting on the Iceberg spec the whole way and giving advice about what worked in Delta and what didn't so that we didn't make the same mistakes." Iceberg Summit 2025 KeynoteでのRyan Blueのコメント (出典) https://youtu.be/3N2KEUs7224?t=1632

Slide 19

Slide 19 text

©2026 Databricks, Inc. — All rights reserved メタデータ層の統合 (Iceberg v4) ステップ2

Slide 20

Slide 20 text

©2026 Databricks, Inc. — All rights reserved メタデータの課題 依然として別々の構造と課題を持つ Iceberg 側の課題 マニフェストの多段構造による Write amplification ● 少量の書き込みでもManifest + Manifest Listの新規作成が必要 (実データに対してメ タデータ過多) ● ストリーミングなど頻繁な小さなコミットで顕 著 ● テーブルが大規模化するとメタデータ走査 がボトルネックに 例: 1行のINSERTで以下が発生 0. 新しいData Fileを作成 (起点; これは妥当) 1. Data Fileを参照するManifest Fileを作成 2. 新しいManifest Listを作成 3. 新しいMetadata Fileを作成 4. カタログのポインタを更新 (画像出典) https://iceberg.apache.org/spec/

Slide 21

Slide 21 text

©2026 Databricks, Inc. — All rights reserved メタデータの課題 依然として別々の構造と課題を持つ Delta Lake 側の課題 ● チェックポイントの 書き込みコスト ● コミットログの リプレイコスト 例: テーブルに 100万ファイル、 10コミットごとにチェック ポイント 0. 小さなINSERTで1 Data File追加 1. コミットログ: 1つのJSONを書く (軽い) 2. 10コミット目: 100万エントリ checkpoint.parquet を丸ごと書き直す (重い) 3. テーブルを開く時: 最後のチェックポイント以降の全 JSONを順番にリプレイ (リプレイコスト) (画像出典) Diving Into Delta Lake: Unpacking The Transaction Log

Slide 22

Slide 22 text

©2026 Databricks, Inc. — All rights reserved メタデータの課題 依然として別々の構造と課題を持つ Iceberg 側の課題 マニフェストの多段書き込みによる Write amplification ● 少量の書き込みでもManifest + Manifest Listの新規作成が必要 (実データに対してメ タデータ過多) ● テーブルが大規模化するとメタデータ走査 がボトルネックに Delta Lake 側の課題 ● チェックポイントの書き込みコスト ● コミットログのリプレイコスト 両フォーマットにそれぞれメタデータの課題がある。 これを解決する提案の検討が進行中。

Slide 23

Slide 23 text

©2026 Databricks, Inc. — All rights reserved 提案の概要 ● Reduced Write Amplification 小さな書き込みでRoot Manifest直下に data/deleteファイルを直接配置可能 ● Single representation of manifest ツリー全階層で統一されたマニフェスト形式 (Manifest ListとManifestの区別がなくなる) ● Columnar Manifests マニフェストをカラムナー形式で格納し 圧縮率向上と必要なカラムのみの読取を実現 ● Column stats at every level 全階層でカラム統計を保持しパーティション情報だけ でなくカラム値でもプルーニング可能に ● Change Detection スナップショット単体からツリーをたどるだけで追加 /削 除されたファイルを特定 Adaptive Metadata Tree (AMT) Icebergのメタデータ構造を根本から再設計する提案 (出典) Apache Iceberg V4 Adaptive Metadata Tree | Apache Iceberg Meetup

Slide 24

Slide 24 text

Delta v5.0でAdaptive Metadata Treeの 適用に向けた RFC (Delta RFC #6640)

Slide 25

Slide 25 text

Iceberg v4 & Delta v5でメタデータ層を統合 Iceberg v4 Adaptive Metadata Tree Delta 5.0 Native Content Metadata ▶ ◀ 同一の メタデータ構造 ● IcebergもDeltaも同じメタデータ構造 に! ○ UniFormのようなメタデータの複製・変換が不要 に ○ XTableやDelta Direct (Snowflake) 等、あらゆる中間レイヤーが不要 に ● DeltaクライアントもIcebergクライアントも同じメタデータ・データを直接読み書き ○ マネージドDelta / Iceberg の区別がなくなり、単にマネージドテーブル に

Slide 26

Slide 26 text

Data + AI Summit 2026の注目セッション 注目セッション Format Co-Evolution: How Iceberg v4 and Delta 5.0 Share a Unified Metadata Ryan Blue, Anoop Johnson (Databricks) 関連セッション A Unified Future for Delta and Apache Iceberg Anoop Johnson, Micah Kornfield 関連セッション Your Guide to Open Table Formats Scott Sandre, Benjamin Mathew (Delta 5.0 + AMT の early look 含む)

Slide 27

Slide 27 text

©2026 Databricks, Inc. — All rights reserved カタログ層での 抽象化 ステップ3

Slide 28

Slide 28 text

カタログなしに OTFは成り立たない Icebergはカタログが必須。Delta Lakeもカタログ連携が主流に カタログ エンジン (e.g. Spark) Iceberg テーブル仕様 Delta Lake; カタログマネージドテーブル カタログ OSS Delta Lake: Delta 4.1 (2026年3月): カタログマネージドテーブルを本格サポート。 OSSカ タログとしてUnity Catalog 0.4.0 が最初に対応。 マネージドDelta Lakeテーブル (Databricks): DBR 16.4以上 + UCマネージドDeltaテーブルの組み合わせで マルチテーブルトランザクションが利用可能。 メタデータの所在管理と 同時実行制御 コミット調整と テーブル状態の一元管理 詳細: https://iceberg.apache.org/spec/

Slide 29

Slide 29 text

オープンAPIで任意のクライアントから利用 Databricksランタイム又は外部のIcebergエンジンから オープンAPI経由でマネージド Icebergテーブルの 読み書きが可能 フェデレーションで全データをガバナンス Hiveメタストア、AWS Glue、Snowflake Horizon Catalog、 Iceberg REST Catalogなどにある外部Icebergテーブルに Unity Catalogからフェデーレションアクセス Delta Clients Iceberg Clients Iceberg REST Unity REST フェデレーション Glue Horizon HMS Unity Catalogでレイクハウスを統合

Slide 30

Slide 30 text

Icebergを選べば無条件にオープン ...? AWS Athena EMR Redshift Trino Flink Spark Kafka Databricks OSS DATABRICKS SNOWFLAKE Fabric BigQuery AZURE GCP Snowflake Icebergを選びさえすれば ● どのエンジンからも読み書き可能 ● アクセスに余分な料金は不要 ● ベンダーフリー のはず?

Slide 31

Slide 31 text

そう簡単ではありません! Icebergカタログの選択を間違えると フォーマットがオープンでも新たなロックインが生まれる。 適切なカタログの選択が重要。 31

Slide 32

Slide 32 text

OTFカタログに必要な 3つの条件 外部エンジンへの解放、テーブル最適化、外部カタログ連携 2 高度な テーブル最適化 難しい設定なしでストレージ効率 とクエリ性能を最適化 1 3 外部エンジンから制約 なく読み書きが可能 用途ごとに最適なツールを自由 に選択できる、将来性のある アーキテクチャ 外部カタログとの 相互運用性 複数カタログの全データを 中央カタログから統合管理

Slide 33

Slide 33 text

2024年にOSS実装を公開 Unity Catalog - OTFに最適なカタログ Tables AI Models Files Notebooks Dashboards CSV, JSON, AVRO Access Control Discovery Lineage Auditing Secure Data Sharing Quality Monitoring Cost Controls Business Semantics Security Collaboration Quality Management Spark Fabric EMR Flink Databricks Trino Snowflake BigQuery Big Query FOREIGN CATALOGS Federation Unity REST & Iceberg REST ENGINES Iceberg REST HMS Glue Salesforce 外部からのメタデータ アクセスに追加コストなし Delta, Icebergともに自動で 高度な最適化を適用 多数の外部カタログとの 相互運用性 Snowflake

Slide 34

Slide 34 text

将来像 - メタデータの統合完了後、 UCを介することでフォーマットの違いを意識せずに 単一のテーブルにアクセスが可能に Access Control Discovery Lineage Auditing Secure Data Sharing Quality Monitoring Cost Controls Business Semantics Security Collaboration Quality Management Spark Fabric EMR Flink Databricks Trino Snowflake BigQuery Big Query FOREIGN CATALOGS Federation Unity REST & Iceberg REST ENGINES Iceberg REST HMS Glue Salesforce Snowflake メタデータ (Adaptive Metadata Tree) データ (Parquetファイル)

Slide 35

Slide 35 text

6月15日 - 18日 サンフランシスコで 開催! 3 5 データと分析、AI の 世界最大のイベント 25,000 800+ 200+ 現地参加者 ブレイクアウト セッション 協賛社 Data + AI Summit はDatabricks の年次フラッグ シップイベントです。データや分析、 AI のコミュニティ が集う世界最高峰のイベントが、 2026年6月15日から 4日間サンフランシスコで開催されます。 業界リーダーやビジョナリースピーカーによる基調講 演、テクニカルセッション、ハンズオントレーニング、 ネットワーキングの機会など、数多くのコンテンツをご 用意しています。 ご登録はこちら

Slide 36

Slide 36 text

©2026 Databricks, Inc. — All rights reserved