Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks における Apache Iceberg の活用ポイント

Avatar for 島村学 島村学
July 09, 2025
210

Databricks における Apache Iceberg の活用ポイント

Cross Data Platforms Meetup #1.5 の発表資料です。

Avatar for 島村学

島村学

July 09, 2025
Tweet

Transcript

  1. Cross Data Platforms Meetup #1.5 Databricks における Apache Iceberg の

    活用ポイント 株式会社ジール 島村 学
  2. ◼ Data + AI Summit 2025(DAIS) にて学んだ Databricksでの Apache Icebergの活用方法

    を共有します。DAIS のセッションでは Databricks と Snowflake の相互運用について語 られていました。レイクハウス導入を検討すべき状況となってきています。 はじめに
  3. Apache Iceberg サポートを発表 Databricks で Apache Iceberg のサポートが発表されました。Delta Lake と

    Iceberg が 分断化されずに、“フォーマットロックインの解消”が可能になります。 引用元: Databricks で Apache Iceberg をフルサポート! | Databricks Blog ① マネージド Iceberg 外部から書き込み可能で 管理も自動で最適化 ②フォーリン Iceberg 外部のカタログの Iceberg テーブルを参照 待望の Apache Iceberg サポート
  4. Databricks でも Apache Iceberg の利点を享受 Databricks 社は Apache Iceberg に対する投資を実施しており、

    今回の Apache Iceberg サポートにより Databricks でもその利点を享受できます。 Delta Lake で聞いたことある機能が Apache Iceberg へ Apache Iceberg 界のリーダー格の Tabular社を買収 出所:Databricks + Tabular | Databricks Blog 出所:Apache Iceberg v3 ── エコシステム統合への大躍進 | Databricks Blog
  5. Snowflake が外部 Apache Iceberg への書き込み機能を発表 Snowflake Summit にて、外部の Apache Iceberg

    テーブルへの書き込みが可能となる Catalog Linked Databases 機能を発表。Databricks のマネージド Icebergと組み合わせ ることで、 Snowflake との相互運用が可能となる。 Snowflake が Catalog Linked Databases を発表 出所: Summit 2025 Highlights: Building the Future of AI and Apps “カタログリンクデータベース(近日公開予定)を使 用して、あらゆるIcebergテーブルへの安全な読み取 りと書き込みが可能になります。 “ 上記文章の一部の翻訳
  6. Apache Iceberg の活用事例のセッションを聴講 Databricks での Apache Iceberg での活用関連のセッションを聞きました。 DoorDashさんの Apache

    Iceberg による相互運用 セッション名:Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform T-Mobile さんの Databricks と Snowflake の相互運用 セッション名:Breaking Silos: Enabling Databricks-Snowflake Interoperability With Iceberg and Unity Catalog 撮影した写真が微妙であったため 公開されるであろう 動画をご確認ください。
  7. Apache Iceberg (OTF)を利用できない場合のアーキテクチャ ◼ Apache Iceberg などの オープンテーブルフォーマット(OTF) を利用できない場合には、 DWH

    間でのデータ統合が必要となる。 ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold DWH 間でのデータ統合が必要
  8. Apache Iceberg を利用できる場合のアーキテクチャ Databricks での Apache Iceberg (+Delta Lake) 形式でストレージにデータを保管により、

    データ統合が不要となる。 Silver ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold Silver Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold
  9. レイクハウスアーキテクチャの導入検討は必須 Delta Lake と Apache Iceberg をベースにしたレイクハウスアーキテクチャを データ分析基盤に導入するかの検討を実施すべきである。 Silver ML

    Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold N