Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Databricks で Iceberg を試してみた

Avatar for 島村学 島村学
August 06, 2025
370

Databricks で Iceberg を試してみた

Data + AI Summit 2025をみんなで振り返ろう!#2 (オンライン開催)の発表資料です。

Avatar for 島村学

島村学

August 06, 2025
Tweet

Transcript

  1. ◼ Data + AI Summit 2025(DAIS)で学んだDatabricksにおけるApache Icebergの活用 方法について共有します。 ◼ DAISのセッションでは、Databricksと他のDWH間の相互運用性に関する内容を取り上げ、

    今後の展望について説明します。 ◼ なお、既存のDelta Lakeユーザーに対してApache Icebergへの移行を推奨するものではな く、Apache Icebergの導入をあくまで追加の選択肢としてご理解ください。 はじめに
  2. DAIS のセッションは 基本的には YouTube で公開 出所: Agenda — Data +

    AI Summit 2025 セッションは公開 出所: Databricks - YouTube AI により情報獲得も容易に Google NotebookLM の 音声解説が便利!!
  3. Apache Iceberg サポートを発表 Databricks で Apache Iceberg のサポートが発表されました。Delta Lake と

    Iceberg が 分断化されずに、“フォーマットロックインの解消”が可能になります。 引用元: Databricks で Apache Iceberg をフルサポート! | Databricks Blog ① マネージド Iceberg 外部から書き込み可能で 管理も自動で最適化 ②フォーリン Iceberg 外部のカタログの Iceberg テーブルを参照 待望の Apache Iceberg サポート
  4. Databricks でも Apache Iceberg の利点を享受 Databricks 社は Apache Iceberg に対する投資を実施しており、

    今回の Apache Iceberg サポートにより Databricks でもその利点を享受できます。 Delta Lake で聞いたことある機能が Apache Iceberg へ Apache Iceberg 界のリーダー格の Tabular社を買収 出所:Databricks + Tabular | Databricks Blog 出所:Apache Iceberg v3 ── エコシステム統合への大躍進 | Databricks Blog
  5. Snowflake が外部 Apache Iceberg への書き込み機能を発表 Snowflake Summit にて、外部の Apache Iceberg

    テーブルへの書き込みが可能となる Catalog Linked Databases 機能を発表。Databricks のマネージド Icebergと組み合わせ ることで、 Snowflake との相互運用が可能となる。 Snowflake が Catalog Linked Databases を発表 出所: Summit 2025 Highlights: Building the Future of AI and Apps “カタログリンクデータベース(近日公開予定)を使 用して、あらゆるIcebergテーブルへの安全な読み取 りと書き込みが可能になります。 “ 上記文章の一部の翻訳
  6. Apache Iceberg の活用事例のセッションを聴講 Databricks での Apache Iceberg での活用関連のセッションを聞きました。 DoorDashさんの Apache

    Iceberg による相互運用 セッション名:Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform T-Mobile さんの Databricks と Snowflake の相互運用 セッション名:Breaking Silos: Enabling Databricks-Snowflake Interoperability With Iceberg and Unity Catalog 撮影した写真が微妙であったため 公開された 動画をご確認ください。
  7. Apache Iceberg (OTF)を利用できない場合のアーキテクチャ ◼ Apache Iceberg などの オープンテーブルフォーマット(OTF) を利用できない場合には、 DWH

    間でのデータ統合が必要となる。 ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold DWH 間でのデータ統合が必要
  8. Apache Iceberg を利用できる場合のアーキテクチャ Databricks での Apache Iceberg (+Delta Lake) 形式でストレージにデータを保管により、

    データ統合が不要となる。 Silver ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold Silver Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold
  9. 基本的な操作手順は manabian 氏の記事に確認可能 manabian 氏が Databricks -> Snowflake の検証をしたそうなので、実際に試したい方は 記事にて確認してください。参考になったら、いいねを押してあげてください。

    Databricks -> Snowflake の マネージド Iceberg テーブルの検証は未完了です。 出所:Databricks におけるマネージド Apache Iceberg 機能を試し てみた #Spark - Qiita Databricks Iceberg -> Snowflake Snowflake Iceberg -> Databricks Coming Soon... ただ、エラーが。。。
  10. おや!? Databricks Iceberg テーブルのようすが。。。 Iceberg テーブルを作成すると _iceberg だけでなく _delta_log ディレクトリも生成され、

    DESC HISTORY など Delta Lake のメタデータ操作が可能です。 Apache Iceberg と Delta Lake におけるフォーマット統合の一歩目?? Databricks マネージド Iceberg テーブルのディレクトリ直下
  11. まとめ Silver ML Model 構築 … BI レポート (可視化システム) 生成

    AI システム シミュレーション Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold N 複数の DWH がある場合には、Delta Lake と Apache Iceberg をベースにした レイクハウスアーキテクチャの導入を検討しましょう。