Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks で Iceberg を試してみた
Search
島村学
August 06, 2025
0
370
Databricks で Iceberg を試してみた
Data + AI Summit 2025をみんなで振り返ろう!#2 (オンライン開催)の発表資料です。
島村学
August 06, 2025
Tweet
Share
More Decks by 島村学
See All by 島村学
Databricks における Apache Iceberg の活用ポイント
shimamura
0
240
Lakehouse×生成AI Databricksで体験する次世代データ分析ハンズオン 短縮版
shimamura
0
11
Featured
See All Featured
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
How GitHub (no longer) Works
holman
314
140k
Building Adaptive Systems
keathley
43
2.7k
Raft: Consensus for Rubyists
vanstee
140
7.1k
GitHub's CSS Performance
jonrohan
1031
460k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.6k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
810
Fireside Chat
paigeccino
39
3.6k
Building Applications with DynamoDB
mza
96
6.6k
Transcript
Data + AI Summit 2025をみんなで振り返ろう!#2 Databricks で Iceberg を試してみた 株式会社ジール
島村 学
◼ Data + AI Summit 2025(DAIS)で学んだDatabricksにおけるApache Icebergの活用 方法について共有します。 ◼ DAISのセッションでは、Databricksと他のDWH間の相互運用性に関する内容を取り上げ、
今後の展望について説明します。 ◼ なお、既存のDelta Lakeユーザーに対してApache Icebergへの移行を推奨するものではな く、Apache Icebergの導入をあくまで追加の選択肢としてご理解ください。 はじめに
自己紹介 (1/2) 島村 学 株式会社ジールにて データ分析基盤・アプリの設計・構築 出所:ジールHP 出所:DMBOK 2nd Figure
82 Conceptual DW/BI and Big Data Architecture 主な対象領域
自己紹介 (2/2) Databricks CHAMPION 出所:一般社団法人 データマネジメント協会 日本支部(DAMA Japan) DAMA日本支部 理事
私の DAIS
はじめての海外カンファレンス はじめてのサンフランシスコ はじめての DAIS
DAIS のセッションは 基本的には YouTube で公開 出所: Agenda — Data +
AI Summit 2025 セッションは公開 出所: Databricks - YouTube AI により情報獲得も容易に Google NotebookLM の 音声解説が便利!!
サンフランシスコに行く価値とは セッション会場に存在する謎のマイク マイクの前に立つ勇気 マイク この領域は発表時 Only 質問を通して情報の解像度があがることを体験!! 日本人で質問の時間を埋めよう!!
Databricks における Apache Iceberg 機能
Apache Iceberg サポートを発表 Databricks で Apache Iceberg のサポートが発表されました。Delta Lake と
Iceberg が 分断化されずに、“フォーマットロックインの解消”が可能になります。 引用元: Databricks で Apache Iceberg をフルサポート! | Databricks Blog ① マネージド Iceberg 外部から書き込み可能で 管理も自動で最適化 ②フォーリン Iceberg 外部のカタログの Iceberg テーブルを参照 待望の Apache Iceberg サポート
Databricks でも Apache Iceberg の利点を享受 Databricks 社は Apache Iceberg に対する投資を実施しており、
今回の Apache Iceberg サポートにより Databricks でもその利点を享受できます。 Delta Lake で聞いたことある機能が Apache Iceberg へ Apache Iceberg 界のリーダー格の Tabular社を買収 出所:Databricks + Tabular | Databricks Blog 出所:Apache Iceberg v3 ── エコシステム統合への大躍進 | Databricks Blog
Snowflake が外部 Apache Iceberg への書き込み機能を発表 Snowflake Summit にて、外部の Apache Iceberg
テーブルへの書き込みが可能となる Catalog Linked Databases 機能を発表。Databricks のマネージド Icebergと組み合わせ ることで、 Snowflake との相互運用が可能となる。 Snowflake が Catalog Linked Databases を発表 出所: Summit 2025 Highlights: Building the Future of AI and Apps “カタログリンクデータベース(近日公開予定)を使 用して、あらゆるIcebergテーブルへの安全な読み取 りと書き込みが可能になります。 “ 上記文章の一部の翻訳
OTF サポートによるレイクハウス時代に突入 Databricks と Snowflake 以外でも、オープンテーブルフォーマット(OTF)の機能が リリースされるなど、レイクハウスアーキテクチャの検討が必須となってきました。 どんどん広がるオープンテーブルフォーマット機能 出所:Fivetran Managed
Data Lakes Service Fivetran Confluent 出所:Confluent Tableflow ・・・ Qlik 出所:Qlik Open Lakehouse TROCCO 出所:TROCCO CDC 転送
Apache Iceberg 関連の セッションから 考える今後の方向性
Apache Iceberg の活用事例のセッションを聴講 Databricks での Apache Iceberg での活用関連のセッションを聞きました。 DoorDashさんの Apache
Iceberg による相互運用 セッション名:Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform T-Mobile さんの Databricks と Snowflake の相互運用 セッション名:Breaking Silos: Enabling Databricks-Snowflake Interoperability With Iceberg and Unity Catalog 撮影した写真が微妙であったため 公開された 動画をご確認ください。
Apache Iceberg (OTF)を利用できない場合のアーキテクチャ ◼ Apache Iceberg などの オープンテーブルフォーマット(OTF) を利用できない場合には、 DWH
間でのデータ統合が必要となる。 ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold DWH 間でのデータ統合が必要
Apache Iceberg を利用できる場合のアーキテクチャ Databricks での Apache Iceberg (+Delta Lake) 形式でストレージにデータを保管により、
データ統合が不要となる。 Silver ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold Silver Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold
まず Bronze / Silver からはじめる ◼ 性能を最優先する場合はサービス固有のテーブル形式を採用するのが望ましく、 OTF を導入する際はまず Bronze/Silver
レイヤーから検討を始めることを推奨します。 性能の観点で リスクあり ここの領域から 検討
Databricks 実践
基本的な操作手順は manabian 氏の記事に確認可能 manabian 氏が Databricks -> Snowflake の検証をしたそうなので、実際に試したい方は 記事にて確認してください。参考になったら、いいねを押してあげてください。
Databricks -> Snowflake の マネージド Iceberg テーブルの検証は未完了です。 出所:Databricks におけるマネージド Apache Iceberg 機能を試し てみた #Spark - Qiita Databricks Iceberg -> Snowflake Snowflake Iceberg -> Databricks Coming Soon... ただ、エラーが。。。
おや!? Databricks Iceberg テーブルのようすが。。。 Iceberg テーブルを作成すると _iceberg だけでなく _delta_log ディレクトリも生成され、
DESC HISTORY など Delta Lake のメタデータ操作が可能です。 Apache Iceberg と Delta Lake におけるフォーマット統合の一歩目?? Databricks マネージド Iceberg テーブルのディレクトリ直下
まとめ Silver ML Model 構築 … BI レポート (可視化システム) 生成
AI システム シミュレーション Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold N 複数の DWH がある場合には、Delta Lake と Apache Iceberg をベースにした レイクハウスアーキテクチャの導入を検討しましょう。
ありがとうございました 島村 学 Linkedin: 島村 学