Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks における Apache Iceberg の活用ポイント
Search
島村学
July 09, 2025
0
380
Databricks における Apache Iceberg の活用ポイント
Cross Data Platforms Meetup #1.5 の発表資料です。
島村学
July 09, 2025
Tweet
Share
More Decks by 島村学
See All by 島村学
Databricks で Iceberg を試してみた
shimamura
0
540
Lakehouse×生成AI Databricksで体験する次世代データ分析ハンズオン 短縮版
shimamura
0
26
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.6k
<Decoding/> the Language of Devs - We Love SEO 2024
nikkihalliwell
1
130
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
Deep Space Network (abreviated)
tonyrice
0
64
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
240
How to Talk to Developers About Accessibility
jct
2
140
Un-Boring Meetings
codingconduct
0
200
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
920
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
1
100
Transcript
Cross Data Platforms Meetup #1.5 Databricks における Apache Iceberg の
活用ポイント 株式会社ジール 島村 学
◼ Data + AI Summit 2025(DAIS) にて学んだ Databricksでの Apache Icebergの活用方法
を共有します。DAIS のセッションでは Databricks と Snowflake の相互運用について語 られていました。レイクハウス導入を検討すべき状況となってきています。 はじめに
自己紹介 (1/2) 島村 学 株式会社ジールにて データ分析基盤・アプリの設計・構築 出所:ジールHP 出所:DMBOK 2nd Figure
82 Conceptual DW/BI and Big Data Architecture 主な対象領域
自己紹介 (2/2) Databricks CHAMPION 出所:一般社団法人 データマネジメント協会 日本支部(DAMA Japan) DAMA日本支部 理事
私の DAIS
はじめての海外カンファレンス はじめてのサンフランシスコ はじめての DAIS
セッション会場にあるマイクを通して情報獲得 セッション会場に存在する謎のマイク マイクの前に立つ勇気 マイク この領域は発表時 Only 質問を通して情報の解像度があがることを体験!! 日本人で質問の時間を埋めよう!!
<余談>個人的にびっくりした発表 引用元: Databricks Free Edition のご紹介 | Databricks Blog Databricksの多くの機能を無料で利用できるFree
Editionが発表されました。 コミュニティや個人での学習をさらに促進できます
Databricks における Apache Iceberg 機能
Apache Iceberg サポートを発表 Databricks で Apache Iceberg のサポートが発表されました。Delta Lake と
Iceberg が 分断化されずに、“フォーマットロックインの解消”が可能になります。 引用元: Databricks で Apache Iceberg をフルサポート! | Databricks Blog ① マネージド Iceberg 外部から書き込み可能で 管理も自動で最適化 ②フォーリン Iceberg 外部のカタログの Iceberg テーブルを参照 待望の Apache Iceberg サポート
Databricks でも Apache Iceberg の利点を享受 Databricks 社は Apache Iceberg に対する投資を実施しており、
今回の Apache Iceberg サポートにより Databricks でもその利点を享受できます。 Delta Lake で聞いたことある機能が Apache Iceberg へ Apache Iceberg 界のリーダー格の Tabular社を買収 出所:Databricks + Tabular | Databricks Blog 出所:Apache Iceberg v3 ── エコシステム統合への大躍進 | Databricks Blog
Snowflake が外部 Apache Iceberg への書き込み機能を発表 Snowflake Summit にて、外部の Apache Iceberg
テーブルへの書き込みが可能となる Catalog Linked Databases 機能を発表。Databricks のマネージド Icebergと組み合わせ ることで、 Snowflake との相互運用が可能となる。 Snowflake が Catalog Linked Databases を発表 出所: Summit 2025 Highlights: Building the Future of AI and Apps “カタログリンクデータベース(近日公開予定)を使 用して、あらゆるIcebergテーブルへの安全な読み取 りと書き込みが可能になります。 “ 上記文章の一部の翻訳
Apache Iceberg 関連の セッションから 考える今後の方向性
Apache Iceberg の活用事例のセッションを聴講 Databricks での Apache Iceberg での活用関連のセッションを聞きました。 DoorDashさんの Apache
Iceberg による相互運用 セッション名:Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform T-Mobile さんの Databricks と Snowflake の相互運用 セッション名:Breaking Silos: Enabling Databricks-Snowflake Interoperability With Iceberg and Unity Catalog 撮影した写真が微妙であったため 公開されるであろう 動画をご確認ください。
Apache Iceberg (OTF)を利用できない場合のアーキテクチャ ◼ Apache Iceberg などの オープンテーブルフォーマット(OTF) を利用できない場合には、 DWH
間でのデータ統合が必要となる。 ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold DWH 間でのデータ統合が必要
Apache Iceberg を利用できる場合のアーキテクチャ Databricks での Apache Iceberg (+Delta Lake) 形式でストレージにデータを保管により、
データ統合が不要となる。 Silver ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold Silver Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold
まず Bronze / Silver からはじめる ◼ 性能を最優先する場合はサービス固有のテーブル形式を採用するのが望ましく、 OTF を導入する際はまず Bronze/Silver
レイヤーから検討を始めることを推奨します。 性能の観点で リスクあり ここの領域から 検討
Lakehouse の足音が きこえる
OTF サポートによるレイクハウス時代に突入 Databricks と Snowflake 以外でも、オープンテーブルフォーマット(OTF)の機能が リリースされるなど、レイクハウスアーキテクチャの検討が必須となってきました。 どんどん広がるオープンテーブルフォーマット機能 出所:Fivetran Managed
Data Lakes Service Fivetran Confluent 出所:Confluent Tableflow ・・・ Qlik 出所:Qlik Open Lakehouse TROCCO 出所:TROCCO CDC 転送
レイクハウスアーキテクチャの導入検討は必須 Delta Lake と Apache Iceberg をベースにしたレイクハウスアーキテクチャを データ分析基盤に導入するかの検討を実施すべきである。 Silver ML
Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold N
ありがとうございました 島村 学 Linkedin: 島村 学