Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks における Apache Iceberg の活用ポイント
Search
島村学
July 09, 2025
0
210
Databricks における Apache Iceberg の活用ポイント
Cross Data Platforms Meetup #1.5 の発表資料です。
島村学
July 09, 2025
Tweet
Share
More Decks by 島村学
See All by 島村学
Lakehouse×生成AI Databricksで体験する次世代データ分析ハンズオン 短縮版
shimamura
0
8
Featured
See All Featured
Visualization
eitanlees
146
16k
Facilitating Awesome Meetings
lara
54
6.5k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.2k
Code Reviewing Like a Champion
maltzj
524
40k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.6k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
370
How to train your dragon (web standard)
notwaldorf
96
6.1k
How STYLIGHT went responsive
nonsquared
100
5.6k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
520
4 Signs Your Business is Dying
shpigford
184
22k
Transcript
Cross Data Platforms Meetup #1.5 Databricks における Apache Iceberg の
活用ポイント 株式会社ジール 島村 学
◼ Data + AI Summit 2025(DAIS) にて学んだ Databricksでの Apache Icebergの活用方法
を共有します。DAIS のセッションでは Databricks と Snowflake の相互運用について語 られていました。レイクハウス導入を検討すべき状況となってきています。 はじめに
自己紹介 (1/2) 島村 学 株式会社ジールにて データ分析基盤・アプリの設計・構築 出所:ジールHP 出所:DMBOK 2nd Figure
82 Conceptual DW/BI and Big Data Architecture 主な対象領域
自己紹介 (2/2) Databricks CHAMPION 出所:一般社団法人 データマネジメント協会 日本支部(DAMA Japan) DAMA日本支部 理事
私の DAIS
はじめての海外カンファレンス はじめてのサンフランシスコ はじめての DAIS
セッション会場にあるマイクを通して情報獲得 セッション会場に存在する謎のマイク マイクの前に立つ勇気 マイク この領域は発表時 Only 質問を通して情報の解像度があがることを体験!! 日本人で質問の時間を埋めよう!!
<余談>個人的にびっくりした発表 引用元: Databricks Free Edition のご紹介 | Databricks Blog Databricksの多くの機能を無料で利用できるFree
Editionが発表されました。 コミュニティや個人での学習をさらに促進できます
Databricks における Apache Iceberg 機能
Apache Iceberg サポートを発表 Databricks で Apache Iceberg のサポートが発表されました。Delta Lake と
Iceberg が 分断化されずに、“フォーマットロックインの解消”が可能になります。 引用元: Databricks で Apache Iceberg をフルサポート! | Databricks Blog ① マネージド Iceberg 外部から書き込み可能で 管理も自動で最適化 ②フォーリン Iceberg 外部のカタログの Iceberg テーブルを参照 待望の Apache Iceberg サポート
Databricks でも Apache Iceberg の利点を享受 Databricks 社は Apache Iceberg に対する投資を実施しており、
今回の Apache Iceberg サポートにより Databricks でもその利点を享受できます。 Delta Lake で聞いたことある機能が Apache Iceberg へ Apache Iceberg 界のリーダー格の Tabular社を買収 出所:Databricks + Tabular | Databricks Blog 出所:Apache Iceberg v3 ── エコシステム統合への大躍進 | Databricks Blog
Snowflake が外部 Apache Iceberg への書き込み機能を発表 Snowflake Summit にて、外部の Apache Iceberg
テーブルへの書き込みが可能となる Catalog Linked Databases 機能を発表。Databricks のマネージド Icebergと組み合わせ ることで、 Snowflake との相互運用が可能となる。 Snowflake が Catalog Linked Databases を発表 出所: Summit 2025 Highlights: Building the Future of AI and Apps “カタログリンクデータベース(近日公開予定)を使 用して、あらゆるIcebergテーブルへの安全な読み取 りと書き込みが可能になります。 “ 上記文章の一部の翻訳
Apache Iceberg 関連の セッションから 考える今後の方向性
Apache Iceberg の活用事例のセッションを聴講 Databricks での Apache Iceberg での活用関連のセッションを聞きました。 DoorDashさんの Apache
Iceberg による相互運用 セッション名:Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform T-Mobile さんの Databricks と Snowflake の相互運用 セッション名:Breaking Silos: Enabling Databricks-Snowflake Interoperability With Iceberg and Unity Catalog 撮影した写真が微妙であったため 公開されるであろう 動画をご確認ください。
Apache Iceberg (OTF)を利用できない場合のアーキテクチャ ◼ Apache Iceberg などの オープンテーブルフォーマット(OTF) を利用できない場合には、 DWH
間でのデータ統合が必要となる。 ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold DWH 間でのデータ統合が必要
Apache Iceberg を利用できる場合のアーキテクチャ Databricks での Apache Iceberg (+Delta Lake) 形式でストレージにデータを保管により、
データ統合が不要となる。 Silver ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold Silver Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold
まず Bronze / Silver からはじめる ◼ 性能を最優先する場合はサービス固有のテーブル形式を採用するのが望ましく、 OTF を導入する際はまず Bronze/Silver
レイヤーから検討を始めることを推奨します。 性能の観点で リスクあり ここの領域から 検討
Lakehouse の足音が きこえる
OTF サポートによるレイクハウス時代に突入 Databricks と Snowflake 以外でも、オープンテーブルフォーマット(OTF)の機能が リリースされるなど、レイクハウスアーキテクチャの検討が必須となってきました。 どんどん広がるオープンテーブルフォーマット機能 出所:Fivetran Managed
Data Lakes Service Fivetran Confluent 出所:Confluent Tableflow ・・・ Qlik 出所:Qlik Open Lakehouse TROCCO 出所:TROCCO CDC 転送
レイクハウスアーキテクチャの導入検討は必須 Delta Lake と Apache Iceberg をベースにしたレイクハウスアーキテクチャを データ分析基盤に導入するかの検討を実施すべきである。 Silver ML
Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold N
ありがとうございました 島村 学 Linkedin: 島村 学