Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Databricks における Apache Iceberg の活用ポイント
Search
島村学
July 09, 2025
0
240
Databricks における Apache Iceberg の活用ポイント
Cross Data Platforms Meetup #1.5 の発表資料です。
島村学
July 09, 2025
Tweet
Share
More Decks by 島村学
See All by 島村学
Databricks で Iceberg を試してみた
shimamura
0
370
Lakehouse×生成AI Databricksで体験する次世代データ分析ハンズオン 短縮版
shimamura
0
11
Featured
See All Featured
Become a Pro
speakerdeck
PRO
29
5.5k
Speed Design
sergeychernyshev
32
1.1k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
60k
Code Reviewing Like a Champion
maltzj
525
40k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.4k
Code Review Best Practice
trishagee
69
19k
GraphQLとの向き合い方2022年版
quramy
49
14k
Mobile First: as difficult as doing things right
swwweet
223
9.9k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.4k
Transcript
Cross Data Platforms Meetup #1.5 Databricks における Apache Iceberg の
活用ポイント 株式会社ジール 島村 学
◼ Data + AI Summit 2025(DAIS) にて学んだ Databricksでの Apache Icebergの活用方法
を共有します。DAIS のセッションでは Databricks と Snowflake の相互運用について語 られていました。レイクハウス導入を検討すべき状況となってきています。 はじめに
自己紹介 (1/2) 島村 学 株式会社ジールにて データ分析基盤・アプリの設計・構築 出所:ジールHP 出所:DMBOK 2nd Figure
82 Conceptual DW/BI and Big Data Architecture 主な対象領域
自己紹介 (2/2) Databricks CHAMPION 出所:一般社団法人 データマネジメント協会 日本支部(DAMA Japan) DAMA日本支部 理事
私の DAIS
はじめての海外カンファレンス はじめてのサンフランシスコ はじめての DAIS
セッション会場にあるマイクを通して情報獲得 セッション会場に存在する謎のマイク マイクの前に立つ勇気 マイク この領域は発表時 Only 質問を通して情報の解像度があがることを体験!! 日本人で質問の時間を埋めよう!!
<余談>個人的にびっくりした発表 引用元: Databricks Free Edition のご紹介 | Databricks Blog Databricksの多くの機能を無料で利用できるFree
Editionが発表されました。 コミュニティや個人での学習をさらに促進できます
Databricks における Apache Iceberg 機能
Apache Iceberg サポートを発表 Databricks で Apache Iceberg のサポートが発表されました。Delta Lake と
Iceberg が 分断化されずに、“フォーマットロックインの解消”が可能になります。 引用元: Databricks で Apache Iceberg をフルサポート! | Databricks Blog ① マネージド Iceberg 外部から書き込み可能で 管理も自動で最適化 ②フォーリン Iceberg 外部のカタログの Iceberg テーブルを参照 待望の Apache Iceberg サポート
Databricks でも Apache Iceberg の利点を享受 Databricks 社は Apache Iceberg に対する投資を実施しており、
今回の Apache Iceberg サポートにより Databricks でもその利点を享受できます。 Delta Lake で聞いたことある機能が Apache Iceberg へ Apache Iceberg 界のリーダー格の Tabular社を買収 出所:Databricks + Tabular | Databricks Blog 出所:Apache Iceberg v3 ── エコシステム統合への大躍進 | Databricks Blog
Snowflake が外部 Apache Iceberg への書き込み機能を発表 Snowflake Summit にて、外部の Apache Iceberg
テーブルへの書き込みが可能となる Catalog Linked Databases 機能を発表。Databricks のマネージド Icebergと組み合わせ ることで、 Snowflake との相互運用が可能となる。 Snowflake が Catalog Linked Databases を発表 出所: Summit 2025 Highlights: Building the Future of AI and Apps “カタログリンクデータベース(近日公開予定)を使 用して、あらゆるIcebergテーブルへの安全な読み取 りと書き込みが可能になります。 “ 上記文章の一部の翻訳
Apache Iceberg 関連の セッションから 考える今後の方向性
Apache Iceberg の活用事例のセッションを聴講 Databricks での Apache Iceberg での活用関連のセッションを聞きました。 DoorDashさんの Apache
Iceberg による相互運用 セッション名:Iceberg Table Format Adoption and Unified Metadata Catalog Implementation in Lakehouse Platform T-Mobile さんの Databricks と Snowflake の相互運用 セッション名:Breaking Silos: Enabling Databricks-Snowflake Interoperability With Iceberg and Unity Catalog 撮影した写真が微妙であったため 公開されるであろう 動画をご確認ください。
Apache Iceberg (OTF)を利用できない場合のアーキテクチャ ◼ Apache Iceberg などの オープンテーブルフォーマット(OTF) を利用できない場合には、 DWH
間でのデータ統合が必要となる。 ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold DWH 間でのデータ統合が必要
Apache Iceberg を利用できる場合のアーキテクチャ Databricks での Apache Iceberg (+Delta Lake) 形式でストレージにデータを保管により、
データ統合が不要となる。 Silver ML Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold Silver Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold
まず Bronze / Silver からはじめる ◼ 性能を最優先する場合はサービス固有のテーブル形式を採用するのが望ましく、 OTF を導入する際はまず Bronze/Silver
レイヤーから検討を始めることを推奨します。 性能の観点で リスクあり ここの領域から 検討
Lakehouse の足音が きこえる
OTF サポートによるレイクハウス時代に突入 Databricks と Snowflake 以外でも、オープンテーブルフォーマット(OTF)の機能が リリースされるなど、レイクハウスアーキテクチャの検討が必須となってきました。 どんどん広がるオープンテーブルフォーマット機能 出所:Fivetran Managed
Data Lakes Service Fivetran Confluent 出所:Confluent Tableflow ・・・ Qlik 出所:Qlik Open Lakehouse TROCCO 出所:TROCCO CDC 転送
レイクハウスアーキテクチャの導入検討は必須 Delta Lake と Apache Iceberg をベースにしたレイクハウスアーキテクチャを データ分析基盤に導入するかの検討を実施すべきである。 Silver ML
Model 構築 … BI レポート (可視化システム) 生成 AI システム シミュレーション Bronze Gold 業務 システム MDM クラウド ストレージ データ仮想化 サービス … Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold Silver Bronze Gold N
ありがとうございました 島村 学 Linkedin: 島村 学