書籍『実践 Apache Iceberg』の歩き方

by Satoru Ishikawa

Embed

Start on current slide

Slide 1

Slide 1 text

書籍『実践 Apache Iceberg』の歩き⽅ 2025年10月29日クラウド事業本部コンサルティング部⽯川覚

Slide 2

Slide 2 text

© 2025 Classmethod, Inc. はじめに 1 名前：石川覚（いしかわさとる）所属：クラウド事業本部担当：コンサルタント、ブログ・登壇等経歴：メーカーでSE、研究開発　　→ITベンチャーで製品開発、受託研究　　→クラスメソッド（2014/6〜）好きなサービス： Amazon Redshift/Athena/Bedrock、 Google BigQuery Sapporo 2020-2025 Japan AWS Top Engineers 2021-2025 Japan AWS All Certifications Engineers  

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

© 2025 Classmethod, Inc. 5 Apache Iceberg とは Apache Icebergとは、データレイク上にあるペタバイト規模の巨大な分析用データセットを管理するために設計された、オープンソースのテーブルフォーマット（OTF）です。 re:Invent 2021でAmazon Athenaがサポートを開始したことでも、広く注目を集めることになりました。 2023年にAmazon Athena（Iceberg）とdbt-athenaのソリューションついて AWSのウェビナーで紹介。

Slide 7

Slide 7 text

© 2025 Classmethod, Inc. 6 なぜ今 Apache Iceberg なのか？従来のデータレイクは、ビッグデータ時代の低コストストレージとして普及しましたが、エンタープライズ利用では深刻な課題ありました。 ● データ整合性の欠如 ○ 複数ジョブの同時実行時、読み込み・書き込みの競合でデータ不整合が発生。トランザクション保証がなく、信頼性の高い分析基盤として機能しない。 ● 少量レコード更新処理の非効率性 ○ GDPRや個人情報修正など少量レコード更新でも、パーティション全体の再書き込みが必要。データ量に比例してコストと時間が増大する。 ● パーティション管理の限界 ○ パーティション数が数千～数万に増加すると、メタデータ管理のオーバーヘッドでクエリ性能が著しく劣化する。 ● クエリ設計の複雑化 ○ 効率的なクエリにはパーティション構造の理解が必須。開発者の負担が大きく、最適化が困難。 ● 過去状態の復元困難 ○ 誤削除やデータ破損時、特定時点への復元が事実上不可能。

Slide 8

Slide 8 text

© 2025 Classmethod, Inc. 7 Apache Icebergによる解決データレイクの課題（ AS-IS） Apache Icebergによる解決（ TO-BE）データ整合性の欠如楽観的同時実行制御（Optimistic Concurrency Control）少量レコード更新処理の非効率性 Row-level の更新・削除操作をサポート（MERGE、UPDATE、 DELETE）パーティション管理の限界 Hidden Partitioning（隠しパーティション）により、パーティションを意識不要クエリ設計の複雑化パーティション変換（Partition Evolution）機能により、ユーザーはパーティション構造を意識せずにクエリ可能過去状態の復元が困難タイムトラベル機能により、任意の時点のスナップショットにアクセス可能 Apache Icebergは、データレイクの課題をACIDトランザクション、隠しパーティション、スキーマ/パーティション進化といった特長で解決します。

Slide 9

Slide 9 text

Slide 10

Slide 10 text

© 2025 Classmethod, Inc. 9 Apache Icebergを体系的に学び、実務に活用したい方向けの専門書です。手を動かしながら学ぶことを重視しており、全体を通じて多くの章にハンズオンがあり、GitHubにリポジトリが公開されています。書籍『実践 Apache Iceberg』 https://dev.classmethod.jp/articles/20251022-review-of-apache-ioceberg-in-practice/ https://dev.classmethod.jp/articles/20251024-handson-of-apache-iceberg-in-practice/ https://github.com/murashitas/iceberg_book_handson

Slide 11

Slide 11 text

© 2025 Classmethod, Inc. 10 3部構成で段階的に理解を深める基礎編（第1部：Apache Icebergの基本）実装編（第2部：分散クエリエンジンでの利⽤）応⽤編（第3部：ユースケースと応⽤）従来のデータレイクが抱えていた課題に対し、Icebergがどのように解決するかを解説しています。メタデータレイヤーとデータレイヤーの構造理解は、その後の機能を深く理解する上で必要な知識となります。 1 2 3 Spark、Flink、Trino、 Hive、PyIcebergという5つの主要なクエリエンジンでの実装⽅法を網羅。各クエリエンジンについて、座学とハンズオンで学べる構成になっています。 Change Data Capture （CDC）によるリアルタイムデータ同期、SCD Type 2による履歴管理、 Write-Audit-Publish（WAP）パターンによるデータ品質管理など、実務で直⾯する課題への具体的なソリューションパターンが⽰されています。

Slide 12

Slide 12 text

© 2025 Classmethod, Inc. 11 Apache Icebergを包括的に解説することを目的としており、自身の課題に応じて、優先的に読むべき章を選択する際の参考にしてください。 ● 即効性を求める場合：自分の課題に最も関連する章から読み始め、必要に応じて基礎編（第1-3章）に戻る ● 体系的に学びたい場合：第1章から順番に読み進め、自分の役割に関連する章は特に丁寧に実践する ● ハンズオン重視の場合：GitHubのサンプルコードがある章を優先的に選び、手を動かしながら学習するこの本を効率よく活用する読み方いずれのアプローチでも、第1章「データレイクの課題とApache Iceberg」と第2章「Apache Icebergの仕組みと機能」は全体の理解の基盤となるため、早い段階で目を通しておくことをお勧めします。

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

© 2025 Classmethod, Inc. 14 1. メダリオンアーキテクチャでの活用 Bronze Gold ‧すべての⽣データを変更せずに取り込む。 ‧ソースデータの完全な履歴（監査証跡）を保持する。 ‧下流の処理（Silver層へのETL）のインプットとする。ソースシステムから取り込んだ⽣データをそのままの形式で保存する層データをクレンジング、正規化、他のデータと結合して、信頼できるデータソース（SSOT）を整備する層 Silver メダリオンアーキテクチャとは、データをBronze（生）、Silver（加工）、 Gold（集計）の3層（レイヤ）で管理するデータアーキテクチャです。ユースケース（BI、機械学習など）に合わせて、Silver層のデータをさらに集計‧加⼯したデータマートを配置する層 ‧データのクレンジング（NULL値の処理、重複排除、データ型の統⼀）。 ‧ビジネスロジックに基づいたデータの正規化と変換。 ‧複数のデータソースの結合とエンリッチメント。 ‧ビジネスKPIや主要メトリクスを事前集計する。 ‧BIツールやアナリストが直接クエリするための、最適化されたデータセットを提供する。 ‧機械学習の特徴量（Feature Store）として利⽤する。

Slide 16

Slide 16 text

© 2025 Classmethod, Inc. 15 1. メダリオンアーキテクチャでの活用レイヤ Icebergの機能応用例 Bronze (生) スキーマ進化 (Schema Evolution) ソースシステム側のスキーマ変更（カラムの追加など）が発生しても、Icebergは ADD COLUMNなどの操作を柔軟に受け入れられる。パーティショニング (hidden partitioning) 取り込み日（例: event_date）などパーティショニング（hidden partitioning）することで、Silver層への増分処理の効率化 Silver (加工) ACIDトランザクション Bronze層から増分データをSilver層のテーブルにマージ（UPSERT: Update + Insert）する際に、MERGE INTO構文を使ってアトミックに処理パーティショニング (Partition Evolution) データの物理的なレイアウトをSQLから隠蔽できます。後からパーティション戦略を変更（Partition Evolution）することも容易になります。 Gold (集計) パフォーマンス最適化 (Compaction & Sorting) BIツールから頻繁にクエリされる。メンテナンス機能（ REWRITE DATA FILES）は、小さなファイルのマージ（ Compaction）や特定のカラムでデータをソート（ sort order）することで、クエリパフォーマンスを大幅に向上させる Time Travel (Snapshot) 「先週末時点のレポート」や「前日比」などの過去のSnapshot（特定の時点の集計結果）を簡単に参照メダリオンアーキテクチャ各レイヤにおけるIcebergの活用事例です。

Slide 17

Slide 17 text

© 2025 Classmethod, Inc. 16 2. 更新戦略 CoWとMoR の使い分け特性 CoW（Copy-on-Write） MoR（Merge-on-Read）優先度読み取り効率を最大化書き込み速度を優先メカニズム変更行を含むデータファイル全体を再作成変更差分を削除ファイルとして記録し、読み取り時にマージ書き込みコスト高い（ファイル全体を書き換え）低い（差分のみ書き込み）読み込みコスト低い（特になし）高い（読込時に更新データを反映する必要がある）用途例行レベルの変更が少ない読み取り中心のBI 分析頻繁な少量更新やストリーミング処理 OPTIMIZE実行時間高速 Position Deleteは普通、Equality Deleteは低速取り込み頻度に応じて書き込みモードを選択できます。リアルタイム取り込みならMoR（Merge-on-Read）、バッチならCoW（Copy-on-Write）が適切です。 ※ Apache Icebergは、一般的にデフォルト CoWですが、Amazon Athena の更新系クエリのデフォルトは MoRです。

Slide 18

Slide 18 text

© 2025 Classmethod, Inc. 17 3. 隠しパーティション設定の注意点と対策隠しパーティショニング（Hidden Partitioning）とは、元のデータ列（例：タイムスタンプ）の値に基づいて、Icebergが自動的にパーティション値を生成・管理する仕組みです。 ● 従来（Hiveテーブル） ○ order_date=2023-10-29 のような物理的なパーティション列（と物理フォルダ）をユーザーが作成・管理し、クエリでも WHERE order_date > '2023-10-28’ と指定する必要がある。 ● Icebergテーブル ○ CREATE TABLE ... PARTITION BY day(order_timestamp) のように定義すると、データ追加時、Icebergは order_timestamp 列の値から自動で日単位のパーティションに振り分ける。クエリは WHERE order_timestamp > '2023-10-28 00:00:00' と元の列を指定するだけで、 Icebergが自動で不要なパーティションを読み飛ばす。 CREATE EXTERNAL TABLE hivetable.sales(… order_timestamp timestamp) PARTITIONED BY (order_date date)… CREATE TABLE iceberg.sales(… order_timestamp timestamp) PARTITIONED BY (day(order_timestamp))… sales/ data/ 13VN2A/ order_timestamp_day=2023-10-28/ 20251028_203253_00087_zsnwu-a3….parquet sales/ order_date=2023-10-28/ salse_20231028000000.parquet

Slide 19

Slide 19 text

© 2025 Classmethod, Inc. 18 変換関数をデータ列に適用してパーティションを定義、パーティション用のカラムをデータスキーマに追加する手間が不要となる。 3. 隠しパーティション設定の注意点と対策関数説明サポートしている型 year(ts) 日付またはタイムスタンプから「年」を抽出します。 date, timestamp month(ts) 日付またはタイムスタンプから「月」を抽出します。（例: 2025-10-29 → 2025-10） date, timestamp day(ts) 日付またはタイムスタンプから「日」を抽出します。（例: 2025-10-29 06:00 → 2025-10-29） date, timestamp hour(ts) タイムスタンプから「時」を抽出します。（例: 2025-10-29 06:01 → 2025-10-29-06） timestamp bucket(N, col) 値をハッシュ化し、N個のバケット（グループ）に均等に分散させます。カーディナリティが高い列（例: UUID, ユーザーID）に適しています。 Amazon Athenaの場合は、Nに100以内を指定して同時更新パーティション数を超えない運用が可能。 int, long, decimal, date, timestamp, string, binary truncate(L, col) 値を指定した幅（L）で切り捨てます。・文字列: 最初のL文字で切り捨てます。（例: truncate(3, 'Iceberg') → Ice）・整数: Lの倍数に切り捨てます。（例: truncate(10, 123) → 120） int, long, decimal, string

Slide 20

Slide 20 text

© 2025 Classmethod, Inc. 19 3. 隠しパーティション設定の注意点と対策失敗事例/課題具体的な問題と影響対策/ベストプラクティスパーティション粒度が細かすぎるデバイスIDなど高カーディナリティの列にそのままパーティショニングを適用すると、パーティション数が爆発的に増加、大量の小さなデータファイル(スモールファイル)が生成される。高カーディナリティの列には、 Bucket関数 (bucket(N, col)) を使用してパーティション数を固定数に制限し、均等分散させる。 OPTIMIZEによるストレージ爆発上記の理由で発生した大量のスモールファイルを解消するためにOPTIMIZE TABLE REWRITE DATA（コンパクション）を実行すると、古いファイルが即座に削除されず、新しいファイルと一時的に重複して存在するため、ストレージ使用量が爆発的に増加する。コンパクション後、必ず expire_snapshots（スナップショット削除）を実行し、不要な古いファイルを物理的に削除する。 Icebergを大規模データ分析基盤に導入する際、不適切な隠しパーティション設定とコンパクション運用(OPTIMIZE)の組み合わせは、クエリパフォーマンスの低下やストレージコストの爆発的な増加を招く可能性がある。

Slide 21

Slide 21 text

© 2025 Classmethod, Inc. 20 最後に ● Apache Icebergは、従来のデータレイクの課題（データ不整合、非効率な更新、複雑なパーティション管理）を解決する強力なテーブルフォーマットである。 ● 『実践 Apache Iceberg』は、基礎から各クエリエンジン（Spark, Trino等）での実装・応用までを体系的に学べる良書であり、ハンズオンも充実している。 ● 本日紹介できなかったが、ストリーミングインジェッションのテーブルの OPTIMIZE、効果的なソートオーダー、Equality Deleteなどの検討課題の解決には、本書は不可欠な一冊。

Slide 22

Slide 22 text

© 2025 Classmethod, Inc. 21 最後に ● Apache Icebergは、従来のデータレイクの課題（データ不整合、非効率な更新、複雑なパーティション管理）を解決する強力なテーブルフォーマットである。 ● 『実践 Apache Iceberg』は、基礎から各クエリエンジン（Spark, Trino等）での実装・応用までを体系的に学べる良書であり、ハンズオンも充実している。 ● 本日紹介できなかったが、ストリーミングインジェッションのテーブルの OPTIMIZE、効果的なソートオーダー、Equality Deleteなどの検討課題の解決には、本書が不可欠。 DECEMBER 1 – 5, 2025 | LAS VEGAS, NV Blog it!

Slide 23

Slide 23 text

No content