Data & AIの未来とLakeHouse

Data & AIの未来とLakeHouse 2025年11月07日クラウド事業本部コンサルティング部石川覚

© 2025 Classmethod, Inc. はじめに 1 名前：石川覚（いしかわさとる）所属：クラウド事業本部
担当：コンサルタント、ブログ・登壇等経歴：メーカーでSE、研究開発 →ITベンチャーで製品開発、受託研究 →クラスメソッド（2014/6〜）好きなサービス： Amazon Redshift/Athena/Bedrock、 Google BigQuery Sapporo 2020-2025 Japan AWS Top Engineers 2021-2025 Japan AWS All Certifications Engineers

© 2025 Classmethod, Inc. ブログ: データアナリティクス通信 2 弊社のブログにて、2022年からクラスメソッドデータアナリティクス通信(AWSデータ分析編)を連載中です！
グラフィカルユーザーインターフェイス , Web サイト自動的に生成された説明 https://dev.classmethod.jp/referencecat/classmethod-da-news-aws-analytics/

© 2025 Classmethod, Inc. アジェンダ 3 • はじめに • LakeHouse
Architecture • LakeHouseを支える技術 • LakeHouseとAIの未来 • AWSによるLakeHouse • 最後に

© 2025 Classmethod, Inc. はじめに 4 • データ＆AI分野で標準となる「LakeHouse」アーキテクチャを紹介します。これはDataLakeの柔軟性とDWHの信頼性を単一基盤に統合し、BIやAI、ストリーミング等の多様なワークロードを統一的に扱うものです
。その技術的根幹にはApache Iceberg等のオープンフォーマットが存在します。 • LakeHouseがAI時代のデータ戦略の中核であり、オープン性を重視したプラットフォーム選定が不可欠です。

© 2025 Classmethod, Inc. 6 従来のデータ分析基盤には、大きく分けて「DatawareHouse（DWH）」と「DataLake」という2つのアプローチがあり、それぞれに特性がある。なぜ今、LakeHouseなのか？比較項目 DatawareHouse
(DWH) DataLake (Data Lake) 主な用途 BI、ビジネスレポート、定型分析 AI、機械学習、データ探索扱うデータ構造化データ (2次元の表データ) あらゆるデータ (構造化、非構造化) データ形式独自のストレージ形式オープンなファイル形式 (Parquet, CSV, JSON, 画像) スキーマスキーマ・オン・ライト (書き込み時に厳格に検証) スキーマ・オン・リード (読み込み時に柔軟に解釈) 長所高速な集計、高い信頼性、ガバナンス低コスト、高い柔軟性、拡張性短所高コスト、柔軟性の欠如、AI/MLに不向き品質の担保が困難、ガバナンス欠如

© 2025 Classmethod, Inc. 7 従来のアーキテクチャとその課題データのサイロ化 • BI用のデータ（DWH）とAI用のデータ（Data Lake）の分断
高コスト・複雑性 • DWHとDataLakeという2つの異なる基盤の維持管理が必要 • それぞれの専門知識が必要で、運用コストが増大データの二重管理と鮮度の低下 • 同じ元データ（例：売上データ）を、DWH用とDataLake用に別々に管理する必要がある • データの鮮度が落ちたり、「正しい」データかどちらか分からなくなる問題も発生 Dataware HouseとDataLakeにおいて分断と二重管理が発生。

© 2025 Classmethod, Inc. 8 LakeHouseは、DataLakeの安価なストレージの上に、DWHのような信頼性や管理機能（トランザクション、ガバナンス）を提供する。 LakeHouseとはデータの信頼性（ACIDトランザクション） Apache
Iceberg などのOTF（Open Table Format）により、データレイク上でACIDトランザクションが可能になる単一のデータソース（サイロ化の解消）単一のデータソースに対して、BIクエリ（SQL）とAI/ML（Python など）の両方のワークロードを実行できるオープンな標準フォーマットの採用 Apache Parquet など、オープンで標準化されたデータ形式採用、複数のDWH間でライブデータを共有できるデータガバナンス細かいアクセス制御、データの削除・更新が可能（GDPRコンプライアンス対応）

© 2025 Classmethod, Inc. 9 LakeHouseは、Delta Architecture と同義。AWSの「SageMaker LakeHouse」、Snowflakeの「UniLake」、
BigQueryの「BigLake」も概ね同じ。 • OTF（Open Table Format）である Iceberg という単一の信頼できるストレージ（テーブル）を用意 • OTFは、リアルタイムのストリーミング書き込みと、大規模なバッチ処理の読み書きを同時に、安全に（ACIDトランザクションで）行うことができる • クエリエンジンは、ストリーム用とバッチ用でどちらでも構いません（例: Spark Structured StreamingとSpark Batch SQL）。 • スピードレイヤ（リアルタイム）とバッチレイヤ（一括処理）ともに、データの保存場所が同じで一貫性が保たれる Lambda Architecture から Delta Architecture へ

© 2025 Classmethod, Inc. 10 データ形式、スキーマ、主要ユーザー、信頼性などの観点で比較。 DatawareHouse vs DataLake vs
LakeHouse 機能比較特徴 DatawareHouse (DWH) DataLake LakeHouse データ形式構造化データ全てのデータ形式全てのデータ形式スキーマスキーマ・オン・ライト（書き込み時）スキーマ・オン・リード（読み取り時）両方をサポート主要ユーザービジネスアナリストデータサイエンティスト全てのユーザー主要ワークロード BI、レポーティング ML、データ探索 BI、AI、ストリーミングなど全てデータアクセス CRUD（作成・読取・更新・削除）が可能読み取り・追記が中心（更新・削除が困難） CRUD（作成・読取・更新・削除）が可能パフォーマンス高いクエリ性能変動高い性能信頼性高い（ACID準拠）低い（非準拠）高い（ACID準拠）

© 2025 Classmethod, Inc. 12 Apache Iceberg とは Apache Icebergとは、DataLake上にあるペタバイト規模の巨大な分析用デ
ータセットを管理するために設計された、オープンソースのテーブルフォーマット（OTF）です。 re:Invent 2021でAmazon Athenaがサポートを開始したことでも、広く注目を集めることになりました。 2023年にAmazon Athena（Iceberg）とdbt-athena のソリューションついてAWSのウェビナーで紹介。先週（10/29）、目黒のStartup Loftでウェビナーに登壇、Apache Icebergに関して紹介。 https://dev.classmethod.jp/articles/20211207-amazon-athena-iceberg-preview/ https://dev.classmethod.jp/articles/20230727-amazon-athena-iceberg-x-dbt-cyopiri-dd/ https://dev.classmethod.jp/articles/20251029-apache-iceberg-in-practice/

© 2025 Classmethod, Inc. Apache Iceberg 13 • 2017年 Netflixで誕生
◦ Netflixで巨大なデータセット（ペタバイト規模）を効率的に管理・分析するために開発。 • 2018年 Apache Incubator入り ◦ オープンソースプロジェクトとして公開し、 Apache Software Foundationに寄贈。 • 2020年トップレベルプロジェクトへ昇格 ◦ Apache Incubatorを卒業し、ASFのトップレベルプロジェクト（TLP）に昇格 • 2021年 Amazon Athenaがサポート ◦ re:Invent 2021でAmazon Athenaがサポートを開始したことで広く注目を集める • 現在最も注目のOTFに ◦ 急速に採用が拡大し、AWS、Google Cloud、 Snowflake、Databricksなど多くのデータプラットフォームやクエリエンジンがサポート。 Apache Icebergとは、DataLake上にあるペタバイト規模の巨大な分析用データセットを管理するために設計された、オープンソースのテーブルフォーマット（OTF）です。

© 2025 Classmethod, Inc. 14 技術課題を解決 DataLakeの課題 Apache Icebergによる解決データ整合性の欠如
楽観的同時実行制御（Optimistic Concurrency Control）少量レコード更新処理の非効率性 Row-level の更新・削除操作をサポート（MERGE、UPDATE、 DELETE）パーティション管理の限界 Hidden Partitioning（隠しパーティション）により、パーティションを意識不要クエリ設計の複雑化パーティション変換（Partition Evolution）機能により、ユーザーはパーティション構造を意識せずにクエリ可能過去状態の復元が困難タイムトラベル機能により、任意の時点のスナップショットにアクセス可能 Apache Icebergは、DataLakeの課題をACIDトランザクション、隠しパーティション、スキーマ/パーティション進化といった特長で解決する。

© 2025 Classmethod, Inc. 15 Icebergカタログデータベースとテーブルの論理的な集合体を管理。各テーブルの最新のメタデータファイルの場所を保持、アトミックに更新してトランザクションの整合性を保証。メタデータレイヤー
テーブルの状態を管理するレイヤで、テーブルスキーマ、スナップショット履歴、パーティション情報、及びデータファイルの統計情報などを格納する。クエリ実行時のファイルフィルタリングを効率化する。データレイヤーテーブルを構成する実際のレコード情報が格納されたデータファイル（Parquet、ORC、Avroなど）及び削除ファイル（MoRモードの場合）が配置されるストレージ上の場所。Icebergカタログを経由したメタデータによって管理される。 Icebergテーブルのアーキテクチャ補足: Apache Iceberg - Table Spec

© 2025 Classmethod, Inc. 16 クエリエンジン（データの処理・分析）クエリエンジンは、Icebergテーブルに対して読み書きや分析を実行するクライアント。Iceberg自体はクエリを実行するエンジン機能を持たない。 Icebergカタログサービス（メタデータの管理）
Icebergカタログは、Icebergテーブルにアクセスする際のエントリーポイントとして機能する。データストレージ（データの保存）データストレージは、Icebergテーブルを構成する物理的なファイルを格納する場所。Icebergのアーキテクチャでは、データストレージはIcebergカタログと疎結合。 Icebergにおける主要コンポーネントの関係

© 2025 Classmethod, Inc. 17 テーブルフォーマットで管理されたデータを実際に読み書きし、SQLでの分析、データ変換（ETL）、AI/MLの学習処理などを実行するエンジンです。クエリエンジン（データの処理・分析） Apache Spark
大規模データ分散処理のデファクトスタンダードで、特に Icebergの機能を最もサポートしている。バッチ処理、ストリーミング、AI（MLlib）まで幅広く対応できる。 Trino 軽量・高速な分散SQLクエリエンジンで、Icebergとの相性が良い。BIツールからの高速な分析に向いている。 Apache Flink リアルタイムストリーム処理を扱えるオープンソースの分散処理フレームワーク。低レイテンシでの継続的なデータ処理、状態管理、イベント時刻処理などが特徴。 PyIceberg Apache Icebergテーブルフォーマットを操作するためのPythonライブラリ。主要なDWHサービス Google BigQuery、Amazon Redshift 、 SnowflakeといったクラウドDWHも、 Icebergなどのオープンフォーマットを外部テーブルとして直接参照する機能があり、 SnowflakeのUniLake、BigQueryの BigLakeなどを強化しており、LakeHouse アーキテクチャの一部として機能する。

© 2025 Classmethod, Inc. 18 「どのテーブルが、ストレージのどこに、どのようなスキーマ（列定義）で存在するか」というメタデータを一元管理するサービス。 Icebergカタログサービス (メタデータの管理) Hive
Metastore Hadoop/Sparkエコシステムで伝統的に使われてきたメタデータ管理の標準的なリポジトリ。 Apache Polaris Snowflakeが発表したオープンソースのカタログサービス。分散型・マルチエンジン環境において、 Icebergテーブルのスキーマ、データ格納場所、所有者情報といったメタデータを一元管理する中央ハブとして機能する。RESTful APIを提供し、データパイプラインへの統合が容易で、セキュリティやガバナンス機能も備える。 AWS Glue Data Catalog AWSが提供するフルマネージドのカタログサービス。 Hive Metastoreと互換性があり、AWS上での LakeHouse構築で広く使われている。 AWS Glue Iceberg REST Catalog re:Invent 2024で発表されたカタログ実装で、Apache Icebergのオープンスタンダードな「RESTカタログ仕様」に対応させる機能。Spark、Trino、Flinkなど Iceberg REST APIをサポートする様々なエンジンが、 AWS GlueをIcebergテーブルの中央メタデータストアとして直接利用可能になり、相互運用性が向上する。

© 2025 Classmethod, Inc. 19 データを物理的に保存する場所です。LakeHouseは、安価で拡張性の高いクラウドのオブジェクトストレージを前提とする。データストレージ（データの保存と管理）オブジェクトストレージ •
Amazon S3 • Google Cloud Storage (GCS) • Azure Data Lake Storage (ADLS) Gen2 ストレージファイルフォーマット • Apache Parquet LakeHouseの事実上の標準ファイル形式です。データを列指向（列ごと）にまとめて圧縮・保存するため、分析クエリ（特定の列だけを集計する）のパフォーマンスが向上する。参考: Apache Parquet - File Format

© 2025 Classmethod, Inc. 21 AI、特に生成AIの時代においてLakeHouseが不可欠とされる理由は、AIが必要とするデータの「種類」「量」「品質」という3つの要件を、従来の基盤では満たせない。 LakeHouseは、AIが必要とする膨大で多様なデータを、信頼できる品質で一元管理できる現実的なアーキテクチャです。
なぜAIにLakeHouseが不可欠なのか

© 2025 Classmethod, Inc. 23 RAG (検索拡張生成) の要件 • 生成AI（LLM）がハルシネーションを避け、正確な答え
を導くには、信頼できる外部の情報を参照する必要がある。 LakeHouseの役割 • 構造化データ（DB）と非構造化データ（文書、画像など）の両方を、一元管理された形でAIに提供できる。 • RAGにとって理想的な信頼できる唯一の情報源（Single Source of Truth）として機能する。構造化データと非構造化データの「簡単な結合」例えば、最新の売上データ（構造化）とその製品に対する顧客レビュー（非構造化テキスト）が同じ基盤にあるため、これらを組み合わせて（JOIN）、AIの学習・推論用データセットとして利用できる。参考: https://dev.classmethod.jp/articles/20250929-devio2025_sapporo-generative_etl/

© 2025 Classmethod, Inc. 25 Apache IcebergのシンプルなAPIとデータアクセスを活用することで、データの保存場所やストレージの種類に依存しない統合的なアクセスを実現。 Apache Icebergを中心にオープンなLakeHouse
分野コンポーネント概要テーブルフォーマット Apache Iceberg アーキテクチャのコア技術として、データアクセスと管理の基盤となる。クエリエンジン群 Amazon Redshift, Amazon Athena, AWS Glue, Amazon EMR Icebergをネイティブに利用できるクエリエンジン群。データ変換、分析、AI/MLの統合開発環境（SageMaker Unified Studio）と連携する。 RESTエンドポイント AWS Glue Iceberg REST endpoint / REST extension endpoint Icebergテーブルへの幅広い連携形式を提供し、オープンソースやAWS外のツールからのシームレスな利用を可能にする。

© 2025 Classmethod, Inc. 26 Apache IcebergのシンプルなAPIによるデータアクセスを可能にすることで、様々なストレージの種類やデータの保存場所に依存しない透過的なデータアクセスを提供。 Apache
Icebergによるメタデータの統合と効率化ストレージの種類特徴 Amazon S3 高い耐久性、可用性、スケーラビリティを持つオブジェクトストレージ。 Icebergテーブルの運用において汎用性と柔軟性を求める場合に適する。 Amazon S3 Tables Icebergをフルマネージドで利用できる専用ストレージ。自動コンパクションやスナップショット管理などのテーブルメンテナンスを自動で行う。 Redshift Managed Storage (RMS) Tables Amazon RedshiftのテーブルをIcebergテーブルとして扱い、Redshiftと他の Iceberg互換エンジンとの統合運用を実現する。

© 2025 Classmethod, Inc. 27 Icebergのデータとメタデータは、主に Amazon S3汎用バケットや、フルマネージドなAmazon S3
Tablesに保存される。 S3 Tables Icebergを意識せずマネージドに活用できる、自動コンパクションやスナップショット管理といったIcebergテーブルのメンテナンスを自動で行う機能を提供する。 Amazon Redshift Managed Storage (RMS) Tables Icebergテーブルとしてアクセス可能であり、データウェアハウスの統合的な運用を実現する。 Apache Iceberg Rest Catalog APIによるアクセス参考: ANT354 NEW Amazon SageMaker Lakehouse Accelerate analytics and AI（P.43）

© 2025 Classmethod, Inc. 28 最後に • LakeHouseは、単一の基盤でDWHの「信頼性」とDataLakeの「柔軟性」を両立させる、Data &
AI時代の標準アーキテクチャ • その中核となる技術は、Apache IcebergをはじめとするOTF(Open Table Format) • Apache Icebergを中心としたオープンな技術スタックが重要 • 特にAI（RAG）の時代において、LakeHouseは信頼できる唯一の情報源（SSoT）として不可欠な存在 • AWSもIcebergを中心としたオープンなLakeHouse戦略を推進しており、Amazon S3 TablesやAWS Glue REST Catalogといったサービスを利用することで、簡単にLakeHouseを始めることができる

Data & AIの未来とLakeHouse

Data & AIの未来とLakeHouse

Satoru Ishikawa

More Decks by Satoru Ishikawa

Other Decks in Technology

Featured

Transcript

Data & AIの未来とLakeHouse 2025年11月07日クラウド事業本部コンサルティング部石川覚

© 2025 Classmethod, Inc. はじめに 1 名前：石川覚（いしかわさとる）所属：クラウド事業本部

© 2025 Classmethod, Inc. ブログ: データアナリティクス通信 2 弊社のブログにて、2022年からクラスメソッドデータアナリティクス通信(AWSデータ分析編)を連載中です！

© 2025 Classmethod, Inc. アジェンダ 3 • はじめに • LakeHouse

© 2025 Classmethod, Inc. LakeHouse Architecture 5

© 2025 Classmethod, Inc. 6 従来のデータ分析基盤には、大きく分けて「DatawareHouse（DWH）」と「DataLake」という2つのアプローチがあり、それぞれに特性がある。なぜ今、LakeHouseなのか？比較項目 DatawareHouse

© 2025 Classmethod, Inc. 7 従来のアーキテクチャとその課題データのサイロ化 • BI用のデータ（DWH）とAI用のデータ（Data Lake）の分断

© 2025 Classmethod, Inc. 8 LakeHouseは、DataLakeの安価なストレージの上に、DWHのような信頼性や管理機能（トランザクション、ガバナンス）を提供する。 LakeHouseとはデータの信頼性（ACIDトランザクション） Apache

© 2025 Classmethod, Inc. 9 LakeHouseは、Delta Architecture と同義。AWSの「SageMaker LakeHouse」、Snowflakeの「UniLake」、

© 2025 Classmethod, Inc. 10 データ形式、スキーマ、主要ユーザー、信頼性などの観点で比較。 DatawareHouse vs DataLake vs

© 2025 Classmethod, Inc. LakeHouseを支える技術 11

© 2025 Classmethod, Inc. 12 Apache Iceberg とは Apache Icebergとは、DataLake上にあるペタバイト規模の巨大な分析用デ

© 2025 Classmethod, Inc. Apache Iceberg 13 • 2017年 Netflixで誕生

© 2025 Classmethod, Inc. 14 技術課題を解決 DataLakeの課題 Apache Icebergによる解決データ整合性の欠如

© 2025 Classmethod, Inc. 15 Icebergカタログデータベースとテーブルの論理的な集合体を管理。各テーブルの最新のメタデータファイルの場所を保持、アトミックに更新してトランザクションの整合性を保証。メタデータレイヤー

© 2025 Classmethod, Inc. 17 テーブルフォーマットで管理されたデータを実際に読み書きし、SQLでの分析、データ変換（ETL）、AI/MLの学習処理などを実行するエンジンです。クエリエンジン（データの処理・分析） Apache Spark

© 2025 Classmethod, Inc. 18 「どのテーブルが、ストレージのどこに、どのようなスキーマ（列定義）で存在するか」というメタデータを一元管理するサービス。 Icebergカタログサービス (メタデータの管理) Hive

© 2025 Classmethod, Inc. 19 データを物理的に保存する場所です。LakeHouseは、安価で拡張性の高いクラウドのオブジェクトストレージを前提とする。データストレージ（データの保存と管理）オブジェクトストレージ •

© 2025 Classmethod, Inc. LakeHouseとAIの未来 20

© 2025 Classmethod, Inc. 22 LakeHouseは、DWHとDataLakeの「いいとこ取り」をすることで、AI時代のデータ要件を満たします。 LakeHouseがAI時代に不可欠な理由

© 2025 Classmethod, Inc. 23 RAG (検索拡張生成) の要件 • 生成AI（LLM）がハルシネーションを避け、正確な答え

© 2025 Classmethod, Inc. AWSによるLakeHouse 24

© 2025 Classmethod, Inc. 25 Apache IcebergのシンプルなAPIとデータアクセスを活用することで、データの保存場所やストレージの種類に依存しない統合的なアクセスを実現。 Apache Icebergを中心にオープンなLakeHouse

© 2025 Classmethod, Inc. 26 Apache IcebergのシンプルなAPIによるデータアクセスを可能にすることで、様々なストレージの種類やデータの保存場所に依存しない透過的なデータアクセスを提供。 Apache

© 2025 Classmethod, Inc. 27 Icebergのデータとメタデータは、主に Amazon S3汎用バケットや、フルマネージドなAmazon S3

© 2025 Classmethod, Inc. 28 最後に • LakeHouseは、単一の基盤でDWHの「信頼性」とDataLakeの「柔軟性」を両立させる、Data &

© 2025 Classmethod, Inc. 29 xxx DECEMBER 1 – 5,