Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data & AIの未来とLakeHouse

Data & AIの未来とLakeHouse

Dataware House(DWH)とDataLakeでデータが分断されていませんか? そのサイロ化問題を解決するのが、DWHの「信頼性」とDataLakeの「柔軟性」を両立させる新標準「LakeHouse」です 。中核技術Apache Icebergがデータレイクの信頼性を高め 、BIからAIまで多様なワークロードを単一基盤で実現します 。特に生成AI(RAG)活用の鍵となる「信頼できる唯一の情報源」 として不可欠な、次世代データ基盤の全体像を解説します 。

Avatar for Satoru Ishikawa

Satoru Ishikawa

November 08, 2025
Tweet

More Decks by Satoru Ishikawa

Other Decks in Technology

Transcript

  1. © 2025 Classmethod, Inc. はじめに 1 名前:石川 覚(いしかわ さとる) 所属:クラウド事業本部

    担当:コンサルタント、ブログ・登壇等 経歴:メーカーでSE、研究開発 →ITベンチャーで製品開発、受託研究 →クラスメソッド(2014/6〜) 好きなサービス: Amazon Redshift/Athena/Bedrock、 Google BigQuery Sapporo 2020-2025 Japan AWS Top Engineers 2021-2025 Japan AWS All Certifications Engineers
  2. © 2025 Classmethod, Inc. ブログ: データアナリティクス通信 2 弊社のブログにて、2022年からクラスメソッド データアナリティクス 通信(AWSデータ分析編)を連載中です!

    グ ラ フ ィ カ ル ユ ー ザ ー イ ン タ ー フ ェ イ ス , Web サ イ ト 自 動 的 に 生 成 さ れ た 説 明 https://dev.classmethod.jp/referencecat/classmethod-da-news-aws-analytics/
  3. © 2025 Classmethod, Inc. アジェンダ 3 • はじめに • LakeHouse

    Architecture • LakeHouseを支える技術 • LakeHouseとAIの未来 • AWSによるLakeHouse • 最後に
  4. © 2025 Classmethod, Inc. はじめに 4 • データ&AI分野で標準となる「LakeHouse」アーキテクチャを紹介します。 これはDataLakeの柔軟性とDWHの信頼性を単一基盤に統合し、BIやAI、 ストリーミング等の多様なワークロードを統一的に扱うものです

    。その技 術的根幹にはApache Iceberg等のオープンフォーマットが存在します 。 • LakeHouseがAI時代のデータ戦略の中核であり、オープン性を重視したプ ラットフォーム選定が不可欠です。
  5. © 2025 Classmethod, Inc. 6 従来のデータ分析基盤には、大きく分けて「DatawareHouse(DWH)」と 「DataLake」という2つのアプローチがあり、それぞれに特性がある。 なぜ今、LakeHouseなのか? 比較項目 DatawareHouse

    (DWH) DataLake (Data Lake) 主な用途 BI、ビジネスレポート、定型分析 AI、機械学習、データ探索 扱うデータ 構造化データ (2次元の表データ) あらゆるデータ (構造化、非構造化) データ形式 独自のストレージ形式 オープンなファイル形式 (Parquet, CSV, JSON, 画像) スキーマ スキーマ・オン・ライト (書き込み時に厳格 に検証) スキーマ・オン・リード (読み込み時に柔軟に解 釈) 長所 高速な集計、高い信頼性、ガバナンス 低コスト、高い柔軟性、拡張性 短所 高コスト、柔軟性の欠如、AI/MLに不向き 品質の担保が困難、ガバナンス欠如
  6. © 2025 Classmethod, Inc. 7 従来のアーキテクチャとその課題 データのサイロ化 • BI用のデータ(DWH)とAI用のデータ(Data Lake)の分断

    高コスト・複雑性 • DWHとDataLakeという2つの異なる基盤の維持 管理が必要 • それぞれの専門知識が必要で、運用コストが増大 データの二重管理と鮮度の低下 • 同じ元データ(例:売上データ) を、DWH用とDataLake用に別々 に管理する必要がある • データの鮮度が落ちたり、「正し い」データかどちらか分からなく なる問題も発生 Dataware HouseとDataLakeにおいて分断と二重管理が発生。
  7. © 2025 Classmethod, Inc. 8 LakeHouseは、DataLakeの安価なストレージの上に、DWHのような信頼性 や管理機能(トランザクション、ガバナンス)を提供する。 LakeHouseとは データの信頼性(ACIDトランザクション) Apache

    Iceberg などのOTF(Open Table Format)により、デー タレイク上でACIDトランザクションが可能になる 単一のデータソース(サイロ化の解消) 単一のデータソースに対して、BIクエリ(SQL)とAI/ML(Python など)の両方のワークロードを実行できる オープンな標準フォーマットの採用 Apache Parquet など、オープンで標準化されたデータ形式採用、 複数のDWH間でライブデータを共有できる データガバナンス 細かいアクセス制御、データの削除・更新が可能(GDPRコンプラ イアンス対応)
  8. © 2025 Classmethod, Inc. 9 LakeHouseは、Delta Architecture と同義。AWSの 「SageMaker LakeHouse」、Snowflakeの「UniLake」、

    BigQueryの「BigLake」も概ね同じ。 • OTF(Open Table Format)である Iceberg という単一の信頼 できるストレージ(テーブル)を用意 • OTFは、リアルタイムのストリーミング書き込みと、大規模な バッチ処理の読み書きを同時に、安全に(ACIDトランザクショ ンで)行うことができる • クエリエンジンは、ストリーム用とバッチ用でどちらでも構い ません(例: Spark Structured StreamingとSpark Batch SQL)。 • スピードレイヤ(リアルタイム)とバッチレイヤ(一括処理) ともに、データの保存場所が同じで一貫性が保たれる Lambda Architecture から Delta Architecture へ
  9. © 2025 Classmethod, Inc. 10 データ形式、スキーマ、主要ユーザー、信頼性などの観点で比較。 DatawareHouse vs DataLake vs

    LakeHouse 機能比較 特徴 DatawareHouse (DWH) DataLake LakeHouse データ形式 構造化データ 全てのデータ形式 全てのデータ形式 スキーマ スキーマ・オン・ライト(書 き込み時) スキーマ・オン・リード(読み 取り時) 両方をサポート 主要ユーザー ビジネスアナリスト データサイエンティスト 全てのユーザー 主要ワークロード BI、レポーティング ML、データ探索 BI、AI、ストリーミングなど全 て データアクセス CRUD(作成・読取・更新・ 削除)が可能 読み取り・追記が中心(更新・ 削除が困難) CRUD(作成・読取・更新・削 除)が可能 パフォーマンス 高いクエリ性能 変動 高い性能 信頼性 高い(ACID準拠) 低い(非準拠) 高い(ACID準拠)
  10. © 2025 Classmethod, Inc. 12 Apache Iceberg とは Apache Icebergとは、DataLake上にあるペタバイト規模の巨大な分析用デ

    ータセットを管理するために設計された、オープンソースのテーブルフォー マット(OTF)です 。 re:Invent 2021でAmazon Athenaがサポートを開始し たことでも、広く注目を集めることになりました。 2023年にAmazon Athena(Iceberg)とdbt-athena のソリューションついてAWSのウェビナーで紹介。 先週(10/29)、目黒のStartup Loftでウェビナーに登 壇、Apache Icebergに関して紹介。 https://dev.classmethod.jp/articles/20211207-amazon-athena-iceberg-preview/ https://dev.classmethod.jp/articles/20230727-amazon-athena-iceberg-x-dbt-cyopiri-dd/ https://dev.classmethod.jp/articles/20251029-apache-iceberg-in-practice/
  11. © 2025 Classmethod, Inc. Apache Iceberg 13 • 2017年 Netflixで誕生

    ◦ Netflixで巨大なデータセット(ペタバイト規模) を効率的に管理・分析するために開発。 • 2018年 Apache Incubator入り ◦ オープンソースプロジェクトとして公開し、 Apache Software Foundationに寄贈。 • 2020年 トップレベルプロジェクトへ昇格 ◦ Apache Incubatorを卒業し、ASFのトップレベル プロジェクト(TLP)に昇格 • 2021年 Amazon Athenaがサポート ◦ re:Invent 2021でAmazon Athenaがサポートを開 始したことで広く注目を集める • 現在 最も注目のOTFに ◦ 急速に採用が拡大し、AWS、Google Cloud、 Snowflake、Databricksなど多くのデータプラッ トフォームやクエリエンジンがサポート。 Apache Icebergとは、DataLake上にあ るペタバイト規模の巨大な分析用データ セットを管理するために設計された、オ ープンソースのテーブルフォーマット (OTF)です 。
  12. © 2025 Classmethod, Inc. 14 技術課題を解決 DataLakeの課題 Apache Icebergによる解決 データ整合性の欠如

    楽観的同時実行制御(Optimistic Concurrency Control) 少量レコード更新処理の非効率性 Row-level の更新・削除操作をサポート(MERGE、UPDATE、 DELETE) パーティション管理の限界 Hidden Partitioning(隠しパーティション) により、パーティ ションを意識不要 クエリ設計の複雑化 パーティション変換(Partition Evolution) 機能により、ユー ザーはパーティション構造を意識せずにクエリ可能 過去状態の復元が困難 タイムトラベル機能により、任意の時点のスナップショットにア クセス可能 Apache Icebergは、DataLakeの課題をACIDトランザクション、隠しパーテ ィション、スキーマ/パーティション進化といった特長で解決する。
  13. © 2025 Classmethod, Inc. 15 Icebergカタログ データベースとテーブルの論理的な集合体を管理。各テーブルの最 新のメタデータファイルの場所を保持、アトミックに更新してトラ ンザクションの整合性を保証。 メタデータレイヤー

    テーブルの状態を管理するレイヤで、テーブルスキーマ、スナップ ショット履歴、パーティション情報、及びデータファイルの統計情 報などを格納する。クエリ実行時のファイルフィルタリングを効率 化する。 データレイヤー テーブルを構成する実際のレコード情報が格納されたデータファイ ル(Parquet、ORC、Avroなど)及び削除ファイル(MoRモード の場合)が配置されるストレージ上の場所。Icebergカタログを経 由したメタデータによって管理される。 Icebergテーブルのアーキテクチャ 補足: Apache Iceberg - Table Spec
  14. © 2025 Classmethod, Inc. 16 クエリエンジン(データの処理・分析) クエリエンジンは、Icebergテーブルに対して読み書 きや分析を実行するクライアント。Iceberg自体はク エリを実行するエンジン機能を持たない。 Icebergカタログサービス(メタデータの管理)

    Icebergカタログは、Icebergテーブルにアクセスす る際のエントリーポイントとして機能する。 データストレージ(データの保存) データストレージは、Icebergテーブルを構成する物 理的なファイルを格納する場所。Icebergのアーキテ クチャでは、データストレージはIcebergカタログと 疎結合。 Icebergにおける主要コンポーネントの関係
  15. © 2025 Classmethod, Inc. 17 テーブルフォーマットで管理されたデータを実際に読み書きし、SQLでの分 析、データ変換(ETL)、AI/MLの学習処理などを実行するエンジンです。 クエリエンジン(データの処理・分析) Apache Spark

    大規模データ分散処理のデファクトスタンダードで、特に Icebergの機能を最もサポートしている。バッチ処理、スト リーミング、AI(MLlib)まで幅広く対応できる。 Trino 軽量・高速な分散SQLクエリエンジンで、Icebergとの相性 が良い。BIツールからの高速な分析に向いている。 Apache Flink リアルタイムストリーム処理を扱えるオープンソースの分 散処理フレームワーク。低レイテンシでの継続的なデータ 処理、状態管理、イベント時刻処理などが特徴。 PyIceberg Apache Icebergテーブルフォーマットを操 作するためのPythonライブラリ。 主要なDWHサービス Google BigQuery、Amazon Redshift 、 SnowflakeといったクラウドDWHも、 Icebergなどのオープンフォーマットを外部 テーブルとして直接参照する機能があり、 SnowflakeのUniLake、BigQueryの BigLakeなどを強化しており、LakeHouse アーキテクチャの一部として機能する。
  16. © 2025 Classmethod, Inc. 18 「どのテーブルが、ストレージのどこに、どのようなスキーマ(列定義)で 存在するか」というメタデータを一元管理するサービス。 Icebergカタログサービス (メタデータの管理) Hive

    Metastore Hadoop/Sparkエコシステムで伝統的に使われて きたメタデータ管理の標準的なリポジトリ。 Apache Polaris Snowflakeが発表したオープンソースのカタログ サービス。分散型・マルチエンジン環境において、 Icebergテーブルのスキーマ、データ格納場所、 所有者情報といったメタデータを一元管理する中 央ハブとして機能する。RESTful APIを提供し、 データパイプラインへの統合が容易で、セキュリ ティやガバナンス機能も備える。 AWS Glue Data Catalog AWSが提供するフルマネージドのカタログサービス。 Hive Metastoreと互換性があり、AWS上での LakeHouse構築で広く使われている。 AWS Glue Iceberg REST Catalog re:Invent 2024で発表されたカタログ実装で、Apache Icebergのオープンスタンダードな「RESTカタログ仕 様」に対応させる機能。Spark、Trino、Flinkなど Iceberg REST APIをサポートする様々なエンジンが、 AWS GlueをIcebergテーブルの中央メタデータストアと して直接利用可能になり、相互運用性が向上する。
  17. © 2025 Classmethod, Inc. 19 データを物理的に保存する場所です。LakeHouseは、安価で拡張性の高いク ラウドのオブジェクトストレージを前提とする。 データストレージ(データの保存と管理) オブジェクトストレージ •

    Amazon S3 • Google Cloud Storage (GCS) • Azure Data Lake Storage (ADLS) Gen2 ストレージファイルフォーマット • Apache Parquet LakeHouseの事実上の標準ファイル形式です。データ を列指向(列ごと)にまとめて圧縮・保存するため、 分析クエリ(特定の列だけを集計する)のパフォーマ ンスが向上する。 参考: Apache Parquet - File Format
  18. © 2025 Classmethod, Inc. 23 RAG (検索拡張生成) の要件 • 生成AI(LLM)がハルシネーションを避け、正確な答え

    を導くには、信頼できる外部の情報を参照する必要があ る。 LakeHouseの役割 • 構造化データ(DB)と非構造化データ(文書、画像な ど)の両方を、一元管理された形でAIに提供できる。 • RAGにとって理想的な信頼できる唯一の情報源(Single Source of Truth)として機能する。 構造化データと非構造化データの「簡単な結合」 例えば、最新の売上データ(構造化)とその製品に対する顧客レビュー(非構造化テ キスト)が同じ基盤にあるため、これらを組み合わせて(JOIN)、AIの学習・推論 用データセットとして利用できる。 参考: https://dev.classmethod.jp/articles/20250929-devio2025_sapporo-generative_etl/
  19. © 2025 Classmethod, Inc. 25 Apache IcebergのシンプルなAPIとデータアクセスを活用することで、デー タの保存場所やストレージの種類に依存しない統合的なアクセスを実現。 Apache Icebergを中心にオープンなLakeHouse

    分野 コンポーネント 概要 テーブルフォ ーマット Apache Iceberg アーキテクチャのコア技術として、データアクセスと 管理の基盤となる。 クエリエンジ ン群 Amazon Redshift, Amazon Athena, AWS Glue, Amazon EMR Icebergをネイティブに利用できるクエリエンジン群。 データ変換、分析、AI/MLの統合開発環境 (SageMaker Unified Studio)と連携する。 RESTエンドポ イント AWS Glue Iceberg REST endpoint / REST extension endpoint Icebergテーブルへの幅広い連携形式を提供し、オープ ンソースやAWS外のツールからのシームレスな利用を 可能にする。
  20. © 2025 Classmethod, Inc. 26 Apache IcebergのシンプルなAPIによるデータアクセスを可能にすることで、 様々なストレージの種類やデータの保存場所に依存しない透過的なデータア クセスを提供。 Apache

    Icebergによるメタデータの統合と効率化 ストレージの種類 特徴 Amazon S3 高い耐久性、可用性、スケーラビリティを持つオブジェクトストレージ。 Icebergテーブルの運用において汎用性と柔軟性を求める場合に適する。 Amazon S3 Tables Icebergをフルマネージドで利用できる専用ストレージ。自動コンパクション やスナップショット管理などのテーブルメンテナンスを自動で行う。 Redshift Managed Storage (RMS) Tables Amazon RedshiftのテーブルをIcebergテーブルとして扱い、Redshiftと他の Iceberg互換エンジンとの統合運用を実現する。
  21. © 2025 Classmethod, Inc. 27 Icebergのデータとメタデータは、主に Amazon S3汎用バケットや、フルマネー ジドなAmazon S3

    Tablesに保存される。 S3 Tables Icebergを意識せずマネージドに活用でき る、自動コンパクションやスナップショッ ト管理といったIcebergテーブルのメンテ ナンスを自動で行う機能を提供する。 Amazon Redshift Managed Storage (RMS) Tables Icebergテーブルとしてアクセス可能であ り、データウェアハウスの統合的な運用を 実現する。 Apache Iceberg Rest Catalog APIによるアクセス 参考: ANT354 NEW Amazon SageMaker Lakehouse Accelerate analytics and AI(P.43)
  22. © 2025 Classmethod, Inc. 28 最後に • LakeHouseは、単一の基盤でDWHの「信頼性」とDataLakeの「柔軟 性」を両立させる、Data &

    AI時代の標準アーキテクチャ • その中核となる技術は、Apache IcebergをはじめとするOTF(Open Table Format) • Apache Icebergを中心としたオープンな技術スタックが重要 • 特にAI(RAG)の時代において、LakeHouseは信頼できる唯一の情報 源(SSoT)として不可欠な存在 • AWSもIcebergを中心としたオープンなLakeHouse戦略を推進してお り 、Amazon S3 TablesやAWS Glue REST Catalogといったサービス を利用することで、簡単にLakeHouseを始めることができる