Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
Search
ttnyt8701
March 05, 2025
Programming
1
33
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
【AWS活用 AI/ML/LLM #5】機械学習/大規模言語モデル データエンジニアリング
https://blueish.connpass.com/event/347454/
ttnyt8701
March 05, 2025
Tweet
Share
More Decks by ttnyt8701
See All by ttnyt8701
ObsidianをMCP連携させてみる
ttnyt8701
2
150
Claude Codeの使い方
ttnyt8701
1
140
FastMCPでMCPサーバー/クライアントを構築してみる
ttnyt8701
2
140
LangChain Open Deep Researchとは?
ttnyt8701
2
87
Vertex AI Agent Builderとは?
ttnyt8701
3
110
A2A(Agent2Agent )とは?
ttnyt8701
1
300
Amazon Bedrock LLM as a Judgeを試す
ttnyt8701
1
30
Amazon Sagemaker Jump Startを用いて爆速でモデルを作成してみる
ttnyt8701
2
61
Langsmith入門 トレーシングとプロンプト管理を試す
ttnyt8701
1
150
Other Decks in Programming
See All in Programming
#kanrk08 / 公開版 PicoRubyとマイコンでの自作トレーニング計測装置を用いたワークアウトの理想と現実
bash0c7
1
650
VS Code Update for GitHub Copilot
74th
1
480
Google Agent Development Kit でLINE Botを作ってみた
ymd65536
2
210
都市をデータで見るってこういうこと PLATEAU属性情報入門
nokonoko1203
1
580
システム成長を止めない!本番無停止テーブル移行の全貌
sakawe_ee
1
150
PostgreSQLのRow Level SecurityをPHPのORMで扱う Eloquent vs Doctrine #phpcon #track2
77web
2
410
GitHub Copilot and GitHub Codespaces Hands-on
ymd65536
1
130
PHP 8.4の新機能「プロパティフック」から学ぶオブジェクト指向設計とリスコフの置換原則
kentaroutakeda
2
680
Flutterで備える!Accessibility Nutrition Labels完全ガイド
yuukiw00w
0
120
Java on Azure で LangGraph!
kohei3110
0
170
Composerが「依存解決」のためにどんな工夫をしているか #phpcon
o0h
PRO
1
240
CursorはMCPを使った方が良いぞ
taigakono
1
200
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
A Tale of Four Properties
chriscoyier
160
23k
4 Signs Your Business is Dying
shpigford
184
22k
Imperfection Machines: The Place of Print at Facebook
scottboms
267
13k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
The Language of Interfaces
destraynor
158
25k
Stop Working from a Prison Cell
hatefulcrawdad
270
20k
Speed Design
sergeychernyshev
32
1k
Optimizing for Happiness
mojombo
379
70k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.4k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Transcript
Amazon SageMaker Lakehouseでデータのサイロ化に よる課題を解決する 立野 祐太 2025.03.05 ©BLUEISH 2025. All
rights reserved.
©BLUEISH 2025. All rights reserved. ゴール Amazon SageMaker Lakehouseをざっくりと理解する
立野 祐太 Yuta Tateno Go、GCPを用いたWEB開発をしています。 WEBエンジニア 自己紹介 ©BLUEISH 2024. All
rights reserved.
©BLUEISH 2025. All rights reserved. 目次 1. Amazon SageMaker Lakehouseとは
2. データパイプライン 3. データストアの種類 4. データストアはどのように利用されているか 5. サイロ化による課題 6. Amazon SageMaker Lakehouseによる課題の解決 7. レイクハウスを実現するための機能 8. まとめ
©BLUEISH 2025. All rights reserved. Amazon SageMaker Lakehouseとは データレイク、データウェアハウスなど複数のデータソースを統合し、各データに統一されたインターフェイスか らのアクセスを可能にすることでデータ管理・分析・開発を効率的にするプラットフォーム
データパイプライン ©BLUEISH 2025. All rights reserved. データ活用するまでのデータのフロー。SageMaker Lakehouseは”データ保存”のデータレイク・DWHを統合 データ収集 データ加工
データ保存 データ活用 データグレンジング フォーマット変換 … データウェアハウス データレイク … 分析 機械学習 … 運用DB ログ API スクレイピング …
©BLUEISH 2025. All rights reserved. データストアの種類 データ基盤には主に2種類のデータストアが利用されている。 データウェアハウス (Amazon Redshift)
❏ 事前にデータを加工した「構造化データ」を格納し、利用される( Schema On Write) データレイク (Amazon S3) ❏ 構造化・準構造化・非構造化データ形式問わず「生のデータ」を格納し、必要な時に加工して利用される (Schema On Read)
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか データウェアハウス DWH(データウェアハウス)は、 BI(ビジネスインテリジェンス)や意思決定支援で広く利用されている。しかし、 DWHは「構造化データ」に特化しており、非構造化・半構造化データの処理が難しく、高速処理やコスト面でも
課題がある。 データレイク DWHの課題を補うため、機械学習やデータサイエンス向けに「データレイク」が登場。 データレイクは低コストで多様な形式の生データを格納できるが、トランザクション管理やデータ品質の保証が ない。データの一貫性がなく、リアルタイム処理やストリーミングデータとの統合が困難。
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか 2層データアーキテクチャ(データレイク+ DWH) データレイクとDWHを組み合わせることで、 BI
と ML(機械学習) の両方を実行可能になり、現在広く利用され ている。 しかし、2層になることでデータのサイロ化(データの分断)により新たな課題が発生
©BLUEISH 2025. All rights reserved. サイロ化による課題 運用負担の増大 ❏ データはデータレイクに保存された後、 ETL処理(データの抽出・変換・書き出し)を経て
DWHにコピーさ れるときデータが二重管理になる。そのためストレージコストが 2倍になる ❏ DWHにコピーされるたびに ETL処理が発生し、コンピューティングコスト増大 ❏ データレイクとDWHを別々に管理する必要があり、運用やデータパイプラインが複雑化 ❏ BIとMLで異なるデータストアを利用するため、データを統合的に活用できない ❏ ETL処理を通じてデータをコピーすることで、データの更新が遅れたり、古いデータと新しいデータが混 在するリスク ❏ データストア間での整合性チェックが必要で、 ETLでエラー発生時にはリカバリ対応が必要になる
©BLUEISH 2025. All rights reserved. サイロ化による課題 アクセス管理の煩雑さとセキュリティリスクの増加 ❏ データレイクとDWHで異なる複数のデータストアを利用していることでアクセス権限の設定が増えためア クセス管理が煩雑になる。また、アクセス制限のミスが発生しやすくセキュリティリスクが高まる
❏ 機密データの管理が煩雑になり、セキュリティリスクが高まる。データが DWHに移動する際に暗号化や マスキングが適用されていないなど想定される
©BLUEISH 2025. All rights reserved. サイロ化による課題 リアルタイム性の欠如 ❏ データレイクからDWHへのETL勝利が必要であり、ETL処理がバッチであるため、リアルタイム性を失 う。そのためリアルタイムでデータを活用することが難しい。
©BLUEISH 2025. All rights reserved. SageMaker Lakehouseによる課題の解決 データの統合管理 SageMaker Lakehouse
はデータレイク(S3)と データウェアハウス(Redshift) のデータを統合し、データを一元 管理する「レイクハウス」アーキテクチャを実現 ✅データストアが統合されることによって、サイロ化によるデータの二重管理、データストアの分散管理、アク セス管理の煩雑さ、セキュリティリスクの増加の課題が解決
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 ゼロETL統合 ゼロETL統合とは、ETLを行わずに運用データベースやアプリケーションからのデータをほぼリアルタイムで レイクハウスに取り込むことができる機能 ✅リアルタイム性の欠如、コスト増大、運用負担など
ETLによるボトルネックを解決 サポート状況 以下8 つのアプリケーションとのゼロ ETL 統合をサポート DynamoDB、Aurora、RDS for MySQL 、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、 Instagram 広告、Zendesk、SAP
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 フェデレーテッドクエリ( Federated Query) フェデレーテッドクエリによって異なるデータソース(データレイク、
DWH、外部DBなど)に対して、データを移動 せずに1つの SQL クエリで分析を実行できる ❏ データをDWH に移動せずに、異なるデータソースを一元的に分析できる ❏ AWS 外のデータソース(Google BigQuery, Snowflake, MySQL, PostgreSQL など)とも統合可能
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 Apache Iceberg トランザクションに対応し、データレイク上で DWHのような高度なデータ管理を可能にする
❏ DWHと同じように、データレイク上でデータの更新・削除・管理ができるように
©BLUEISH 2025. All rights reserved. まとめ 🛑課題(サイロ化の問題点) ✅SageMaker Lakehouse による解決策
データの二重管理 & コスト増大 S3とRedshiftの統合 ETLの運用負担 & リアルタイム性の欠如 ゼロETL統合により、ETL不要でリアルタイム データ活用が可能 アクセス管理の煩雑化 & セキュリティリスク 同一プラットフォームによる一元管理( IAM & RBAC )で、アクセス管理とセキュリティを最 適化