Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
Search
ttnyt8701
March 05, 2025
Programming
2
34
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
【AWS活用 AI/ML/LLM #5】機械学習/大規模言語モデル データエンジニアリング
https://blueish.connpass.com/event/347454/
ttnyt8701
March 05, 2025
Tweet
Share
More Decks by ttnyt8701
See All by ttnyt8701
Gemini CLI のはじめ方
ttnyt8701
1
140
ObsidianをMCP連携させてみる
ttnyt8701
3
1k
Claude Codeの使い方
ttnyt8701
2
250
FastMCPでMCPサーバー/クライアントを構築してみる
ttnyt8701
3
220
LangChain Open Deep Researchとは?
ttnyt8701
2
180
Vertex AI Agent Builderとは?
ttnyt8701
4
200
A2A(Agent2Agent )とは?
ttnyt8701
2
370
Amazon Bedrock LLM as a Judgeを試す
ttnyt8701
2
55
Amazon Sagemaker Jump Startを用いて爆速でモデルを作成してみる
ttnyt8701
3
71
Other Decks in Programming
See All in Programming
More Approvers for Greater OSS and Japan Community
tkikuc
1
110
Azure SRE Agentで運用は楽になるのか?
kkamegawa
0
1.6k
為你自己學 Python - 冷知識篇
eddie
1
340
UbieのAIパートナーを支えるコンテキストエンジニアリング実践
syucream
2
830
AWS発のAIエディタKiroを使ってみた
iriikeita
1
170
アセットのコンパイルについて
ojun9
0
110
Design Foundational Data Engineering Observability
sucitw
3
170
🔨 小さなビルドシステムを作る
momeemt
3
660
TanStack DB ~状態管理の新しい考え方~
bmthd
2
480
JSONataを使ってみよう Step Functionsが楽しくなる実践テクニック #devio2025
dafujii
0
410
Rancher と Terraform
fufuhu
2
210
Claude Codeで実装以外の開発フロー、どこまで自動化できるか?失敗と成功
ndadayo
4
1.9k
Featured
See All Featured
Typedesign – Prime Four
hannesfritz
42
2.8k
Fireside Chat
paigeccino
39
3.6k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
111
20k
Balancing Empowerment & Direction
lara
3
610
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Writing Fast Ruby
sferik
628
62k
How to Think Like a Performance Engineer
csswizardry
26
1.9k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
For a Future-Friendly Web
brad_frost
180
9.9k
Practical Orchestrator
shlominoach
190
11k
Making the Leap to Tech Lead
cromwellryan
135
9.5k
Raft: Consensus for Rubyists
vanstee
140
7.1k
Transcript
Amazon SageMaker Lakehouseでデータのサイロ化に よる課題を解決する 立野 祐太 2025.03.05 ©BLUEISH 2025. All
rights reserved.
©BLUEISH 2025. All rights reserved. ゴール Amazon SageMaker Lakehouseをざっくりと理解する
立野 祐太 Yuta Tateno Go、GCPを用いたWEB開発をしています。 WEBエンジニア 自己紹介 ©BLUEISH 2024. All
rights reserved.
©BLUEISH 2025. All rights reserved. 目次 1. Amazon SageMaker Lakehouseとは
2. データパイプライン 3. データストアの種類 4. データストアはどのように利用されているか 5. サイロ化による課題 6. Amazon SageMaker Lakehouseによる課題の解決 7. レイクハウスを実現するための機能 8. まとめ
©BLUEISH 2025. All rights reserved. Amazon SageMaker Lakehouseとは データレイク、データウェアハウスなど複数のデータソースを統合し、各データに統一されたインターフェイスか らのアクセスを可能にすることでデータ管理・分析・開発を効率的にするプラットフォーム
データパイプライン ©BLUEISH 2025. All rights reserved. データ活用するまでのデータのフロー。SageMaker Lakehouseは”データ保存”のデータレイク・DWHを統合 データ収集 データ加工
データ保存 データ活用 データグレンジング フォーマット変換 … データウェアハウス データレイク … 分析 機械学習 … 運用DB ログ API スクレイピング …
©BLUEISH 2025. All rights reserved. データストアの種類 データ基盤には主に2種類のデータストアが利用されている。 データウェアハウス (Amazon Redshift)
❏ 事前にデータを加工した「構造化データ」を格納し、利用される( Schema On Write) データレイク (Amazon S3) ❏ 構造化・準構造化・非構造化データ形式問わず「生のデータ」を格納し、必要な時に加工して利用される (Schema On Read)
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか データウェアハウス DWH(データウェアハウス)は、 BI(ビジネスインテリジェンス)や意思決定支援で広く利用されている。しかし、 DWHは「構造化データ」に特化しており、非構造化・半構造化データの処理が難しく、高速処理やコスト面でも
課題がある。 データレイク DWHの課題を補うため、機械学習やデータサイエンス向けに「データレイク」が登場。 データレイクは低コストで多様な形式の生データを格納できるが、トランザクション管理やデータ品質の保証が ない。データの一貫性がなく、リアルタイム処理やストリーミングデータとの統合が困難。
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか 2層データアーキテクチャ(データレイク+ DWH) データレイクとDWHを組み合わせることで、 BI
と ML(機械学習) の両方を実行可能になり、現在広く利用され ている。 しかし、2層になることでデータのサイロ化(データの分断)により新たな課題が発生
©BLUEISH 2025. All rights reserved. サイロ化による課題 運用負担の増大 ❏ データはデータレイクに保存された後、 ETL処理(データの抽出・変換・書き出し)を経て
DWHにコピーさ れるときデータが二重管理になる。そのためストレージコストが 2倍になる ❏ DWHにコピーされるたびに ETL処理が発生し、コンピューティングコスト増大 ❏ データレイクとDWHを別々に管理する必要があり、運用やデータパイプラインが複雑化 ❏ BIとMLで異なるデータストアを利用するため、データを統合的に活用できない ❏ ETL処理を通じてデータをコピーすることで、データの更新が遅れたり、古いデータと新しいデータが混 在するリスク ❏ データストア間での整合性チェックが必要で、 ETLでエラー発生時にはリカバリ対応が必要になる
©BLUEISH 2025. All rights reserved. サイロ化による課題 アクセス管理の煩雑さとセキュリティリスクの増加 ❏ データレイクとDWHで異なる複数のデータストアを利用していることでアクセス権限の設定が増えためア クセス管理が煩雑になる。また、アクセス制限のミスが発生しやすくセキュリティリスクが高まる
❏ 機密データの管理が煩雑になり、セキュリティリスクが高まる。データが DWHに移動する際に暗号化や マスキングが適用されていないなど想定される
©BLUEISH 2025. All rights reserved. サイロ化による課題 リアルタイム性の欠如 ❏ データレイクからDWHへのETL勝利が必要であり、ETL処理がバッチであるため、リアルタイム性を失 う。そのためリアルタイムでデータを活用することが難しい。
©BLUEISH 2025. All rights reserved. SageMaker Lakehouseによる課題の解決 データの統合管理 SageMaker Lakehouse
はデータレイク(S3)と データウェアハウス(Redshift) のデータを統合し、データを一元 管理する「レイクハウス」アーキテクチャを実現 ✅データストアが統合されることによって、サイロ化によるデータの二重管理、データストアの分散管理、アク セス管理の煩雑さ、セキュリティリスクの増加の課題が解決
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 ゼロETL統合 ゼロETL統合とは、ETLを行わずに運用データベースやアプリケーションからのデータをほぼリアルタイムで レイクハウスに取り込むことができる機能 ✅リアルタイム性の欠如、コスト増大、運用負担など
ETLによるボトルネックを解決 サポート状況 以下8 つのアプリケーションとのゼロ ETL 統合をサポート DynamoDB、Aurora、RDS for MySQL 、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、 Instagram 広告、Zendesk、SAP
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 フェデレーテッドクエリ( Federated Query) フェデレーテッドクエリによって異なるデータソース(データレイク、
DWH、外部DBなど)に対して、データを移動 せずに1つの SQL クエリで分析を実行できる ❏ データをDWH に移動せずに、異なるデータソースを一元的に分析できる ❏ AWS 外のデータソース(Google BigQuery, Snowflake, MySQL, PostgreSQL など)とも統合可能
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 Apache Iceberg トランザクションに対応し、データレイク上で DWHのような高度なデータ管理を可能にする
❏ DWHと同じように、データレイク上でデータの更新・削除・管理ができるように
©BLUEISH 2025. All rights reserved. まとめ 🛑課題(サイロ化の問題点) ✅SageMaker Lakehouse による解決策
データの二重管理 & コスト増大 S3とRedshiftの統合 ETLの運用負担 & リアルタイム性の欠如 ゼロETL統合により、ETL不要でリアルタイム データ活用が可能 アクセス管理の煩雑化 & セキュリティリスク 同一プラットフォームによる一元管理( IAM & RBAC )で、アクセス管理とセキュリティを最 適化