Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
Search
ttnyt8701
March 05, 2025
Programming
81
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
【AWS活用 AI/ML/LLM #5】機械学習/大規模言語モデル データエンジニアリング
https://blueish.connpass.com/event/347454/
ttnyt8701
March 05, 2025
More Decks by ttnyt8701
See All by ttnyt8701
Gemini CLI のはじめ方
ttnyt8701
1
290
ObsidianをMCP連携させてみる
ttnyt8701
3
6.7k
Claude Codeの使い方
ttnyt8701
2
450
FastMCPでMCPサーバー/クライアントを構築してみる
ttnyt8701
3
730
LangChain Open Deep Researchとは?
ttnyt8701
2
460
Vertex AI Agent Builderとは?
ttnyt8701
4
440
A2A(Agent2Agent )とは?
ttnyt8701
2
510
Amazon Bedrock LLM as a Judgeを試す
ttnyt8701
2
200
Amazon Sagemaker Jump Startを用いて爆速でモデルを作成してみる
ttnyt8701
3
120
Other Decks in Programming
See All in Programming
PHPで使える日時の表現と、その知り方 #frontend_phpcon_do
o0h
PRO
0
220
DynamoDBには集計系のクエリがないけどなんとかしたい
musan
1
130
軽量Java基盤の設計 DIコンテナに頼らない、長期保守と1秒起動の実現 JJUG CCC 2026 Spring
macha64
0
480
プロパティの順序で型推論が壊れる!? TypeScript6.0の修正からContext-Sensitivityの仕組みを追う
bicstone
2
1.3k
ふつうのFeature Flag実践入門
irof
7
3.6k
決定論的オーケストレーションの設計と実装 / Design and Implementation of Deterministic Orchestration
nrslib
3
1.2k
The ROI of Quarkus for Spring Boot Applications
hollycummins
0
100
LLM Plugin for Node-REDの利用方法と開発について
404background
0
160
生成AI時代にこそ効くGo | Why Go Works in the Age of Generative AI
mom0tomo
8
3.2k
CSC307 Lecture 17
javiergs
PRO
0
320
運用エージェントは "作る" から "育てる" へ - 記憶と自己進化の3層設計パターン / self-evolving-agents-three-layer-agent-design
gawa
12
3.6k
柔軟なPDFレイアウトエディタを支える型システム設計 — Discriminated UnionとConditional Typeの実践
minako__ph
4
1.6k
Featured
See All Featured
Designing for Timeless Needs
cassininazir
1
250
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
Efficient Content Optimization with Google Search Console & Apps Script
katarinadahlin
PRO
1
600
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
Scaling GitHub
holman
464
140k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
540
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
1
1.3k
Automating Front-end Workflow
addyosmani
1370
210k
Transcript
Amazon SageMaker Lakehouseでデータのサイロ化に よる課題を解決する 立野 祐太 2025.03.05 ©BLUEISH 2025. All
rights reserved.
©BLUEISH 2025. All rights reserved. ゴール Amazon SageMaker Lakehouseをざっくりと理解する
立野 祐太 Yuta Tateno Go、GCPを用いたWEB開発をしています。 WEBエンジニア 自己紹介 ©BLUEISH 2024. All
rights reserved.
©BLUEISH 2025. All rights reserved. 目次 1. Amazon SageMaker Lakehouseとは
2. データパイプライン 3. データストアの種類 4. データストアはどのように利用されているか 5. サイロ化による課題 6. Amazon SageMaker Lakehouseによる課題の解決 7. レイクハウスを実現するための機能 8. まとめ
©BLUEISH 2025. All rights reserved. Amazon SageMaker Lakehouseとは データレイク、データウェアハウスなど複数のデータソースを統合し、各データに統一されたインターフェイスか らのアクセスを可能にすることでデータ管理・分析・開発を効率的にするプラットフォーム
データパイプライン ©BLUEISH 2025. All rights reserved. データ活用するまでのデータのフロー。SageMaker Lakehouseは”データ保存”のデータレイク・DWHを統合 データ収集 データ加工
データ保存 データ活用 データグレンジング フォーマット変換 … データウェアハウス データレイク … 分析 機械学習 … 運用DB ログ API スクレイピング …
©BLUEISH 2025. All rights reserved. データストアの種類 データ基盤には主に2種類のデータストアが利用されている。 データウェアハウス (Amazon Redshift)
❏ 事前にデータを加工した「構造化データ」を格納し、利用される( Schema On Write) データレイク (Amazon S3) ❏ 構造化・準構造化・非構造化データ形式問わず「生のデータ」を格納し、必要な時に加工して利用される (Schema On Read)
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか データウェアハウス DWH(データウェアハウス)は、 BI(ビジネスインテリジェンス)や意思決定支援で広く利用されている。しかし、 DWHは「構造化データ」に特化しており、非構造化・半構造化データの処理が難しく、高速処理やコスト面でも
課題がある。 データレイク DWHの課題を補うため、機械学習やデータサイエンス向けに「データレイク」が登場。 データレイクは低コストで多様な形式の生データを格納できるが、トランザクション管理やデータ品質の保証が ない。データの一貫性がなく、リアルタイム処理やストリーミングデータとの統合が困難。
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか 2層データアーキテクチャ(データレイク+ DWH) データレイクとDWHを組み合わせることで、 BI
と ML(機械学習) の両方を実行可能になり、現在広く利用され ている。 しかし、2層になることでデータのサイロ化(データの分断)により新たな課題が発生
©BLUEISH 2025. All rights reserved. サイロ化による課題 運用負担の増大 ❏ データはデータレイクに保存された後、 ETL処理(データの抽出・変換・書き出し)を経て
DWHにコピーさ れるときデータが二重管理になる。そのためストレージコストが 2倍になる ❏ DWHにコピーされるたびに ETL処理が発生し、コンピューティングコスト増大 ❏ データレイクとDWHを別々に管理する必要があり、運用やデータパイプラインが複雑化 ❏ BIとMLで異なるデータストアを利用するため、データを統合的に活用できない ❏ ETL処理を通じてデータをコピーすることで、データの更新が遅れたり、古いデータと新しいデータが混 在するリスク ❏ データストア間での整合性チェックが必要で、 ETLでエラー発生時にはリカバリ対応が必要になる
©BLUEISH 2025. All rights reserved. サイロ化による課題 アクセス管理の煩雑さとセキュリティリスクの増加 ❏ データレイクとDWHで異なる複数のデータストアを利用していることでアクセス権限の設定が増えためア クセス管理が煩雑になる。また、アクセス制限のミスが発生しやすくセキュリティリスクが高まる
❏ 機密データの管理が煩雑になり、セキュリティリスクが高まる。データが DWHに移動する際に暗号化や マスキングが適用されていないなど想定される
©BLUEISH 2025. All rights reserved. サイロ化による課題 リアルタイム性の欠如 ❏ データレイクからDWHへのETL勝利が必要であり、ETL処理がバッチであるため、リアルタイム性を失 う。そのためリアルタイムでデータを活用することが難しい。
©BLUEISH 2025. All rights reserved. SageMaker Lakehouseによる課題の解決 データの統合管理 SageMaker Lakehouse
はデータレイク(S3)と データウェアハウス(Redshift) のデータを統合し、データを一元 管理する「レイクハウス」アーキテクチャを実現 ✅データストアが統合されることによって、サイロ化によるデータの二重管理、データストアの分散管理、アク セス管理の煩雑さ、セキュリティリスクの増加の課題が解決
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 ゼロETL統合 ゼロETL統合とは、ETLを行わずに運用データベースやアプリケーションからのデータをほぼリアルタイムで レイクハウスに取り込むことができる機能 ✅リアルタイム性の欠如、コスト増大、運用負担など
ETLによるボトルネックを解決 サポート状況 以下8 つのアプリケーションとのゼロ ETL 統合をサポート DynamoDB、Aurora、RDS for MySQL 、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、 Instagram 広告、Zendesk、SAP
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 フェデレーテッドクエリ( Federated Query) フェデレーテッドクエリによって異なるデータソース(データレイク、
DWH、外部DBなど)に対して、データを移動 せずに1つの SQL クエリで分析を実行できる ❏ データをDWH に移動せずに、異なるデータソースを一元的に分析できる ❏ AWS 外のデータソース(Google BigQuery, Snowflake, MySQL, PostgreSQL など)とも統合可能
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 Apache Iceberg トランザクションに対応し、データレイク上で DWHのような高度なデータ管理を可能にする
❏ DWHと同じように、データレイク上でデータの更新・削除・管理ができるように
©BLUEISH 2025. All rights reserved. まとめ 🛑課題(サイロ化の問題点) ✅SageMaker Lakehouse による解決策
データの二重管理 & コスト増大 S3とRedshiftの統合 ETLの運用負担 & リアルタイム性の欠如 ゼロETL統合により、ETL不要でリアルタイム データ活用が可能 アクセス管理の煩雑化 & セキュリティリスク 同一プラットフォームによる一元管理( IAM & RBAC )で、アクセス管理とセキュリティを最 適化