Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ttnyt8701
March 05, 2025
Programming
80
2
Share
Amazon SageMaker Lakehouseでデータのサイロ化による課題を解決する
【AWS活用 AI/ML/LLM #5】機械学習/大規模言語モデル データエンジニアリング
https://blueish.connpass.com/event/347454/
ttnyt8701
March 05, 2025
More Decks by ttnyt8701
See All by ttnyt8701
Gemini CLI のはじめ方
ttnyt8701
1
290
ObsidianをMCP連携させてみる
ttnyt8701
3
6.1k
Claude Codeの使い方
ttnyt8701
2
430
FastMCPでMCPサーバー/クライアントを構築してみる
ttnyt8701
3
720
LangChain Open Deep Researchとは?
ttnyt8701
2
450
Vertex AI Agent Builderとは?
ttnyt8701
4
430
A2A(Agent2Agent )とは?
ttnyt8701
2
500
Amazon Bedrock LLM as a Judgeを試す
ttnyt8701
2
180
Amazon Sagemaker Jump Startを用いて爆速でモデルを作成してみる
ttnyt8701
3
110
Other Decks in Programming
See All in Programming
AI駆動開発勉強会 広島支部 第一回勉強会 AI駆動開発概要とワークショップ
hayatoshimiu
0
260
ECR拡張スキャンでSBOMを収集して サプライチェーン攻撃の影響調査を 爆速で終わらせてみた
akihisaikeda
1
170
Agentic UI in the Frontend: Architectures with Open Standards @JAX 2026 in Mainz
manfredsteyer
PRO
0
120
「OSSがあるなら自作するな」は AI時代も正しいか ── Build vs Adopt の新しい判断基準
kumorn5s
7
2.8k
AI時代だからこそ「Bloc」を採用する価値があるのかもしれない
takuroabe
0
200
横断組織出身のQAEがインプロセスQAEでつまずいたこと・活かせたこと
ty89
0
160
GoogleCloudとterraform完全に理解した
terisuke
1
200
Augmenting AI with the Power of Jakarta EE
ivargrimstad
0
580
AgentCore Optimizationを始めよう!
licux
3
260
密結合なバックエンドから TypeScript のコードを生成する
kemuridama
1
260
AlarmKitで明後日起きれるアラームアプリを作る
trickart
0
140
Skillは並べた。動かなかった。契約で繋いだ。— 65個のSkillから、自走する開発サイクルへ
junholee
0
660
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
55
9.9k
Claude Code のすすめ
schroneko
67
220k
What does AI have to do with Human Rights?
axbom
PRO
1
2.1k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
800
Optimizing for Happiness
mojombo
378
71k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
250
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
740
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
130
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
How GitHub (no longer) Works
holman
316
150k
[SF Ruby Conf 2025] Rails X
palkan
2
1k
Transcript
Amazon SageMaker Lakehouseでデータのサイロ化に よる課題を解決する 立野 祐太 2025.03.05 ©BLUEISH 2025. All
rights reserved.
©BLUEISH 2025. All rights reserved. ゴール Amazon SageMaker Lakehouseをざっくりと理解する
立野 祐太 Yuta Tateno Go、GCPを用いたWEB開発をしています。 WEBエンジニア 自己紹介 ©BLUEISH 2024. All
rights reserved.
©BLUEISH 2025. All rights reserved. 目次 1. Amazon SageMaker Lakehouseとは
2. データパイプライン 3. データストアの種類 4. データストアはどのように利用されているか 5. サイロ化による課題 6. Amazon SageMaker Lakehouseによる課題の解決 7. レイクハウスを実現するための機能 8. まとめ
©BLUEISH 2025. All rights reserved. Amazon SageMaker Lakehouseとは データレイク、データウェアハウスなど複数のデータソースを統合し、各データに統一されたインターフェイスか らのアクセスを可能にすることでデータ管理・分析・開発を効率的にするプラットフォーム
データパイプライン ©BLUEISH 2025. All rights reserved. データ活用するまでのデータのフロー。SageMaker Lakehouseは”データ保存”のデータレイク・DWHを統合 データ収集 データ加工
データ保存 データ活用 データグレンジング フォーマット変換 … データウェアハウス データレイク … 分析 機械学習 … 運用DB ログ API スクレイピング …
©BLUEISH 2025. All rights reserved. データストアの種類 データ基盤には主に2種類のデータストアが利用されている。 データウェアハウス (Amazon Redshift)
❏ 事前にデータを加工した「構造化データ」を格納し、利用される( Schema On Write) データレイク (Amazon S3) ❏ 構造化・準構造化・非構造化データ形式問わず「生のデータ」を格納し、必要な時に加工して利用される (Schema On Read)
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか データウェアハウス DWH(データウェアハウス)は、 BI(ビジネスインテリジェンス)や意思決定支援で広く利用されている。しかし、 DWHは「構造化データ」に特化しており、非構造化・半構造化データの処理が難しく、高速処理やコスト面でも
課題がある。 データレイク DWHの課題を補うため、機械学習やデータサイエンス向けに「データレイク」が登場。 データレイクは低コストで多様な形式の生データを格納できるが、トランザクション管理やデータ品質の保証が ない。データの一貫性がなく、リアルタイム処理やストリーミングデータとの統合が困難。
©BLUEISH 2025. All rights reserved. データストアはどのように利用されているか 2層データアーキテクチャ(データレイク+ DWH) データレイクとDWHを組み合わせることで、 BI
と ML(機械学習) の両方を実行可能になり、現在広く利用され ている。 しかし、2層になることでデータのサイロ化(データの分断)により新たな課題が発生
©BLUEISH 2025. All rights reserved. サイロ化による課題 運用負担の増大 ❏ データはデータレイクに保存された後、 ETL処理(データの抽出・変換・書き出し)を経て
DWHにコピーさ れるときデータが二重管理になる。そのためストレージコストが 2倍になる ❏ DWHにコピーされるたびに ETL処理が発生し、コンピューティングコスト増大 ❏ データレイクとDWHを別々に管理する必要があり、運用やデータパイプラインが複雑化 ❏ BIとMLで異なるデータストアを利用するため、データを統合的に活用できない ❏ ETL処理を通じてデータをコピーすることで、データの更新が遅れたり、古いデータと新しいデータが混 在するリスク ❏ データストア間での整合性チェックが必要で、 ETLでエラー発生時にはリカバリ対応が必要になる
©BLUEISH 2025. All rights reserved. サイロ化による課題 アクセス管理の煩雑さとセキュリティリスクの増加 ❏ データレイクとDWHで異なる複数のデータストアを利用していることでアクセス権限の設定が増えためア クセス管理が煩雑になる。また、アクセス制限のミスが発生しやすくセキュリティリスクが高まる
❏ 機密データの管理が煩雑になり、セキュリティリスクが高まる。データが DWHに移動する際に暗号化や マスキングが適用されていないなど想定される
©BLUEISH 2025. All rights reserved. サイロ化による課題 リアルタイム性の欠如 ❏ データレイクからDWHへのETL勝利が必要であり、ETL処理がバッチであるため、リアルタイム性を失 う。そのためリアルタイムでデータを活用することが難しい。
©BLUEISH 2025. All rights reserved. SageMaker Lakehouseによる課題の解決 データの統合管理 SageMaker Lakehouse
はデータレイク(S3)と データウェアハウス(Redshift) のデータを統合し、データを一元 管理する「レイクハウス」アーキテクチャを実現 ✅データストアが統合されることによって、サイロ化によるデータの二重管理、データストアの分散管理、アク セス管理の煩雑さ、セキュリティリスクの増加の課題が解決
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 ゼロETL統合 ゼロETL統合とは、ETLを行わずに運用データベースやアプリケーションからのデータをほぼリアルタイムで レイクハウスに取り込むことができる機能 ✅リアルタイム性の欠如、コスト増大、運用負担など
ETLによるボトルネックを解決 サポート状況 以下8 つのアプリケーションとのゼロ ETL 統合をサポート DynamoDB、Aurora、RDS for MySQL 、Zoho CRM、Salesforce、Salesforce Pardot、ServiceNow、Facebook 広告、 Instagram 広告、Zendesk、SAP
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 フェデレーテッドクエリ( Federated Query) フェデレーテッドクエリによって異なるデータソース(データレイク、
DWH、外部DBなど)に対して、データを移動 せずに1つの SQL クエリで分析を実行できる ❏ データをDWH に移動せずに、異なるデータソースを一元的に分析できる ❏ AWS 外のデータソース(Google BigQuery, Snowflake, MySQL, PostgreSQL など)とも統合可能
©BLUEISH 2025. All rights reserved. レイクハウスを実現するための機能 Apache Iceberg トランザクションに対応し、データレイク上で DWHのような高度なデータ管理を可能にする
❏ DWHと同じように、データレイク上でデータの更新・削除・管理ができるように
©BLUEISH 2025. All rights reserved. まとめ 🛑課題(サイロ化の問題点) ✅SageMaker Lakehouse による解決策
データの二重管理 & コスト増大 S3とRedshiftの統合 ETLの運用負担 & リアルタイム性の欠如 ゼロETL統合により、ETL不要でリアルタイム データ活用が可能 アクセス管理の煩雑化 & セキュリティリスク 同一プラットフォームによる一元管理( IAM & RBAC )で、アクセス管理とセキュリティを最 適化