Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
AWSで推進するデータマネジメント
Search
かわなご
September 03, 2025
Technology
1
1.9k
AWSで推進するデータマネジメント
かわなご
September 03, 2025
Tweet
Share
Other Decks in Technology
See All in Technology
聲の形にみるアクセシビリティ
tomokusaba
0
170
JAWSDAYS2026_A-6_現場SEが語る 回せるセキュリティ運用~設計で可視化、AIで加速する「楽に回る」運用設計のコツ~
shoki_hata
0
3k
Oracle Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
4
1.2k
OCI Security サービス 概要
oracle4engineer
PRO
2
13k
GitLab Duo Agent Platform + Local LLMサービングで幸せになりたい
jyoshise
0
280
最強のAIエージェントを諦めたら品質が上がった話 / how quality improved after giving up on the strongest AI agent
kt2mikan
0
150
わたしがセキュアにAWSを使えるわけないじゃん、ムリムリ!(※ムリじゃなかった!?)
cmusudakeisuke
1
500
ランサムウエア対策してますか?やられた時の対策は本当にできてますか?AWSでのリスク分析と対応フローの泥臭いお話。
hootaki
0
110
Claude Code Skills 勉強会 (DevelersIO向けに調整済み) / claude code skills for devio
masahirokawahara
1
15k
20260311 ビジネスSWG活動報告(デジタルアイデンティティ人材育成推進WG Ph2 活動報告会)
oidfj
0
260
プロジェクトマネジメントをチームに宿す -ゼロからはじめるチームプロジェクトマネジメントは活動1年未満のチームの教科書です- / 20260304 Shigeki Morizane
shift_evolve
PRO
1
250
クラウド × シリコンの Mashup - AWS チップ開発で広がる AI 基盤の選択肢
htokoyo
2
180
Featured
See All Featured
Pawsitive SEO: Lessons from My Dog (and Many Mistakes) on Thriving as a Consultant in the Age of AI
davidcarrasco
0
82
Bash Introduction
62gerente
615
210k
KATA
mclloyd
PRO
35
15k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
230
Building AI with AI
inesmontani
PRO
1
780
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
860
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
100
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
140
How to train your dragon (web standard)
notwaldorf
97
6.6k
The Curse of the Amulet
leimatthew05
1
9.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
130
Transcript
AWSで推進する データマネジメント 川中⼦ 凌平 データ事業本部 ビジネスソリューション部
⾃⼰紹介 2 名前:川中⼦凌平 (かわなごりょうへい) 所属:データ事業本部 ビジネスソリューション部 データマネジメント推進グループ 所在:栃⽊→東京→神奈川→北海道→東京→兵庫 業務:データ分析基盤構築 https://dev.classmethod.jp/author/kawanago-ryohei/
今⽇話すこと 本セッションについて 3 • データマネジメントとは何かについて簡単に説明 • AWSにおけるデータマネジメント活動を⽀えるサービスについて • アーキテクチャを実現するサービス活⽤例の紹介 こんな⼈向け
• データマネジメントに関⼼を持っている⽅ • データ基盤の構築や管理に関わっている⽅
データマネジメントとは
データマネジメントとは 5 データマネジメントとは、企業や組織が持つ様々なデータを価値ある資産として 適切に管理‧活⽤するための取り組みです。 • 品質の担保:正確性‧完全性‧⼀貫性の確保 • セキュリティ:適切なアクセス制御と監査 • 可⽤性:必要な時はすぐにデータにアクセス可能
• ガバナンス:組織全体での統⼀的な管理 簡潔に⾔うと⾼品質なデータを誰もが、いつでも、安全に使える状態を保つ活動
データマネジメント活動のノウハウが 体系的にまとめられたDMBOKが有名。 国際⾮営利団体 DAMA Internationalに よって定義されている。 DMBOKによるとデータマネジメントは、 11の知識領域で説明されている。 データマネジメントとは 6
https://www.dama-japan.org/DMBOK2ImageDownLoad.html
データマネジメント活動のノウハウが 体系的にまとめられたDMBOKが有名。 国際⾮営利団体 DAMA Internationalに よって定義されている。 DMBOKによるとデータマネジメントは、 11の知識領域で説明されている。 データマネジメントとは 7
https://www.dama-japan.org/DMBOK2ImageDownLoad.html
なぜデータマネジメントが必要なのか 8 企業が陥りがちなデータ管理の問題「データのサイロ化」 部⾨ごとに異なるデータ管理場所が存在してしまい、 • 異なる情報が同名のカラムで管理されていて整合性が取れない • データの在処は担当者のみが把握している • アクセス権限の管理状況が把握できない
https://logmi.jp/main/technology/324242 このようなデータ管理の課題に対して、 AWSは様々なサービスを展開している
データマネジメントとAWS
Lakehouseアーキテクチャ 10 • データの集約 • サービスの相互運⽤性 • 統⼀されたアクセス管理 https://docs.aws.amazon.com/whitepapers/latest/best-practices-building-data-lake-for-games/lake-h ouse-architecture.html
サイロ化の解決
Lakehouseを⽀えるカタログサービス 11 https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-DataZone-Overview_1231_v1.pdf アクセス権限管理 https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_AWS-Lake-Formation_1010_v1.pdf データカタログサービス
Amazon LakeFormation 12 とは?:データアクセスを⼀元管理するサービス https://aws.amazon.com/jp/lake-formation/ 様々なデータソースを集約 アクセスできるデータを ⾏や列単位でコントロール データセキュリティ
Amazon DataZone 13 とは?:組織内のデータをカタログとして公開するデータ管理サービス 組織で管理しているカタログに対して任意のデータを公開することで、 特定のユーザーが⾃由にデータを検索し、利⽤申請をすることができる。 https://aws.amazon.com/jp/blogs/news/visualize-massive-amounts-of-internal-data-using-amazon-datazone/
Amazon DataZone 14
Amazon DataZone 15 Aテーブルを公開 Aテーブル使いたい 承認! 分析! データガバナンス
Amazon DataZone 16 https://dev.classmethod.jp/articles/20240410-amazon-datazone-ai-recommendations/ AIリコメンデーション機能により、ビジネスメタデータの登録を効率化できる。 ⽣成されたメタデータを編集して登録することも可能。 メタデータ管理
17 https://aws.amazon.com/jp/sagemaker/ 次世代 Amazon SageMakerの登場 分析やガバナンス向けサービスを包括したサービスが公開された。
18 https://aws.amazon.com/jp/sagemaker/
19 https://aws.amazon.com/jp/sagemaker/ 分析やAI開発ツールが統合 カタログ検索もサポート 様々なデータを集約
全体を統制 Lakehouseアーキテクチャ 20 https://docs.aws.amazon.com/whitepapers/latest/best-practices-building-data-lake-for-games/lake-h ouse-architecture.html データをどう 貯めるか
レイクハウスアーキテクチャを実現する サービスの活⽤例 〜構造データ〜
Apache Iceberg 22 とは?:データレイクで運⽤可能なオープンテーブルフォーマット データレイクにある構造データを、柔軟なテーブル形式として利⽤できる。 • スキーマエボリューション:後⽅互換性を保ちながらスキーマ変更可能 • ACID トランザクション:複数の同時書き込みでもデータ整合性を保証
• タイムトラベル機能:任意の時点のデータスナップショットを参照可能 • パーティション進化:再書き込みなしでパーティション⽅式を変更可能 オープンフォーマットによりベンダーロックインを回避でき、 データの統合と相互運⽤性を向上させる。 相互運⽤性
Apache Iceberg 23 しかしIcebergではファイルの管理が必要になる • 定期的なファイル圧縮や不要データ削除コマンドの実⾏ • ⽣成されるメタデータファイルへのアクセス管理 適切に管理ができないとクエリパフォーマンスが悪化し、コストも増加する これらを⾃動化してくれるのが...
Amazon S3 Tables 24 とは?:Apache Iceberg テーブル形式のマネージドサービス Iceberg テーブルに紐づくメタデータファイルの管理を⾃動化してくれる。 従来のIcebergテーブルの管理が⾃動化されることで、
ユーザーはテーブル内データの運⽤に集中できる。 • クエリ性能最適化:コンパクション(ファイル最適化)を⾃動実⾏ • ストレージ最適化:スナップショットを定期的にクリーンアップ • アクセス管理の簡素化:エンティティ(実体ファイル)をAWS側で管理
AWS Glue Data Quality 25 とは?:データの品質をルールに基づいて⾃動で検証するサービス データの品質を検査することで、ユーザーが安⼼して分析に利⽤できる。 • データ品質スコアの算出 •
ETLパイプラインへの統合 • CloudWatchとの連携 • カスタムルールの定義 データ品質
AWS Glue Data Quality 26 Icebergのブランチ機能とDataQualityによるデータ検証を組み合わせ、 品質が確認されたデータのみをユーザーに公開するフローも紹介されている。 https://aws.amazon.com/jp/blogs/big-data/build-write-au dit-publish-pattern-with-apache-iceberg-branching-and-aw s-glue-data-quality/
レイクハウスアーキテクチャを実現する サービスの活⽤例 〜⾮構造データ〜
Amazon S3 Vectors (プレビュー) 28 とは?:⼤規模なベクトル検索システムを低コストで実現するサービス OpenSearch Serverless S3 Vectors
コスト 処理量+ストレージ 非常に低コスト 検索方法 ハイブリッド検索 ベクトル検索のみ レイテンシ 非常に小さい (10ms) 小さい(1秒) ⾮構造データのベクトル検索に必要なベクトルを保存するストレージ。 従来のベクトルデータベースに⽐べて⼤幅なコスト削減(最⼤90%)が⾒込める。 より⼿軽に、⾮構造データを活⽤できる環境を構築できる。 ⾮構造データ活⽤
Amazon S3 Vectors (プレビュー) 29 https://aws.amazon.com/jp/blogs/news/introducing-amazon-s3-vectors-first-cloud-storage-with-native-vector-support-at-scale/ • Knowledge Base連携 •
OpenSearch Service連携 • APIによる直接検索
Amazon S3 Vectors (プレビュー) 30 https://dev.classmethod.jp/articles/amazon-s3-vectors-serverless-vector-database-jawsugsaga-jawsug/ APIによる検索は⾮常に簡単
Amazon S3 Metadata 31 とは?:S3オブジェクトのメタデータを⾃動でテーブル化するサービス ⾮構造データのメタデータをテーブルとして簡単に管理‧参照できる。 メタデータ管理
Amazon S3 Metadata 32 ジャーナル テーブル ライブインベントリ テーブル 作成 必須
オプション データ 変更履歴 最新状態のみ 反映 ほぼリアルタイム 1時間以内 S3 Metadataは2つのテーブルで構成される。
Amazon S3 Metadata 33 最新のみ 変更も記録
Amazon S3 Metadata 34 AWSのブログではQuickSightに連携して、 コスト管理やデータ理解に利⽤する例が紹介されている。
⾼品質なデータを誰もが、いつでも、安全に使えるデータ基盤 35 品質管理 アクセス管理 カタログ提供 ⾮構造データ活⽤ メタデータ管理
さいごに
• データを資産として活⽤するにはデータマネジメントが不可⽋ • サイロ化の解決策としてレイクハウスアーキテクチャが推奨 • 今後は次世代SageMakerがデータ利活⽤の中⼼になるかも • データレイク上でテーブル管理や品質検証も可能 • ⾮構造データの管理や活⽤に向けたサービスも展開されている
37 今⽇のまとめ 適切にサービスを選定して組織のデータを守りましょう。 本資料が少しでもデータマネジメント推進の参考になれば幸いです!
ご清聴ありがとうございました 38
None