Slide 6
Slide 6 text
そもそもデータレイクとは?
• 現在を断面的に見てもわからないので、実現方法別に表で比較(参考)
表計算ソフト RDBMS データウェアハウス データレイク
AWSサービス EC2 / RDP RDS / Aurora Redshift S3,Glue,Lake
Formation
データサイズ ~数十 MB 数百GB~1TB TB~数PB PB~EB
データ構造 構造化データ 構造化データ 構造化データ 構造化データ
半構造化データ
非構造化データ
システム間連携 基本できない 連携コストが高い
サイロ化しやすい
連携コストが高い
サイロ化しやすい
単一のデータソースを
提供
HW価格 - - 高性能アプライアンス
ハイエンドストレージ
安価なストレージを利
用
アーキテクチャ
課題 データサイズ
データ共有
データサイズ
システム連携の費用
Trueデータのありか
高価なHW
データサイズ
システム連携の費用
Trueデータのありか
データソースのアクセ
ス管理
HUB HUB
DWH DWH DWH
データソース
データレイク
分析/可視化
SYS1 SYS2
#jawsug #jawsug_Nagoya
6/20