Slide 9
Slide 9 text
データレイクの考え方「Schema-on-Read」
abe, 95, 46, 85,
85
itoh, 89, 72, 46,
76, 34
ueda, 95, 13, 57,
63, 87
emoto, 50, 68,
38, 85, 98
otsuka, 13, 16,
67, 100, 7
katase, 42, 61,
90, 11, 33
{"name" : "cat",
"count" : 105}
{"name" : "dog",
"count" : 81}
{"name" : "rabbit",
"count" : 2030}
{"name" : "turtle",
"count" : 1550}
{"name" : "tiger",
"count" : 300}
{"name" : "lion",
"count" : 533}
{"name" : "whale",
"count" : 2934}
xxx.xxx.xxx.xxx - -
[27/Jan/2018:14:2
0:17 +0000] "GET
/item/giftcards/372
0 HTTP/1.1" 200
70 "-" "Mozilla/5.0
(Windows NT 6.1;
WOW64;
rv:10.0.1)
Gecko/20100101
Firefox/10.0.1"
ネイティブフォーマットを、そのまま蓄積
SELECT ~~~ FROM ~~~
WHERE ~~~ ORDER BY ~~~;
利用時にスキーマ(データ構造)を定義
Schema-on-
Write
• あらかじめスキーマ
(データ構造)を定義
した場所に書き込む
Pros
• 確実なデータ型
• ユーザー利便性
Cons
• データ型に準拠しない
データの埋没、柔軟性
欠如
Schema-on-
Read
• 保存時にはスキーマ
(データ構造)を定義し
ない
• 利用時にはじめて
スキーマ・データ構造を定
義し、Read を実施
Pros
• 将来の分析需要への対
応
• 保持データの柔軟性
Cons
• 利用の際にデータ型を定
義する必要があり、データ
利用のハードル増