Slide 4
Slide 4 text
データレイクとデータレイクハウス
4
©RAKUDEJI Inc, 2024.
Hive: 代表的なデータレイクのテーブルフォーマット
db1.table1というテーブルは/db1/table1というディレクトリに格納されるシンプルな構成
⾼速化のためにクラスタリングをサポート
`where k1=A`の時は/db/table1/k1=A以下だけを⾒れば良い
問題点
フォルダ=テーブルという構成はわかりやすいが効率が悪かった
遅い
例えばk1=Aに該当するファイルが数千万個になった場合に
S3のファイルスキャンが遅い(最⼤5500 ファイル/s)
整合性の問題
ファイルの削除順の問題
k1=Aに該当するファイルを削除中に読み取りが⾏われた
場合に不完全な結果を返す場合がある