Slide 14
Slide 14 text
14
ファイルを収集する場合は最適なデータフォーマットを選択する
データの量を減らしたい場合は Parquet を検討する
● ファイルデータを収集するなかでよく問題になるのがデータ量である
● そこで、Apache Parquet (パーケット) の出番である
○ データをバイナリで表現するため、すべてをテキストで表現するCSVやJSONと比べて、データサイズが小さ
い
○ 「列指向圧縮」である → 詳細は2-15節で
○ データレイクに収集したParquetファイルをデータウェアハウスに取り込む場合に、CSVやJSONのファイルを
取り込むよりも早く取り込める
○ デメリットはAVROと同様、バイナリフォーマットなのでデータの中身の確認が困難なこと