Slide 7
Slide 7 text
@yuki_saito_en
7
オープンテーブルフォーマット
ソフトウェアエンジニアリングの世界観をデータ分析基盤へ
データレイク /DWH(with Parquet)
1. トランザクション性がない
○ 一部の書き込みが失敗でデータが不整合状態に
○ 更新操作が困難(上書きや削除が手間)。
2. パフォーマンスの問題
○ スモールファイル問題
3. 一般的な開発のプロセスと統合しにくい
○ 「今」を管理することに主眼
i. DEV/ST/PRODのような使い分けがしづらい
ii. メタデータ(スキーマなど)の変更履歴が追いにくい
データレイク /DWH(with オープンテーブルフォーマット )
1. トランザクション性を一部サポート
○ ファイル単位のトランザクションであることには注意
○ 行レベルでの変更が可能に
2. パフォーマンス問題の解決がシンプルに
○ コンパクションの登場
3. 一般的な開発のプロセスと統合がしやすく
○ ブランチング機能/タイムトラベル
○ メタデータ管理がより統合しやすく
i. 現在だけでなく履歴を管理可能に
ii. REST API形式でクラウドネイティブに
○ (本番のデータを利用するものの
)
i. データの使い分けの管理が格段に上昇