Slide 3
Slide 3 text
© 2024 DATUM STUDIO Co. Ltd.
データパイプラインの処理⽅法
データ処理にはバッチ処理とストリーミング処理の⼆つがある
源泉システム
ストリーミング
DWH
Data Lake
バッチ
ü s3などにファイルを置いてもらう/ingestツールを使う
ü 源泉システムの断⾯を保持するため扱いやすい
ü Kafkaなどのメッセージングキューから連携
ü データの到着順が⼊れ替わることがあるので、ログ系のデータ向き
ü バッチでのLoadが間に合わない場合にも採⽤される
バッチ バッチ ストリーミング
ü ⼀括ですべてのデータを処理
ü マシンパワーの強い近年のDWH製品と相性が良い
ü viewやlambda viewによる実装
ü 分析に即時性が求められる場合に採⽤
される
ü 複雑な処理設計が必要になる
(個⼈的にはなるべく避けたい)
(同左)
① ②
※ほんとはもっと⾊々あるけど本筋ではないので割愛
①Extract/Load
(データ抽出/取り込み)
②Transform
(データ変換)