А в таблицу Б • Мы пишем Spark Streaming джобу, которая состоит из двух шагов: взять и положить с минимальными трансформациями • Дальше мы пишем для неё тесты, отдельный CI, кастомный мониторинг • ...
паттерны • Low-latency processing • Stateful stream processing • Обработка потоков со сложной топологией Но Spark же всё это умеет?! Да, но недавно и не в полной мере
А всё что не batch - мелко покрошить и будет mini batch Представители: • MapReduce • Spark Dataflow model • Всё есть stream • Batch - просто конечный stream Представители: • Flink • Beam (Google Dataflow)
• Streaming 101: The world beyond batch • The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in Massive-Scale, Unbounded, Out-of-Order Data Processing