son la ruta lógica que conecta los programas y transmite los mensajes … El remitente o producer (productor) es el programa que envía mensajes, escribiendo el mensaje en un canal El receptor o consumer (consumidor) es el programa que recibe los mensajes, leyéndolo (y eliminandolo) del canal.” Context: Messaging Enterprise Integration Patterns - Gregor Hohpe and Bobby Woolf http://www.enterpriseintegrationpatterns.com/patterns/messaging/Introduction.html
(a.k.a. Push Model) Broker a cargo de la entrega confiable de mensajes Event sourcing and stream processing at scale - Martin Kleppmann https://martin.kleppmann.com/2016/01/29/event-sourcing-stream-proce ssing-at-ddd-europe.html Implementations: JMS/AMQP
Cada Record tiene un Key (llave)… Los Records están ordenados… El Orden define la noción de “tiempo”... El Contenido no es importante en este punto, podría ser cualquiera … Registran que ha pasado y cuando. The Log: What every software engineer should know about real-time data's unifying abstraction - Jay Kreps https://engineering.linkedin.com/distributed-systems/log-what-every-software-engineer-should-know-about-real-time-datas-unifying
disco de forma consistente? Utiliza un log. Cómo las réplicas de una base de datos sincronizan con otras réplicas? Utiliza un log. Cómo los datos una actividad quedan registrados en un sistema como Apache Kafka? Utiliza un log. Cómo la infraestructura de tu aplicación se mantendrá robusta a escala? Adivina cómo… Using logs to build a solid data infrastructure (or why dual writes are a bad idea) - Martin Kleppmann https://www.confluent.io/blog/using-logs-to-build-a-solid-data-infrastructure-or-why-dual-writes-are-a-bad-idea/ https://www.confluent.io/blog/turning-the-database-inside-out-with-apache-samza/
externo está presente permite a los sistemas individuales abandonar una gran cantidad de complejidad y confiar en el log compartido.” The Log: What every software engineer should know about real-time data's unifying abstraction - Jay Kreps https://engineering.linkedin.com/distributed-systems/log-what-every-software-engineer-should-know-about-real-time-datas-unifying http://milinda.pathirage.org/kappa-architecture.com/
el problema de data pipeline en LinkedIn. ➔ Primeros use-cases: Recolectar métricas de sistemas y monitorear la actividad de usuarios. 2010: Open-sourced 2011: Apache project 2012: Graduated from incubator in October 2014: Confluent Inc. founded Kafka: The Definitive Guide - Neha Narkhede, Gwen Shapira & Todd Palino
requieren ser la misma Forward/Backward compatibility ➔ Agregar/eliminar campos con valores por defector ➔ Tipo `null` explicito (no optional/required markers) ➔ Posible cambiar data types ➔ Posible cambiar nombres (i.e. alias) Designing Data-Intensive Applications - Martin Kleppmann
broadcast “Fuente de verdad” interno de Kafka Usado para: ➔ Elección de Réplica Líder ➔ Sincronización réplicas (ISR) ➔ Y más Kafka Topology: Why Zookeeper? Distributed Consensus Reloaded: Apache Zookeeper and Replication in Kafka - Flavio Junqueira https://www.confluent.io/blog/distributed-consensus-reloaded-apache-zookeeper-and-replication-in-kafka/
3 días ➔ Más particiones ➔ Menor factor de replicación ➔ Disponibilidad es más importante Use case: Inventory adjustments ➔ Retención: 6 meses ➔ Menos particiones ➔ Mayor factor de replicación ➔ Consistencia es más importante Streaming in Practice: Putting Kafka in Production - Roger Hoover https://www.confluent.io/apache-kafka-talk-series/Streaming-in-Practice-Putting-Kafka-in-Production/
s. kafka_producer_ack_all_latency_sum/kafka_producer_ack_all_latency_count ack=* => 0.06375 s. Benchmarking Apache Kafka: 2 million writes per second on 3 cheap machines- Roger Hoover https://engineering.linkedin.com/kafka/benchmarking-apache-kafka-2-million-writes-second-three-cheap-machines
instance (group member) ➔ Consumer Groups as base of parallelism, with Partitions ➔ Ordering ensured by partition (+ keyed topics is normally enough) Multiple Consumers
luego de guardar su posición pero antes de procesar el mensaje. ➔ Result El proceso que retoma el procesamiento, empezará de la posición guardada, aún si algunos mensajes previos no han sido procesados.
luego de procesar los mensajes, pero antes de guardar su posición. ➔ Result Cuando el nuevo proceso retoma el procesamiento, los primeros mensajes que reciba pueden ya haber sido procesados.
and Interactive Queries in Apache Kafka - Eno Thereska https://www.confluent.io/blog/unifying-stream-processing-and-interactive-queries-in-apache-kafka/
Akka Streams http://doc.akka.io/docs/akka-stream-kafka/current/home.html ➔ Oracle Service Bus http://www.ateam-oracle.com/osb-transport-for-apache-kafka-part-1/
of data on the inside vs outside ➔ Schema not externally defined ➔ Same config for every clients/topics ➔ 128 partitions as default ➔ Running on 8 overloaded nodes Kafka Summit 2016: 101 ways to config Kafka - Badly https://www.confluent.io/ kafka-summit-2016-101-ways-to-configure-kafka-badly https://cwiki.apache.org/confluence/display/KAFKA/Operations