Real-time Learning with Spark

Real-time Learning with Spark MADRID · NOV 18-19 · 2016
Moisés Martínez

Acerca de mi PhD en Ciencias de la Computación Planificación
de Tareas Aprendizaje Automático No supervisado Aprendizaje Automático por Refuerzo Organizador T3chFest https://t3chfest.uc3m.es Lead Data Scientist en beBee - Affinity Networking https://es.linkedin.com/in/momartinm @moisipm

¿Qué es Real-time learning?

¿Qué es Real-time learning? Construir modelos mediante datos obtenidos en
tiempo real

¿Por qué Real-time learning?

¿Por qué Real-time learning? Ingente cantidad de datos 400 millones
300 millones tweets 4.5 billones likes 20 billones

¿Por qué Real-time learning? Ingente cantidad de datos Razonar en
tiempo real es útil y necesario

¿Para qué nos sirve el real-time Learning ? ◉ Streaming
ETL (Extract, Transform and Load) ◉ Detección de anomalías en datos de servidores ◉ Enriquecimiento de datos (redes sociales) ◉ Detección de anomalías en sensores ◉ Detección de fraude en transacciones bancarias ◉ …...

¿Qué necesitamos ? Recolección y almacenamient o de datos Aprendizaje
Automático +

Aprendizaje Automático 1

¿Qué es el aprendizaje Automático?

¿Qué es el aprendizaje Automático? Proceso de construir sistemas capaces
de generalizar comportamientos y/o características a partir de una información no estructurada suministrada en forma de ejemplos.

¿Qué es el aprendizaje Automático? Proceso de construir sistemas capaces
de generalizar comportamientos y/o características a partir de una información no estructurada suministrada en forma de ejemplos. Datos no estructurados Algoritmos Modelo

Tipos de aprendizaje Supervisado Ejemplo etiquetados regresión (número) clasificación (clase)
Características resultado

Tipos de aprendizaje Supervisado Ejemplo etiquetados regresión (número) clasificación (clase)
No supervisado Ejemplos no etiquetados agrupación y clustering inferencia bayesiana Características resultado

Tipos de aprendizaje Por Refuerzo MDPs y POMDPs Acciones y
Estados Transiciones y refuerzo Supervisado Ejemplo etiquetados regresión (número) clasificación (clase) No supervisado Ejemplos no etiquetados agrupación y clustering inferencia bayesiana Características resultado

Detectando sillas Extractor de características patas 4 tipo largas color
marrón material cuero clase silla Silla

Detectando sillas patas 4 4 4 4 4 4 tipo
largas largas largas largas cortas cortas color marrón gris marrón veis rojo azul material cuero ante cuero plástico algodón algodón clase silla silla silla silla sillón sillón ...

blanco material cuero Modelo

blanco material cuero Modelo Silla

Importancia de los datos ◉ Calidad ◉ Diversidad ◉ Definición
de las características

Spark 2

¿Qué es Apache Spark?

¿Qué es Apache Spark? Streaming Algoritmos ML Graph Core NLP
…..

Configuración básica de un cluster SPARK + HDFS Data Node
Name Node Executor Spark Context Worker Executor Data Node Data Node Data Node Executor Worker Executor Executor Worker Executor Executor Worker Executor Driver

Name Node Executor Spark Context Worker Executor Data Node Data Node Data Node Executor Worker Executor Executor Worker Executor Executor Worker Executor Driver DataNode: Nodos de almacenamiento masivo

Name Node Executor Spark Context Worker Executor Data Node Data Node Data Node Executor Worker Executor Executor Worker Executor Executor Worker Executor Driver NameNode: Coordinación de namenode y almacenamientos de metadados

Name Node Executor Spark Context Worker Executor Data Node Data Node Data Node Executor Worker Executor Executor Worker Executor Executor Worker Executor Driver Workers: Nodos de ejecución (esclavos)

Name Node Executor Spark Context Worker Executor Data Node Data Node Data Node Executor Worker Executor Executor Worker Executor Executor Worker Executor Driver Executors: Procesos que ejecutan las diferentes tareas

RDD (Resilient Distributed Dataset) ◉ Resilient: Tolerancía a fallos mediante
RDD lineage graph ◉ Distributed: Datos están distribuidos en diferentes nodos ◉ Dataset: Colección de datos

Spark Streaming 3

¿Qué es Spark Streaming? z Datos Streaming Datos Estáticos Entrenamiento
de modelos Consultas interactivas Almacenamiento

¿Cómo funciona Spark Streaming ?

¿Cómo funciona Spark Streaming ? RDD RDD RDD RDD RDD
RDD Discretized Stream (DStream) Secuencia de RDDs t1 t2 t3 t4 t5 t6

Almacenando datos de Kafka en HDFS val conf = new
SparkConf().setAppName(appName).setMaster(master) val ssc = new StreamingContext( conf, Durations.seconds(5) ) Tiempo de lectura 5 segundos

SparkConf().setAppName(appName).setMaster(master) val ssc = new StreamingContext( conf, Durations.seconds(5) ) val kafkaParams = Map("metadata.broker.list" -> "svkafka1:9092,svkafka2:9092,svkafka3:9092")

SparkConf().setAppName(appName).setMaster(master) val ssc = new StreamingContext( conf, Durations.seconds(5) ) val kafkaParams = Map("metadata.broker.list" -> "svkafka1:9092,svkafka2:9092,svkafka3:9092") val topics = Set("sensors", "camera")

SparkConf().setAppName(appName).setMaster(master) val ssc = new StreamingContext( conf, Durations.seconds(5) ) val kafkaParams = Map("metadata.broker.list" -> "svkafka1:9092,svkafka2:9092,svkafka3:9092") val topics = Set("sensors", "camera") val data = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

SparkConf().setAppName(appName).setMaster(master) val ssc = new StreamingContext( conf, Durations.seconds(5) ) val kafkaParams = Map("metadata.broker.list" -> "svkafka1:9092,svkafka2:9092,svkafka3:9092") val topics = Set("sensors", "camera") val data = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) data.saveAsHadoopFiles("hdfs://...")

Generando un modelo con datos de Kafka val kafkaParams =
Map("metadata.broker.list" -> "svkafka1:9092,svkafka2:9092,svkafka3:9092") val topics = Set("sensors", "camera") val trainingData = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

Generando un modelo con datos de Kafka val trainingData =
KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) val model = new StreamingKMeans() .setK(10) .setDecayFactor(1.0) .setRandomCenters(12, 0.0)

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) val model = new StreamingKMeans() .setK(10) .setDecayFactor( 1.0) .setRandomCenters(12, 0.0)

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) val model = new StreamingKMeans() .setK(10) .setDecayFactor(1.0) .setRandomCenters( 12, 0.0)

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) val model = new StreamingKMeans() .setK(10) .setDecayFactor(1.0) .setRandomCenters(12, 0.0) model.trainOn(trainingData)

Hay un problema

Hay un problema Los centroides no se pueden cambiar Hay
que volver a aprender

¿De verdad funciona?

Conclusiones

GRACIAS! Preguntas? Puedes encontrarme en @moisipm / [email protected]

Necesitamos tu propuesta Leganés 9 y 10 de febrero Entrada
gratuita

Real-time Learning with Spark

Real-time Learning with Spark

More Decks by Moisés Martínez

Other Decks in Research

Featured

Transcript