Spark streaming HadoopCon 2016

NEAR REAL TIME

About Me • Mark Yang 楊擇中 • Taiwan Spark User
Group（台北）共同創辦人 • scala /akka /spark • Boundless Cloud 大千雲端技術經理

About Boundless Cloud

員工福利

本片開始

What is Spark Streaming

What is Spark Streaming 可擴展高吞吐容錯

Discretized Streams DStream

What is DStream • 連續的資料流 • 連續的RDD序列

Simple Example Word Count

Operations on DStreams • Transformation ◦ Stateless ◦ Stateful ◦
Window • Output

Stateless

Stateful- updateByKey val pairs = ... val wordCounts = pairs.updateStateByKey[Int](updateFunction
_) t-1 t t+1 t+2 t+3 pairs wordCounts ....

CheckPointing • Metadata ◦ Configuration ◦ DStream operations ◦ Incomplete
batches • Data

Window ❏ window length = 3 ❏ sliding interval =
2

Window Transformations • window (windowLength, slideInterval) • countByWindow (windowLength,slideInterval) •
reduceByWindow (func, windowLength,slideInterval) • reduceByKeyAndWindow (func,windowLength, slideInterval, [numTasks]) • reduceByKeyAndWindow (func, invFunc,windowLength, slideInterval, [numTasks]) • countByValueAndWindow (windowLength,slideInterval, [numTasks])

Output • print () • saveAsTextFiles (prefix, [suffix]) • saveAsObjectFiles
(prefix, [suffix]) • saveAsHadoopFiles (prefix, [suffix]) • foreachRDD (func)

foreachRDD-Design Pattern dstream.foreachRDD { rdd => val connection = createNewConnection()
rdd.foreach { record => connection.send(record) } } 1

foreachRDD-Design Pattern dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords =>
val connection = createNewConnection() partitionOfRecords.foreach(record => connection.send(record)) connection.close() } } 2

foreachRDD-Design Pattern dstream.foreachRDD { rdd => rdd.foreachPartition { partitionOfRecords =>
// ConnectionPool is a static, lazily initialized pool of connections val connection = ConnectionPool.getConnection() partitionOfRecords.foreach(record => connection.send(record)) ConnectionPool.returnConnection(connection) // return to the pool for future reuse } } 3

DStream+RDD 與MLlib及Dataframe交互操作 • MLlib: Streaming Linear Regression, Streaming KMeans ...等
• Dataframe

Example DStream+DataFrame words.foreachRDD { rdd => val sparkSession = //
SQLContext.getOrCreate(rdd.sparkContext) //spark 1.x SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate() //spark 2.0 import sparkSession.implicits._ val wordsDataFrame = rdd.toDF("word") wordsDataFrame // .registerTempTable("words") //spark 1.x .createOrReplaceTempView("words") //spark 2.0 val wordCountsDataFrame = sparkSession.sql("select word, count(*) as total from words group by word") wordCountsDataFrame.show() }

Thank You

Receivers

Spark Streaming Custom Receivers

Kafka Cluster 什麼是Kafka Producer & Consumer producer producer producer consumer
consumer consumer

Offset 什麼是Kafka Topic & Partition & Offset

什麼是Kafka Broker

什麼是 Kafka • Producer • Consumer • Broker • Topic
• Partition

開始使用 Kafka • 啟動Zookeeper bin/zookeeper-server-start.sh config/zookeeper.properties • 啟動Kafka Server bin/kafka-server-start.sh
config/server.properties

• 創建Topic bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1
--topic test • 取得Topic列表 bin/kafka-topics.sh --list --zookeeper localhost:2181 開始使用 Kafka

• 發送消息 bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test • 接收消息 bin/kafka-console-consumer.sh
--zookeeper localhost:2181 --topic test --from-beginning 開始使用 Kafka

Kafka＋Spark Streaming • Receiver-based

Kafka＋Spark Streaming • Direct

Thank You

Spark streaming HadoopCon 2016

Spark streaming HadoopCon 2016

More Decks by Erica Li

Other Decks in Technology

Featured

Transcript