Let's play Flink - Fun with streaming applications at InnoGames

Volker Janz Let‘s play Flink Big Data

LET´S PLAY FLINK Fun with streaming applications

LET‘S GO ON A ROADTRIP

IMAGINE You are driving with your family on the backseat

IMAGINE There is a lot of traffic, you have to
concentrate

IMAGINE And now, while driving, you are closing your eyes

HOW DO YOU FEEL?

WOULD YOU EVER DO THAT? NOPE

METAPHOR The car is your company, team or project The
passengers are your colleagues

WOULD YOU EVER DO THAT? NOPE IN A METAPHORICAL SENSE

YOU HAVE TO PROCESS DATA ON TIME AS IT HAPPENS

BATCH PROCESSING… …might cause accidents Because…

https://mapr.com/ebooks/streaming-architecture/chapter-01-why-event-streaming.html © Ellen Friedman, Ted Dunning

SIMILARITIES MAKE US HAPPY

SIMILARITIES WHICH TASTES BETTER?

SIMILARITIES THE FIRST IMPRESSION COUNTS The moment the customer enters
the shop or the player plays his first session is crucial HALO EFFECT When one trait of a person or thing is used to make an overall judgment of that person or thing

IN ORDER TO MAKE A POSITIVE IMPACT A RESPONSE NEEDS
TO HAPPEN QUICKLY

TIME-VALUE OF INFORMATION

REAL-TIME USER REPORTS TRAFFIC GAS PRICE SPEED TRAPS

RESPOND TO LIFE AS IT HAPPENS

BACK TO OUR TOPIC Let‘s have fun with streaming applications

STREAM PROCESSING STREAMS OF DATA GPS DATA WEB INTERACTION SENSOR
DATA

STREAM PROCESSING PROCESSING DATA IN MOTION

STREAM PROCESSING YOUR CODE SOURCE SINK OPERATOR

STREAM PROCESSING LAKE

STREAM PROCESSING LAKE Real-Time Processing Explained: A Survey of Storm,
Samza, Spark & Flink Wolfram Wingerath Cinema 6 15:00

STREAM PROCESSING LAKE

APACHE FLINK

APACHE FLINK Framework and distributed process engine for stateful computations
on unbounded and bounded data streams

EVERYTHING IS A STREAM UNBOUNDED STREAMS BOUNDED STREAMS

EVERYTHING IS A STREAM UNBOUNDED STREAMS BOUNDED STREAMS AKA BATCH
PROCESSING

TIME IN STREAMING EPISODE I EPISODE II EPISODE III EPISODE
IV EPISODE V EPISODE VI EPISODE VII EPISODE VIII EPISODE IX 1999 2002 2005 1977 1980 1983 2015 2017 2019 The Phantom Menace Attack of the Clones Revenge of the Sith A New Hope The Empire Strikes Back Return of the Jedi The Force Awakens The Last Jedi ? ORDERED BY EVENT TIME PROCESSING TIME

TIME IN STREAMING EPISODE I EPISODE II EPISODE III EPISODE
IV EPISODE V EPISODE VI EPISODE VII EPISODE VIII EPISODE IX 1999 2002 2005 1977 1980 1983 2015 2017 2019 The Phantom Menace Attack of the Clones Revenge of the Sith A New Hope The Empire Strikes Back Return of the Jedi The Force Awakens The Last Jedi ? EVENT TIME ORDERED BY PROCESSING TIME

TUMBLING WINDOWS 9 1 3 2 6 8 1 3
9 8 4 5 9 1 3 2 6 8 1 3 9 8 4 5 15 18 26 SENSOR SUM

SLIDING WINDOWS 9 1 3 2 6 8 1 3
9 8 4 5 9 1 3 2 6 8 1 3 9 8 4 5 9 1 3 2 6 8 1 3 9 8 4 5 15 18 26 19 21 SENSOR SUM

EXACTLY-ONCE EXACTLY-ONCE IN FLINK Each incoming event affects the final
result exactly once It does not necessarily mean that each event gets processed only once Achieved with distributed snapshot/state checkpointing

BUILDING BLOCKS DATA SOURCE TRANSFORMATION DATA SINK

BUILDING BLOCKS DATA SOURCE TRANSFORMATION DATA SINK API

BUILDING BLOCKS SQL / TABLE API DataStream API ProcessFunction APIs
(dynamic tables) (streams, windows) (events, state, time) HIGH LEVEL ANALYTICS API STREAM AND BATCH DATA PROCESSING STATEFUL EVENT- DRIVEN APPLICATIONS CONCISENESS EXPRESSIVENESS

LET‘S HAVE A CLOSER LOOK

LET‘S HAVE A CLOSER LOOK final StreamExecutionEnvironment env = getExecutionEnvironment();
final DataStreamSource<Integer> stream = env.fromElements(1, 2, 3, 4); stream .map((MapFunction<Integer, Integer>) i -> i + 2) .filter((FilterFunction<Integer>) i -> i % 2 == 0) .print(); env.execute(); DATA SOURCE TRANSFORMATION DATA SINK

RUNTIME YOUR FLINK APP FLINK RUNTIME D E P LOY

RUNTIME

RABBIT HOLE

RUNTIME SOURCE MAP PRINT FILTER STREAMING DATAFLOW (CONDENSED VIEW) OPERATOR
CHAIN OPERATOR OPERATOR TASK TASK TASK SOURCE MAP PRINT FILTER OPERATOR CHAIN OPERATOR OPERATOR SUBTASK SUBTASK TASK SOURCE MAP FILTER OPERATOR CHAIN OPERATOR SUBTASK SUBTASK STREAM PARTITIONS STREAMING DATAFLOW (PARALLELIZED VIEW)

RUNTIME SOURCE MAP PRINT FILTER OPERATOR CHAIN OPERATOR OPERATOR SUBTASK
SUBTASK TASK SOURCE MAP FILTER OPERATOR CHAIN OPERATOR SUBTASK SUBTASK STREAM PARTITIONS STREAMING DATAFLOW (PARALLELIZED VIEW) A Flink cluster has a JOB MANAGER and multiple TASK MANAGERS. Each of those is a JVM.

RUNTIME Each Task Manager can manage MULTIPLE THREADS executing TASKS
/ SUBTASKS. SOURCE MAP PRINT FILTER OPERATOR CHAIN OPERATOR OPERATOR THREAD THREAD THREAD SUBTASK SUBTASK TASK SOURCE MAP FILTER OPERATOR CHAIN OPERATOR THREAD THREAD SUBTASK SUBTASK STREAM PARTITIONS STREAMING DATAFLOW (PARALLELIZED VIEW)

CHECKPOINTING checkpoint barrier n checkpoint barrier n-1 checkpoint n+1 checkpoint
n checkpoint n-1 Consistent, incremental snapshots of distributed data stream and operator state Based on a paper from 1985, inspired by the Chandy-Lamport-Algorithm

STATE OPERATOR STATE KEYED STATE Bound only to an operator
Bound to an operator and key PLUGGABLE BACKEND MULTIPLE PRIMITIVES SUPPORTED GUARANTEED CONSISTENCY IN CASE OF A FAILURE

INNOGAMES STREAMING

COMPANY SNAPSHOT More than 400 employees Founded 2007 in Germany
Headquarter in Hamburg +160m EUR revenue made in 2017 7 live games >30 language versions

I AM LEGEND OUR PORTFOLIO Simulation Strategy RPG Browser Multi-device
Mobile

EVENT TRACKING quest build fight invite

EVENT TRACKING 1.000.000.000 EVENTS PER DAY

DATA ARCHITECTURE DATA PIPELINE DATA PLATFORM milliseconds, seconds, minutes hours,
days, years

DATA ARCHITECTURE EVENT CLIENT EVENT CLIENT EVENT CLIENT EVENT GATEWAY
EVENT BUS STREAM PROCESSING DISTRIBUTED DATA STORE DISTRIBUTED BATCH PROCESSING BI

DATA ARCHITECTURE EVENT CLIENT EVENT CLIENT EVENT CLIENT EVENT GATEWAY
EVENT BUS DISTRIBUTED DATA STORE DISTRIBUTED BATCH PROCESSING BI STREAM PROCESSING

USE CASE EVENT METRICS

Metrics.java stream .map(streamEvent -> new Tuple2<>(streamEvent.getEventName(), 1)) .keyBy(0) .timeWindow(Time.minutes(1)) .sum(1)
.addSink(graphiteSink).setParallelism(1).name("event_counts");

USE CASE EVENT METRICS

USE CASE LOG00 MONITOR

KeyedStream<StreamEvent, Integer> stream = events .filter(event -> Arrays.asList("reg", "login").contains(event.getEventName())) .keyBy((KeySelector<StreamEvent,
Integer>) StreamEvent::getPlayerId); Log00.java

Pattern<StreamEvent, StreamEvent> pattern = Pattern.<StreamEvent>begin("reg").where(new SimpleCondition<StreamEvent>() { @Override public boolean
filter(StreamEvent event) { return event.getEventName().equals("reg"); } }).followedBy("login").where(new SimpleCondition<StreamEvent>() { @Override public boolean filter(StreamEvent event) { return event.getEventName().equals("login"); } }).within(Time.seconds(60)); Log00.java

PatternStream<StreamEvent> patternStream = CEP.pattern(stream, pattern); DataStream<Either<PatternResult, PatternResult>> patternResultStream = patternStream.select(
(p, ts) -> sendTimeoutToGraphite(p, ts), p -> sendSuccessToGraphite(p) ); Log00.java

USE CASE LOG00 MONITOR

USE CASE NEAR TIME CRM (NTCRM)

USE CASE NTCRM EVENT BUS EVENT CLIENT EVENT GATEWAY PLAYER
DATA NTCRM React to events with interstitials in less than 10 seconds

USE CASE NTCRM Elvenar has a trading feature that sometimes
causes confusion. With NTCRM we can react to this and show more details within interstitials exactly when the player needs it.

JUST DO IT DEMO TIME Check it out on Github:
https://github.com/prenomenon/codetalks-flinkdemo

GET IN TOUCH InnoGames GmbH Friesenstrasse 13 20097 Hamburg http://www.innogames.com
Volker Janz Senior Software Developer Corporate Systems - Analytics

GET IN TOUCH @prenomenon feedback appreciated

Great Flink training: http://training.data-artisans.com

THAT’S IT FOR NOW… @prenomenon feedback appreciated

BACKUP / DETAILS The following slides are not part of
my talk but might give the reader more insights later

SQUIRREL TESTS <dependency <groupId>org.apache.flink</groupId> <artifactId>flink-test-utils_2.11</artifactId> <version>1.6.1</version> </dependency>

WINDOWING KEYED NON-KEYED TASK 1 TASK N SOURCE TASK 1
SOURCE KEY 1 KEY N ALL DATA

STATE SOURCE MAP DATA SINK SOURCE MAP SUM(C,D) OFFSET OFFSET
SUM(A,B) AB CD

Let's play Flink - Fun with streaming applicati...

Let's play Flink - Fun with streaming applications at InnoGames

More Decks by Volker Janz

Other Decks in Programming

Featured

Transcript