Distributed Graph Processing with Scala and Akka (SVSS '13)

Distributed Graph Processing with Scala and Akka Adelbert Chang Saturday,
August 3, 13

About Me Saturday, August 3, 13

About Me •4th year student @ UC Santa Barbara •BS/MS
Computer Science Saturday, August 3, 13

Computer Science •Research Assistant •Large-scale graph mining and modeling •Cluster Computing Saturday, August 3, 13

Computer Science •Research Assistant •Large-scale graph mining and modeling •Cluster Computing •Engineering Analytics Intern @ Box Saturday, August 3, 13

Computer Science •Research Assistant •Large-scale graph mining and modeling •Cluster Computing •Engineering Analytics Intern @ Box •Scala since January 2012 Saturday, August 3, 13

Outline Saturday, August 3, 13

Outline •Motivation Saturday, August 3, 13

Outline •Motivation •Context and Assumptions Saturday, August 3, 13

Outline •Motivation •Context and Assumptions •User and System Requirements Saturday,
August 3, 13

Outline •Motivation •Context and Assumptions •User and System Requirements •Solution
Saturday, August 3, 13

Outline •Motivation •Context and Assumptions •User and System Requirements •Solution
•Live Demo! Saturday, August 3, 13

Motivation Saturday, August 3, 13

Motivation •Many of our algorithms are embarassingly parallel •Pregel model
is good, but too heavy for us Saturday, August 3, 13

Motivation •Many of our algorithms are embarassingly parallel •Pregel model
is good, but too heavy for us •Example: Shortest path •Split work on nodes •Run BFS, return a Map[Int, Int] Saturday, August 3, 13

Context + Assumptions Saturday, August 3, 13

Context + Assumptions •Studying large-scale static graphs, typically those found
in online social networks Saturday, August 3, 13

in online social networks •Cluster of around 30 machines Saturday, August 3, 13

in online social networks •Cluster of around 30 machines •Cluster shares a file system Saturday, August 3, 13

in online social networks •Cluster of around 30 machines •Cluster shares a file system •Graphs are large, but can fit into machine machine memory Saturday, August 3, 13

in online social networks •Cluster of around 30 machines •Cluster shares a file system •Graphs are large, but can fit into machine machine memory •We want “raw” results dumped straight to disk Saturday, August 3, 13

User Requirements Saturday, August 3, 13

User Requirements •Users should Saturday, August 3, 13

User Requirements •Users should •Not have to interact with Akka

•Only need to define the algorithm and the input Saturday, August 3, 13

•Only need to define the algorithm and the input •Be able to put an upper bound on number of threads per machine Saturday, August 3, 13

System Requirements Saturday, August 3, 13

System Requirements •The system should Saturday, August 3, 13

System Requirements •The system should •Be easy to deploy without
any cluster setup Saturday, August 3, 13

any cluster setup •Be fault tolerant Saturday, August 3, 13

any cluster setup •Be fault tolerant •Be elastic Saturday, August 3, 13

any cluster setup •Be fault tolerant •Be elastic •Graph should be loaded locally Saturday, August 3, 13

any cluster setup •Be fault tolerant •Be elastic •Graph should be loaded locally •Clean up and shut itself down afterwards Saturday, August 3, 13

Inspiration Saturday, August 3, 13

•Scala + Akka to the rescue! Inspiration Saturday, August 3,
13

Inspiration Saturday, August 3, 13

Inspiration •We want a balancing dispatcher for remoting Saturday, August
3, 13

Inspiration •We want a balancing dispatcher for remoting •Proxy mailbox
is backed by a number of Actors Saturday, August 3, 13

is backed by a number of Actors •Messages are sent to a proxy mailbox Saturday, August 3, 13

is backed by a number of Actors •Messages are sent to a proxy mailbox •Messages distributed to idle Actors Saturday, August 3, 13

Balancing Dispatcher http://letitcrash.com/post/29044669086/balancing-workload-across-nodes-with-akka-2 Saturday, August 3, 13

Solution Saturday, August 3, 13

Solution •Design the system to act similarly to a balancing
dispatcher Saturday, August 3, 13

dispatcher •A single Actor (Master) represents the dispatcher Saturday, August 3, 13

dispatcher •A single Actor (Master) represents the dispatcher •Each remote Actor (Worker) has it’s own mailbox Saturday, August 3, 13

dispatcher •A single Actor (Master) represents the dispatcher •Each remote Actor (Worker) has it’s own mailbox •Workers report to Masters when idle Saturday, August 3, 13

Design Decision Saturday, August 3, 13

Design Decision •Akka is capable of both remote lookup and
remote deployment Saturday, August 3, 13

remote deployment •Remote Deployment Saturday, August 3, 13

remote deployment •Remote Deployment •Master becomes connected to Worker automatically Saturday, August 3, 13

remote deployment •Remote Deployment •Master becomes connected to Worker automatically •Remote lookup Saturday, August 3, 13

remote deployment •Remote Deployment •Master becomes connected to Worker automatically •Remote lookup •Workers can be added/killed at runtime Saturday, August 3, 13

High-Level Design http://letitcrash.com/post/29044669086/balancing-workload-across-nodes-with-akka-2 Saturday, August 3, 13

Master Saturday, August 3, 13

Worker Saturday, August 3, 13

Sabre Saturday, August 3, 13

Application Saturday, August 3, 13

Application Application Sabre Master ResultHandler Saturday, August 3, 13

Application Application Sabre Master ResultHandler Sabre.execute() Saturday, August 3, 13

Application Application Sabre Master ResultHandler Sabre.execute() system.actorOf Saturday, August 3,
13

Application Application Sabre Master ResultHandler Sabre.execute() system.actorOf system.actorOf Saturday, August
3, 13

Application Application Sabre Master ResultHandler Sabre.execute() system.actorOf system.actorOf Worker Worker

WorkerCreated Saturday, August 3, 13

DoAlgorithm Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

WorkIsReady Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

WorkerRequestsWork Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

WorkToBeDone Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

HandleResult Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

WorkComplete Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

WorkIsDone Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

WorkIsDone Worker Worker Worker Application Sabre Master ResultHandler Worker Worker Saturday, August 3, 13

Future Work Saturday, August 3, 13

Future Work •Typed channels Saturday, August 3, 13

Future Work •Typed channels •Akka Clustering Saturday, August 3, 13

Future Work •Typed channels •Akka Clustering •Typesafe Developer Console Saturday,
August 3, 13

Live Demo! Saturday, August 3, 13

EOF @adelbertchang [email protected] Saturday, August 3, 13

EOF @adelbertchang [email protected] Questions? Saturday, August 3, 13

Distributed Graph Processing with Scala and Akk...

Distributed Graph Processing with Scala and Akka (SVSS '13)

More Decks by Adelbert Chang

Other Decks in Programming

Featured

Transcript