Scalding: MapReduce made easy

Slide 1

Slide 1 text

Scalding Not just burning yourself: building super simple MapReduce jobs Thursday, September 19, 13

Slide 16

Slide 16 text

class LinkedInScrapeValidationSetJob(args : Args) extends Job(args) { override def config(implicit mode: Mode) = { super.config(mode) ++ Map( "mapred.child.tmp" -‐> "./tmp" ) } val searchResults = WritableSequenceFile[org.apache.hadoop.io.Text, SearchResultWritable]( args("input"), new Fields("key", "value") ) val identibaseDump = Tsv(args("identibaseDump"), new Fields("email", "account")) .addTrap(Tsv("hdfs://scratch/tmp/wtf")) // data with newlines needs to go away // Extract URLs val searchResultUrls = searchResults .map('value -‐> 'url) { line : SearchResultWritable => line.getResult.get_url() } // Process only linkedin urls, get non-‐empty pub suffixes val searchResultLiSuffixes = searchResultUrls .filter('url) { url: String => url.contains("linkedin") } .map('url -‐> 'liUrl) { url: String => liUrlSuffix(url) } .filter('liUrl) { line:String => !line.isEmpty } // Extract pub suffixes for join from Identibase dump val identibasePairs = identibaseDump .map('account -‐> 'urlSuffix) { account : String => accountToLiUrlSuffix(account) } .filter('urlSuffix) { line:String => !line.isEmpty } // Join it val joined = searchResultLiSuffixes .joinWithSmaller('liUrl -‐> 'urlSuffix, identibasePairs) joined .project(new Fields("email", "liUrl")) .write(Tsv(args("output"))) // Puburl extractors val urlPattern = "([0-‐9a-‐f]+)/([0-‐9a-‐f]+/[0-‐9a-‐f]+)".r def accountToLiUrlSuffix(s: String):String = urlPattern.findFirstIn(s).getOrElse("") def liUrlSuffix(s: String): String = s.split("/").takeRight(3).mkString("/") } Sometimes you need to discard bad data. Add a trap. Can be /dev/null In Cascading, a SequenceFile != Hadoop SequenceFile. WritableSequenceFile is what you want This processes the SequenceFile stuff Important: When doing joins, it’s VERY important to know the relative sizes of your data sets or your joins will be stupid slow. That’s because it’s a HashJoin to avoid the full NxM of a join. On Rome, you might need to set his mapred.child.tmp value This particular job joined some of Dan’s old LinkedIn data with edges from Identibase Thursday, September 19, 13

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Slide 3

Slide 3 text

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

Slide 7

Slide 7 text

Slide 8

Slide 8 text

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

Slide 19

Slide 19 text

Slide 20

Slide 20 text

Slide 21

Slide 21 text

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text