How It Works - Hadoop

HOW IT WORKS HOW IT WORKS HADOOP HADOOP 1

PLAN PLAN What is Hadoop? HDFS MapReduce Yarn EMR Ecosystem
Example & Walkthrough 2 . 1

WHAT IS HADOOP? WHAT IS HADOOP? Original: Framework (Hadoop Core)
HDFS MapReduce (Yarn) Ecosystem/Solution "Hadoop solution" vs classic RDBMS warehousing Ecosystem of tools and frameworks originated from Hadoop or its principles 3 . 1

HADOOP CLUSTER HADOOP CLUSTER 4 . 1

HADOOP CHARACTERISTICS HADOOP CHARACTERISTICS open-source commodity hardware [semi/un]structured data, schema-on-read
fault-tolerant, highly-available scalable (thousands of nodes) highly-parallel computation data-locality 5 . 1

HDFS HDFS 6 . 1

HDFS CHARACTERISTICS HDFS CHARACTERISTICS almost POSIX `hdfs dfs -ls -a
user/spark..` URI scheme: hdfs://92.23.23.23/user/spark/.. les split into 64mb blocks 6 . 4

MAPREDUCE MAPREDUCE 7 . 1

MAPREDUCE HIGHLIGHTS MAPREDUCE HIGHLIGHTS any job is represented as series
of map/reduce steps embedded data locality high scalability relatively slow complex 7 . 2

YARN YARN 8 . 1

YARN CHARACTERISTICS YARN CHARACTERISTICS containers, exible resource-utilization multi-tenancy transparant model
8 . 2

HADOOP CLUSTER (AGAIN) HADOOP CLUSTER (AGAIN) 9 . 1

HADOOP LIMITATIONS HADOOP LIMITATIONS a lot of small les (each
le still occupies 64mb block) MapReduce is slow no ACID, append-only (or rewrite) only batch-processing highly complex (con guration & programming api) 10 . 1

MAPREDUCE EXAMPLE MAPREDUCE EXAMPLE 11 . 1

HADOOP ECOSYSTEM HADOOP ECOSYSTEM 12 . 1

HBASE HBASE 12 . 2

12 . 3

ECOSYSTEM ECOSYSTEM 12 . 4

12 . 5

AWS ELASTIC MAPREDUCE (EMR) AWS ELASTIC MAPREDUCE (EMR) 13 .
1

HADOOP DISTRIBUTIONS HADOOP DISTRIBUTIONS On-premise/cloud Cloudera Hortonworks MapR Cloud AWS
EMR Azure HDInsight GCP DataProc IBM BigInsights 13 . 2

EMR ARCHITECTURE EMR ARCHITECTURE 13 . 3

EMR FEATURES EMR FEATURES ec2 control con guration & components
version mngmnt exible resource-utilization, cost model fast provisioning auto-scaling high availability integration cloud-formation cloud-watch s3 (emrfs) aws glue, dynamodb 13 . 4

EMR APPLICATIONS EMR APPLICATIONS 13 . 5

TIM WALKTHROUGH TIM WALKTHROUGH emr console yarn interface master overview
cf overview 13 . 6

WHAT'S NEXT WHAT'S NEXT Hadoop: The De nitive Guide WordCount
with MapReduce 14 . 1

15 . 1

DEMO DEMO hadoop version: 3.1.3 core-site: <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property>
hdfs-site: <property> <name>dfs.replication</name <value>1</value> </property> mapred-site: <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOPMAPREDHOME=/home/twist/Down 3.1.3</value> </property> <property>

<name>mapreduce.map.env</name> <value>HADOOPMAPREDHOME=/home/twist/Down 3.1.3</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOPMAPREDHOME=/home/twist/Down 3.1.3</value> </property> yarn-site:
<property> <name>yarn.nodemanager.au services</name> <value>mapreduceshuf e</value> <property> <name>yarn.nodemanager.aux- services.mapreduceshuf e.class</name> <value>org.apache.hadoop.mapred.Shuf eHandler< </property> format hdfs

start dfs, start yarn word-count javac WordCount.java export JAVAHOME=/usr/lib/jv export
PATH= {PATH} export HADOOPCLASSPATH=${JAVAHOME}/lib/tools.jar jar import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static class TokenizerMapper J AV OM E/bin : AH

WordCount*.class bin/hadoop jar wc.jar WordCount /user/twist/input /user/twist/wordcount/output 16 . 1

How It Works - Hadoop

How It Works - Hadoop

More Decks by Yuri Ostapchuk

Other Decks in Programming

Featured

Transcript