Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction to Hadoop
Search
uictechparty
July 01, 2012
Programming
3
220
Introduction to Hadoop
By zhique, 1st TechParty@UIC
uictechparty
July 01, 2012
Tweet
Share
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
180
找人
uictechparty
3
440
香港研究生申请经验分享
uictechparty
0
400
css.pdf
uictechparty
1
180
Introduction to Design Patterns
uictechparty
2
140
编写高质量Java代码的7个建议
uictechparty
2
170
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
90
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
200
Other Decks in Programming
See All in Programming
雑に思考を整理する技術と効能
konifar
63
30k
Introducing Kotlin Multiplatform in an existing mobile app - Workshop Edition | AndroidMakers Paris
prof18
0
140
TCAとKMPを用いた新規動画配信アプリ 「ABEMA Live」の設計
tomu28
2
120
SIMD Parallel Programming with the Vector API
josepaumard
0
220
Anthropic Cookbook のおすすめレシピ
schroneko
7
1.1k
冗長なエラーログを削減し、スタックトレースを手に入れる / Reducing Verbose Error Logs and Obtaining Stack Traces
upamune
0
980
AppRouter Panel Talk
yosuke_furukawa
PRO
1
450
Scalable Customer Journey Orchestration (CJO)
lewuathe
0
410
Exploring the Implementation of “t.Run”, “t.Parallel”, and “t.Cleanup”
akarin
1
110
Netty Chicago Java User Group 2024-04-17
sullis
0
200
Elm Form Validation
bkuhlmann
0
510
PHP8.3の機能を振り返る / Review of PHP 8.3 features
seike460
PRO
1
120
Featured
See All Featured
How STYLIGHT went responsive
nonsquared
92
4.8k
What’s in a name? Adding method to the madness
productmarketing
PRO
17
2.7k
Done Done
chrislema
178
15k
Writing Fast Ruby
sferik
622
60k
Building Adaptive Systems
keathley
32
1.9k
Practical Orchestrator
shlominoach
183
9.7k
A Modern Web Designer's Workflow
chriscoyier
689
190k
[RailsConf 2023] Rails as a piece of cake
palkan
27
4k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.9k
A designer walks into a library…
pauljervisheath
201
23k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
21
1.4k
Faster Mobile Websites
deanohume
300
30k
Transcript
Hadoop Intro HDFS & MapReduce 1st TechParty@UIC zhique
Background 1. Lucene和Nutch Lucene: 纯Java的高性能全文索引引擎工具包。 Nutch:以Lucene为基础实现的搜索引擎应用。 2. Google, GFS和MapReduce论文 Hadoop,从Nutch中剥离出来的分布式计算模块。
Application 1. 阿里巴巴:垂直商业搜索引擎 2. 百度:日志分析、网页数据库 3. Facebook:日志存储、分析 4. Twitter:Tweet、用户数据存储分析 快、简单、横向扩招、不用钱!
HDFS - Hadoop分布式文件系统 设计 1. 一次写入,多次读取 2. 文件系统块大小默认为64MB 3. 管理者-工作者模式
namenode和datanode 4. 类*nix的文件操作命令 hadoop fs -mkdir books 有何缺陷?
HDFS的读写模式
HDFS的读写模式
避免带宽瓶颈的机制 代码往数据迁移
MapReduce算法及计算框架
Hadoop生态圈 1. Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce和HDFS的集群上。 2. Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基 于
SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 3. HBase 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持 MapReduce的批量式计算和点查询(随机读取)。 4. ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务 用于构建分布式应用。
References Hadoop: The Definitive Guide, O'REILLY, Yahoo!Press
TechParty@UIC Thank you!