Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction to Hadoop
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
uictechparty
July 01, 2012
Programming
230
3
Share
Introduction to Hadoop
By zhique, 1st TechParty@UIC
uictechparty
July 01, 2012
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
220
找人
uictechparty
3
470
香港研究生申请经验分享
uictechparty
0
420
css.pdf
uictechparty
1
220
Introduction to Design Patterns
uictechparty
2
150
编写高质量Java代码的7个建议
uictechparty
2
190
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
130
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
220
Other Decks in Programming
See All in Programming
感情を設計する
ichimichi
5
1.4k
Radical Imagining - LIFT 2025-2027 Policy Agenda
lift1998
0
260
仕様漏れ実装漏れをなくすトレーサビリティAI基盤のご紹介
orgachem
PRO
9
5.6k
GNU Makeの使い方 / How to use GNU Make
kaityo256
PRO
16
5.6k
メッセージングを利用して時間的結合を分離しよう #phperkaigi
kajitack
3
580
Codex CLI でつくる、Issue から merge までの開発フロー
amata1219
0
350
AI時代の脳疲弊と向き合う ~言語学としてのPHP~
sakuraikotone
1
1.9k
[PHPerKaigi 2026]PHPerKaigi2025の企画CodeGolfが最高すぎて社内で内製して半年運営して得た内製と運営の知見
ikezoemakoto
0
340
AWS re:Invent 2025の少し振り返り + DevOps AgentとBacklogを連携させてみた
satoshi256kbyte
3
160
Going Multiplatform with Your Android App (Android Makers 2026)
zsmb
2
390
Mastering Event Sourcing: Your Parents Holidayed in Yugoslavia
super_marek
0
150
夢の無限スパゲッティ製造機 -実装篇- #phpstudy
o0h
PRO
0
200
Featured
See All Featured
Visualization
eitanlees
150
17k
Java REST API Framework Comparison - PWX 2021
mraible
34
9.3k
The SEO Collaboration Effect
kristinabergwall1
0
420
The SEO identity crisis: Don't let AI make you average
varn
0
440
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
68
38k
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
210
How to optimise 3,500 product descriptions for ecommerce in one day using ChatGPT
katarinadahlin
PRO
1
3.5k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
How to Ace a Technical Interview
jacobian
281
24k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
490
技術選定の審美眼(2025年版) / Understanding the Spiral of Technologies 2025 edition
twada
PRO
118
110k
How Software Deployment tools have changed in the past 20 years
geshan
0
33k
Transcript
Hadoop Intro HDFS & MapReduce 1st TechParty@UIC zhique
Background 1. Lucene和Nutch Lucene: 纯Java的高性能全文索引引擎工具包。 Nutch:以Lucene为基础实现的搜索引擎应用。 2. Google, GFS和MapReduce论文 Hadoop,从Nutch中剥离出来的分布式计算模块。
Application 1. 阿里巴巴:垂直商业搜索引擎 2. 百度:日志分析、网页数据库 3. Facebook:日志存储、分析 4. Twitter:Tweet、用户数据存储分析 快、简单、横向扩招、不用钱!
HDFS - Hadoop分布式文件系统 设计 1. 一次写入,多次读取 2. 文件系统块大小默认为64MB 3. 管理者-工作者模式
namenode和datanode 4. 类*nix的文件操作命令 hadoop fs -mkdir books 有何缺陷?
HDFS的读写模式
HDFS的读写模式
避免带宽瓶颈的机制 代码往数据迁移
MapReduce算法及计算框架
Hadoop生态圈 1. Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce和HDFS的集群上。 2. Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基 于
SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 3. HBase 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持 MapReduce的批量式计算和点查询(随机读取)。 4. ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务 用于构建分布式应用。
References Hadoop: The Definitive Guide, O'REILLY, Yahoo!Press
TechParty@UIC Thank you!