$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction to Hadoop
Search
uictechparty
July 01, 2012
Programming
3
230
Introduction to Hadoop
By zhique, 1st TechParty@UIC
uictechparty
July 01, 2012
Tweet
Share
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
220
找人
uictechparty
3
470
香港研究生申请经验分享
uictechparty
0
410
css.pdf
uictechparty
1
220
Introduction to Design Patterns
uictechparty
2
150
编写高质量Java代码的7个建议
uictechparty
2
190
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
120
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
210
Other Decks in Programming
See All in Programming
モデル駆動設計をやってみようワークショップ開催報告(Modeling Forum2025) / model driven design workshop report
haru860
0
280
AIの誤りが許されない業務システムにおいて“信頼されるAI” を目指す / building-trusted-ai-systems
yuya4
6
3.9k
Context is King? 〜Verifiability時代とコンテキスト設計 / Beyond "Context is King"
rkaga
10
1.4k
マスタデータ問題、マイクロサービスでどう解くか
kts
0
110
[AtCoder Conference 2025] LLMを使った業務AHCの上⼿な解き⽅
terryu16
3
610
C-Shared Buildで突破するAI Agent バックテストの壁
po3rin
0
410
著者と進める!『AIと個人開発したくなったらまずCursorで要件定義だ!』
yasunacoffee
0
150
ZJIT: The Ruby 4 JIT Compiler / Ruby Release 30th Anniversary Party
k0kubun
0
260
組み合わせ爆発にのまれない - 責務分割 x テスト
halhorn
1
160
AI Agent Dojo #4: watsonx Orchestrate ADK体験
oniak3ibm
PRO
0
110
GISエンジニアから見たLINKSデータ
nokonoko1203
0
180
脳の「省エネモード」をデバッグする ~System 1(直感)と System 2(論理)の切り替え~
panda728
PRO
0
120
Featured
See All Featured
Rails Girls Zürich Keynote
gr2m
95
14k
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
1.9k
How To Speak Unicorn (iThemes Webinar)
marktimemedia
1
340
The Spectacular Lies of Maps
axbom
PRO
1
400
Optimizing for Happiness
mojombo
379
70k
The Power of CSS Pseudo Elements
geoffreycrofte
80
6.1k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
4 Signs Your Business is Dying
shpigford
186
22k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
680
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.1k
Crafting Experiences
bethany
0
21
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
120
Transcript
Hadoop Intro HDFS & MapReduce 1st TechParty@UIC zhique
Background 1. Lucene和Nutch Lucene: 纯Java的高性能全文索引引擎工具包。 Nutch:以Lucene为基础实现的搜索引擎应用。 2. Google, GFS和MapReduce论文 Hadoop,从Nutch中剥离出来的分布式计算模块。
Application 1. 阿里巴巴:垂直商业搜索引擎 2. 百度:日志分析、网页数据库 3. Facebook:日志存储、分析 4. Twitter:Tweet、用户数据存储分析 快、简单、横向扩招、不用钱!
HDFS - Hadoop分布式文件系统 设计 1. 一次写入,多次读取 2. 文件系统块大小默认为64MB 3. 管理者-工作者模式
namenode和datanode 4. 类*nix的文件操作命令 hadoop fs -mkdir books 有何缺陷?
HDFS的读写模式
HDFS的读写模式
避免带宽瓶颈的机制 代码往数据迁移
MapReduce算法及计算框架
Hadoop生态圈 1. Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce和HDFS的集群上。 2. Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基 于
SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 3. HBase 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持 MapReduce的批量式计算和点查询(随机读取)。 4. ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务 用于构建分布式应用。
References Hadoop: The Definitive Guide, O'REILLY, Yahoo!Press
TechParty@UIC Thank you!