Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction to Hadoop
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
uictechparty
July 01, 2012
Programming
240
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Introduction to Hadoop
By zhique, 1st TechParty@UIC
uictechparty
July 01, 2012
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
230
找人
uictechparty
3
480
香港研究生申请经验分享
uictechparty
0
420
css.pdf
uictechparty
1
220
Introduction to Design Patterns
uictechparty
2
160
编写高质量Java代码的7个建议
uictechparty
2
190
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
140
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
230
Other Decks in Programming
See All in Programming
Semantic Version 単位で戦略を柔軟に変えて、パッケージアップデートを自動化する
daitasu
0
160
プロパティの順序で型推論が壊れる!? TypeScript6.0の修正からContext-Sensitivityの仕組みを追う
bicstone
2
1.3k
AIとRubyの静的型付け
ukin0k0
0
540
キャリア迷子上等 ─ "ない道"は自分で作ればいい
16bitidol
3
1.6k
The Arts and Crafts of Work in the AI Era — Toward Mastery in Software Development
kuranuki
1
720
CLIであることを活かしたGitHub Copilot CLI活用術 / GitHub Copilot CLI Pro Tips & Tricks
nao_mk2
1
1.2k
oxlintはeslint/typescript-eslintを置き換えられるのか
shomafujita
2
320
Spec Driven Development | AI Summit Lisbon
danielsogl
PRO
0
150
Datadog × OpenTelemetry 入門と実践のあいだ
kn_to_maxpno
1
150
TSKaigi Night Talks 2026_TypeScriptでサプライチェーンの整合性を型に閉じ込める
geekplus_tech
0
310
Oxlintのカスタムルールの現況
syumai
5
1k
AI駆動開発勉強会 広島支部 第一回勉強会 AI駆動開発概要とワークショップ
hayatoshimiu
0
450
Featured
See All Featured
Google's AI Overviews - The New Search
badams
0
1k
New Earth Scene 8
popppiees
3
2.3k
Why Your Marketing Sucks and What You Can Do About It - Sophie Logan
marketingsoph
0
160
Build your cross-platform service in a week with App Engine
jlugia
234
18k
Bash Introduction
62gerente
615
210k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
190
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
310
Why Our Code Smells
bkeepers
PRO
340
58k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
AI Search: Where Are We & What Can We Do About It?
aleyda
0
7.6k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.6k
jQuery: Nuts, Bolts and Bling
dougneiner
66
8.5k
Transcript
Hadoop Intro HDFS & MapReduce 1st TechParty@UIC zhique
Background 1. Lucene和Nutch Lucene: 纯Java的高性能全文索引引擎工具包。 Nutch:以Lucene为基础实现的搜索引擎应用。 2. Google, GFS和MapReduce论文 Hadoop,从Nutch中剥离出来的分布式计算模块。
Application 1. 阿里巴巴:垂直商业搜索引擎 2. 百度:日志分析、网页数据库 3. Facebook:日志存储、分析 4. Twitter:Tweet、用户数据存储分析 快、简单、横向扩招、不用钱!
HDFS - Hadoop分布式文件系统 设计 1. 一次写入,多次读取 2. 文件系统块大小默认为64MB 3. 管理者-工作者模式
namenode和datanode 4. 类*nix的文件操作命令 hadoop fs -mkdir books 有何缺陷?
HDFS的读写模式
HDFS的读写模式
避免带宽瓶颈的机制 代码往数据迁移
MapReduce算法及计算框架
Hadoop生态圈 1. Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce和HDFS的集群上。 2. Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基 于
SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 3. HBase 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持 MapReduce的批量式计算和点查询(随机读取)。 4. ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务 用于构建分布式应用。
References Hadoop: The Definitive Guide, O'REILLY, Yahoo!Press
TechParty@UIC Thank you!