Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Introduction to Hadoop
Search
uictechparty
July 01, 2012
Programming
3
230
Introduction to Hadoop
By zhique, 1st TechParty@UIC
uictechparty
July 01, 2012
Tweet
Share
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
210
找人
uictechparty
3
460
香港研究生申请经验分享
uictechparty
0
410
css.pdf
uictechparty
1
210
Introduction to Design Patterns
uictechparty
2
150
编写高质量Java代码的7个建议
uictechparty
2
180
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
120
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
210
Other Decks in Programming
See All in Programming
VS Code Update for GitHub Copilot
74th
1
460
Cline指示通りに動かない? AI小説エージェントで学ぶ指示書の書き方と自動アップデートの仕組み
kamomeashizawa
1
580
第9回 情シス転職ミートアップ 株式会社IVRy(アイブリー)の紹介
ivry_presentationmaterials
1
240
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
47
31k
GoのGenericsによるslice操作との付き合い方
syumai
3
690
Node-RED を(HTTP で)つなげる MCP サーバーを作ってみた
highu
0
110
NPOでのDevinの活用
codeforeveryone
0
440
CursorはMCPを使った方が良いぞ
taigakono
1
190
#kanrk08 / 公開版 PicoRubyとマイコンでの自作トレーニング計測装置を用いたワークアウトの理想と現実
bash0c7
1
570
たった 1 枚の PHP ファイルで実装する MCP サーバ / MCP Server with Vanilla PHP
okashoi
1
200
20250628_非エンジニアがバイブコーディングしてみた
ponponmikankan
0
510
「Cursor/Devin全社導入の理想と現実」のその後
saitoryc
0
370
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
54
11k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.5k
Statistics for Hackers
jakevdp
799
220k
We Have a Design System, Now What?
morganepeng
53
7.7k
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
GitHub's CSS Performance
jonrohan
1031
460k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.2k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
The Cult of Friendly URLs
andyhume
79
6.5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Embracing the Ebb and Flow
colly
86
4.7k
Transcript
Hadoop Intro HDFS & MapReduce 1st TechParty@UIC zhique
Background 1. Lucene和Nutch Lucene: 纯Java的高性能全文索引引擎工具包。 Nutch:以Lucene为基础实现的搜索引擎应用。 2. Google, GFS和MapReduce论文 Hadoop,从Nutch中剥离出来的分布式计算模块。
Application 1. 阿里巴巴:垂直商业搜索引擎 2. 百度:日志分析、网页数据库 3. Facebook:日志存储、分析 4. Twitter:Tweet、用户数据存储分析 快、简单、横向扩招、不用钱!
HDFS - Hadoop分布式文件系统 设计 1. 一次写入,多次读取 2. 文件系统块大小默认为64MB 3. 管理者-工作者模式
namenode和datanode 4. 类*nix的文件操作命令 hadoop fs -mkdir books 有何缺陷?
HDFS的读写模式
HDFS的读写模式
避免带宽瓶颈的机制 代码往数据迁移
MapReduce算法及计算框架
Hadoop生态圈 1. Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce和HDFS的集群上。 2. Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基 于
SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 3. HBase 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持 MapReduce的批量式计算和点查询(随机读取)。 4. ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务 用于构建分布式应用。
References Hadoop: The Definitive Guide, O'REILLY, Yahoo!Press
TechParty@UIC Thank you!