Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
HBase_intro
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
infinitejean
August 01, 2012
1
120
HBase_intro
infinitejean
August 01, 2012
Tweet
Share
More Decks by infinitejean
See All by infinitejean
geobookmark
infinitejean
0
37
HBase_prog
infinitejean
4
130
Featured
See All Featured
How GitHub (no longer) Works
holman
316
140k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.3k
Introduction to Domain-Driven Design and Collaborative software design
baasie
1
580
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Faster Mobile Websites
deanohume
310
31k
The untapped power of vector embeddings
frankvandijk
1
1.6k
WENDY [Excerpt]
tessaabrams
9
36k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.6k
Unsuck your backbone
ammeep
671
58k
Darren the Foodie - Storyboard
khoart
PRO
2
2.3k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
300
Transcript
HBase Introduction Jean 2011/11/16 12年8月1日星期三
Outline Introduction Data Model Architecture Reference 2 12年8月1日星期三
Introduction 12年8月1日星期三
Introduction to HBase HBase 是具有以下特點的儲存系統: - 類似表格的資料結構 (Multi-Dimensional Map) -
分散性 (Distributed storage) - 高可用性、高效能 (High availability, High performance) - 很容易擴充容量及效能 (Horizontal scalability) HBase 適用於數以千計的⼀一般伺服器上,來儲存 Petabytes 級的資料 HBase 以 Hadoop 分散式檔案系統 (HDFS) 為基 礎,提供類似 Google Bigtable 功能 HBase 同時提供 Hadoop MapReduce 程式設計 4 12年8月1日星期三
HBase is (not) ... 不是關聯式 (Relational) 資料庫系統 - column-oriented 只有⼀一個主要索引
(primary index) 即 row key 不提供 Join (use MapReduce) 不提供 SQL 語法 Basic operation : - Get - Put - Scan 5 12年8月1日星期三
Why HBase ? Bigtable 關聯式資料庫 (Relational Database) 適合用做資料異動的操作, 主要因為這動作在記憶體中進行。但對於大量的資料分析,資料分 散在多個節點的情況下,關聯式資料庫系統就不適用了。
大量資料分析: - Big queries - 整個資料表的存取 - Big databases - 100 Terabytes 以上的資料 HBase HBase 實作 Bigtable 的概念,且為 open source ! 架構在 Hadoop HDFS 上 HBase 是 Apache 的專案之⼀一,在支援及維護上較有保障 6 12年8月1日星期三
Who use HBase ? 7 12年8月1日星期三
Data Model 12年8月1日星期三
Data Model 9 Row Key Column family Column qualifier Timestamp(version)
12年8月1日星期三
Data Model Table 依 row key 字典排序 Table schema 只要定義
column families Column = Column Family : Column Qualifier Column 可動態新增,每個 row 可有不同數量的 columns byte[] 是唯⼀一的資料型態 (Row, Family: Column, Timestamp) -> Value Row Key TimeStamp Column Family “Content:” Column Family “Anchor:” Column Family “Anchor:” com.cnn.www t9 “<html>...” “cnnsi.com” “CNN” com.cnn.www t8 “cnnsi.com” “CNN” com.cnn.www t7 “my.look.ca” “MyLook” com.cnn.www t6 “<html>...” 10 12年8月1日星期三
Study Case - Blog Logical data model - ⼀一篇 Blog
entry 由 title, date, author, type, text 欄位所組成 - ⼀一位 User 由 username, password 等欄位所組成 - 每⼀一篇的 Blog entry 可有許多 Comments,每⼀一則 comment 由 title, author 與 text 組成 ERD 11 12年8月1日星期三
HBase Table Schema Row key - type (以二個字元的縮寫代表)與 timestamp 組合而成
- 因為 rows 會先後依 type 及 timestamp 排序好。方便用 scan() 來存取 table 的資料 BLOGENTRY 與 COMMENT 的“⼀一對多”關係由 comment_title, comment_author, comment_text 等 column families 內的動態數量的 column 來表示。每個 column 的名稱是由每則 comment 的 timestamp 來表示,因此每個 column family 的 column 會依時間自動排序好 12 12年8月1日星期三
Architecture 12年8月1日星期三
Region 表格是由⼀一或多個 region 所構成 ( region = startKey + endKey)
每個 region 可能會存 在於多個不同節點上, 而且是由數個 HDFS 檔 案與區塊所構成,這類 region 是由 Hadoop 負責複製 14 12年8月1日星期三
HBase Architecture 15 12年8月1日星期三
Member HBase Master - 負責管理 region servers - 適度分配 regions
給 region servers - 負責處理使用者的查詢,並提供資料所在的 region server 資訊 Region Servers - 負責處理使用者的 request (write/read/scan) - 定時送 heartbeat 給 master - 增加 region servers 將可增加整體的 throughput 16 12年8月1日星期三
Operation The Root table holds the list of .META. table
regions The .META. table holds the list of all user- space regions 17 12年8月1日星期三
Reference - HBase wiki http://wiki.apache.org/hadoop/Hbase/DataModel - 趨勢科技 http://www.trend.com.tw/program/3rd/Introduction%20to%20HBase.zip - 國網中心
http://trac.nchc.org.tw/cloud/browser - http://www.cs.brown.edu/courses/csci2270/slides/mar14-hbase.pdf 18 12年8月1日星期三