ceph crush algorithm

Ceph的CRUSH算法网易杭研：李明新浪微博：@李明zju

CRUSH算法 •  将对象映射到存储设备上的伪随机算法 •  根据对象id，直接算出对应的存储设备 – 去中心化无需中心节点 – 没有将路由信息保存到对象id上：和SDFS/TFS不
同 •  考虑存储层次，可以指定策略将数据存储于不同的机架

CRUSH •  CRUSH(x) -‐> (osdn1, osdn2, osdn2) •  参数
– X input key – Hierachical Cluster map：可用存储资源和层级结构（有多少机架，每个机架上有多少服务器） – Placement rules：每个对象有多少个副本，副本的限制条件，比如3个副本在不同的机架上 •  输出一组OSD集合

优点 •  任何组件都可以独立计算出object位置（去中心化） •  只在增加/删除设备时才需要变动cluster map

Hierarchical Cluster Map •  Cluster map由device和bucket组成，它们都有id和权重 •  Bucket可以包含任意数量item
•  item可以是device或者buckets •  CURSH有四种不同的Bucket

Replica Placement •  Placement policies决定把对象副本分布在不同的区域，可以定义3-‐way mirroring，2-‐ way mirroring
•  每种规则都包含包括 – take(a): 选择一个item – select(n, t): 返回n个不同的类型为t的item – emit: 将向量放入result中

CRUSH例子选择机架选择机器选择磁盘

Bucket类型 •  不同的Bucket类型不同的时间复杂度 •  增加/删除机器时数据移动的代价也不一样 •  根据设备的不同以及存储规划选择Bucket

Uniform Buckets •  c(r, x) = (hash(x) + rp)
mod m – r 表示第几个副本 – p 大素数 – m系统中设备个数 •  本质就是取模 •  O(1)时间复杂度 •  适用于很少增加删除设备的场景 •  增加机器后所有数据需要重新分布

List Buckets •  结构为链表结构，每个item有任意权重 •  表头权重Wh
•  剩余链表中所有item权重和Ws

List Buckets •  从表头开始计算hash(x, r, item)得到一个 [0~1]的v，如果v在[0~Wh/Ws)之间，则副本在表头中，否则继续遍历剩余链表 – x
为对象的key – r表示第几个副本 – item为存储机器的编号 •  O(n)时间复杂度

List Bucket item B C weight 2 2 Wh /
Ws 0.5 1 hash(x1, 1, item) 0.6 0.1 * hash(x2, 1, item) 0.4 * 0.7 hash(x3, 1, item) 0.6 0.8 * *表示存储于在该设备上 x1 在 C上，x2在B上，x3在C上

List Buckets item A B C weight 1 2 2
Wh / Ws 0.2 0.5 1 hash(x1, 1, item) 0.3 0.6 0.1 * hash(x2, 1, item) 0.1 * 0.4 0.7 hash(x3, 1, item) 0.15 * 0.6 0.8 由于A节点的加入，x2 现在由A节点存储，x3也由A节点存储但是和Uniform bucket不同，A节点的加⼊入并不会使得数据由B迁到C 或者是由C迁到B

List Buckets •  增加机器时移动的数据是最优的 – 和Uniform Bucket不同不需要重新分布数据 – 只需要从原先的机器上迁移数据到新机器
•  减少机器时需要数据重新分布

Tree Buckets •  每个内部节点知道它左右子树的权重 •  CRUSH算法从根节点开始，计算hash(x, r, item)，
如果这个值[0, Wl/Wn)则递归访问左子树否则访问右子树 •  算法复杂度 O(logn)

Straw Buckets •  每个节点都计算hash(x, r, item), 从中取出一个最大的值 • 
算法复杂度 O(n) •  增加删除机器时的数据移动量都是最优的

Straw Bucket item B C hash(x1, 1, item) 0.8 *
0.1 hash(x2, 1, item) 0.3 0.7* hash(x3, 1, item) 0.6 0.8 *

Straw Bucket item A B C hash(x1, 1, item) 0.3
0.8 * 0.1 hash(x2, 1, item) 0.1 0.3 0.7 * hash(x3, 1, item) 0.9* 0.6 0.8 增加机器使得x3由C节点负责变为A节点负责，可以看出来，增加机器只会使得数据由老节点迁移到新节点，老节点之间并不会产生数据移动 straw bucket对于增加和删除节点都是最优的

CRUSH小结 •  将对象映射到存储设备上的伪随机算法 •  去中心化 •  考虑存储层次

参考资料 •  CRUSH: Controlled, Scalable, Decentralized Placement of Replicated
Data –  hdp://ceph.com/papers/weil-‐crush-‐sc06.pdf •  Replicaeon under scalable hashing: A family of algorithms for scalable decentralized data distribueon –  hdp://www.ssrc.ucsc.edu/Papers/honicky-‐ ipdps04.pdf •  A fast algorithm for online placement and reorganizaeon of replicated data –  hdp://users.soe.ucsc.edu/~elm/Papers/ipdps03.pdf

ceph crush algorithm

ceph crush algorithm

limingzju

Other Decks in Programming

Featured

Transcript

Ceph的CRUSH算法网易杭研：李明新浪微博：@李明zju

CRUSH算法 •  将对象映射到存储设备上的伪随机算法 •  根据对象id，直接算出对应的存储设备 – 去中心化无需中心节点 – 没有将路由信息保存到对象id上：和SDFS/TFS不

CRUSH •  CRUSH(x) -‐> (osdn1, osdn2, osdn2) •  参数

优点 •  任何组件都可以独立计算出object位置（去中心化） •  只在增加/删除设备时才需要变动cluster map

Hierarchical Cluster Map •  Cluster map由device和bucket组成，它们都有id和权重 •  Bucket可以包含任意数量item

Replica Placement •  Placement policies决定把对象副本分布在不同的区域，可以定义3-‐way mirroring，2-‐ way mirroring

CRUSH例子选择机架选择机器选择磁盘

Bucket类型 •  不同的Bucket类型不同的时间复杂度 •  增加/删除机器时数据移动的代价也不一样 •  根据设备的不同以及存储规划选择Bucket

Uniform Buckets •  c(r, x) = (hash(x) + rp)

List Buckets •  结构为链表结构，每个item有任意权重 •  表头权重Wh

List Buckets •  从表头开始计算hash(x, r, item)得到一个 [0~1]的v，如果v在[0~Wh/Ws)之间，则副本在表头中，否则继续遍历剩余链表 – x

List Bucket item B C weight 2 2 Wh /

List Buckets item A B C weight 1 2 2

List Buckets •  增加机器时移动的数据是最优的 – 和Uniform Bucket不同不需要重新分布数据 – 只需要从原先的机器上迁移数据到新机器

Tree Buckets •  每个内部节点知道它左右子树的权重 •  CRUSH算法从根节点开始，计算hash(x, r, item)，

Straw Buckets •  每个节点都计算hash(x, r, item), 从中取出一个最大的值 •

Straw Bucket item B C hash(x1, 1, item) 0.8 *

Straw Bucket item A B C hash(x1, 1, item) 0.3

CRUSH小结 •  将对象映射到存储设备上的伪随机算法 •  去中心化 •  考虑存储层次

参考资料 •  CRUSH: Controlled, Scalable, Decentralized Placement of Replicated