Redis面试题系列：讲一讲 rehash 的过程

本文主要是介绍Redis面试题系列：讲一讲 rehash 的过程，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

字典是什么

字典，又称为符号表(Symbol table)，关联数组(associative array)或映射(map)，是一种用来保存键值对(key-value-pair)的抽象数据结构。字典中的键不会重复。
接下来会分析Redis中字典的实现方式，哈希算法，解决键冲突的方法及rehash的过程。文中展示的 Redis 源码均来自 3.0.4 版本。

字典的实现

Redis 的字典使用哈希表作为底层实现，一个哈希表里面可以有多个结点，每个结点保存了一个键值对。

typedef struct dictht {// hash表结点数组// 每个 table[i] 其实是一个链表的头节点dictEntry **table;// hash表结点数组的大小，总是为 2^nunsigned long size;// 用于计算索引值的掩码，总是等于 size-1unsigned long sizemask;// 该hash表中的结点数量unsigned long used;
} dictht;

table 是一个数组，数组中每个元素其实都是一个链表的头指针。链表中每个结点都保存着一个键值对。
size 属性记录了table数组的大小，Redis的扩容和收缩机制，保证了 size 总是为 2^n。
sizemask 是用于计算索引值的掩码，总是等于 size-1。
used 记录了哈希表中结点的数量，即所有链表中结点的总数。

哈希算法

当要将一个新的键值添加到字典里面时，程序会先先根据键值对的键计算出哈希值和索引值，然后再根据索引值，将包含新键值对的节点放到哈希表数组(table)的指定索引上面。
Redis 通常使用 MurmurHash2 计算键的哈希值。该算法由 Austin Appleby 于 2008 年发明，这种算法的优点在于，即使输入的键是有规律的，算法仍能给出一个很好的随机分布性，并且算法的计算速度也非常快。
而索引值计算则非常简单：将哈希值和 dictht::sizemask 做与运算的结果即为索引值。
比如，哈希值为 6，sizemask 为 3，则索引值为 6&3 = 2。

解决键冲突

当有两个或以上数量的键被分配到了同一个索引上面时，我们称这些键发生了冲突。比如上图中 k2 和 k0。
Redis 使用链地址法解决冲突。每个节点都有一个 next 指针，多个冲突的结点通过 next 指针构成一个单向链表，这样就解决了键冲突的问题。

Rehash

负载因子：哈希表中单向链表的平均长度。

随着增删操作的进行，Redis 通过 rehash 操作将负载因子维持在一个合理的范围内。Rehash操作分为两种：

扩展：当负载因子较大时，应该扩大 dictht::size 以降低平均长度，加快查询速度。
收缩：当负载因子较小时，应该减小 dictht::size 以减少对内存的浪费。

typedef struct dict {//哈希表dictht ht[2];//rehashidx 记录了rehash 的进度。//当没有进行 rehash 时为 -1。int rehashidx; // 其他数据成员....
};

rehash 过程如下：

为字典的ht[1]哈希表分配空间，ht[1].size 的大小取决于要执行的操作，以及ht[0].used 的值。
- 如果执行的是扩展操作：那么 ht[1].size 为最小的且不小于 ht[0].used*2 的 2 的 n 次方。比如 ht[0].size 为 5，那么 ht[1].size 为 16。
- 如果执行的是收缩操作：那么 ht[1].size 为最小的且不小于 ht[0].used 的 2 的 n 次方。比如 ht[0].size 为 5，ht[1].size 为 8。
将 ht[0] 中所有键值对移动到 ht[1] 中：根据 ht[1].sizemask 重新计算哈希值与索引值；根据新的索引值将键值对插入到 ht[1] 中；将键值对从 ht[0] 中删除。
当 ht[0] 中所有键值对移动到 ht[1] 之后开始执行清理工作：释放 ht[0] 占用的内存；将 ht[1] 赋值给 ht[0]；为 ht[1] 分配一个空的哈希表，为下一次 rehash 做准备。

渐进式 rehash

扩展或收缩哈希表需要将 ht[0] 的所有键值对移动到 ht[1] 当中。这个动作是分多次，渐进式地完成的。原因在于当键值对过多时，一次性移动所有键值对会导致Redis在一段时间内无法对外提供服务。
渐进式 rehash 步骤如下：

为 ht[1] 分配空间，此时字典同时存在两个哈希表。
将 dict::rehashidx 置为 0，rehash 工作正式开始。
在 rehash 进行期间，每次对字典执行增删改查操作时，程序在执行指定操作之外，还会将 ht[0] 在 rehashidx 索引上的所有键值对rehash 到 ht[1]，然后将 rehashidx 的值加一。
随着字典操作的不断执行，ht[0] 的所有键值对最终会全部移动到 ht[1]，此时程序会将 rehashidx 设为 -1，表示 rehash 操作已完成。

特别的，在渐进式 rehash 操作过程中，因为同时存在两个哈希表，所以字典的删除，查找，更新操作会在两个哈希表上进行。程序会先尝试在 ht[0] 中寻找目标键值对，如果没有找到则会在 ht[1] 再次进行寻找，然后进行具体操作。但是新增操作只会在 ht[1] 上进行，这保证了 ht[0] 中的已经被清空的单向链表不会新增元素。