Twitter-Snowflake:自增ID算法

2023-12-21 11:32

本文主要是介绍Twitter-Snowflake:自增ID算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

Twitter 早期用 MySQL 存储数据,随着用户的增长,单一的 MySQL 实例没法承受海量的数据,后来团队就研究如何产生完美的自增ID,以满足两个基本的要求:

  • 每秒能生成几十万条 ID 用于标识不同的 记录;

  • 这些 ID 应该可以有个大致的顺序,也就是说发布时间相近的两条记录,它们的 ID也应当相近,这样才能方便各种客户端对记录 进行排序。

Twitter-Snowflake算法就是在这样的背景下产生的。

核心

Twitter 解决这两个问题的方案非常简单高效:每一个 ID 都是 64 位数字,由时间戳、工作机器节点和序列号组成, ID是由当前所在的机器节点生成的。如图:

下面先说明一下各个区间的作用。

  • 符号位:用于区分正负数。1为负数,0为整数。一般不需要负数,所以值固定为0。

  • 时间戳:一共预留41bit保存毫秒级时间戳。因为毫秒级时间戳长度是13位:41位二进制最大值(T)是:$2^{41}-1 = 2199023255551 $ , 刚好13位。可以表示的年份 = T / (3600 * 24 * 365 * 1000) = 69.7年。换算成Unix时间也就是可以表示到:2039-09-07 23:47:35:

大家会觉得这个时间不够用啊,没关系,后面会讲如何优化。

  • 工作机器:预留了10bit保存机器ID。只要机器ID不一样,每毫秒生成的ID是不一样的。一共可以支持多少台机器同时生成ID呢? 答案是 1023 台(\(2^{10}-1\))。

    如果工作机器比较少,可以使用配置文件来设置这个id,或者使用随机数。如果机器过多就得单独实现一共工作机器ID分配器了,比如使用redis自增,或者利用Mysql auto_increment机制也可以达到效果。
  • 序列号:序列号一共是12bit,为了处理在同一机器同一毫秒内需要给多条消息分配id的情况,一共可以产生4095个序列号(0~4095, \(2^{12}-1\))。

综上:同一台机器1毫秒内可产生4095个ID,全部机器1毫秒内可产生 4095 * 1023 个ID。由于全是在各个机器本地生成,效率非常高。

简单实现

下面是一个简单实现:仅有时间戳,机器位为0,序列号为0:

#include <stdio.h>int main()
{long long id;id = 1572057648000 << 22; //相当于 id = 1572057648000 << 22 | 0 << 12 | 0;printf("id=%lld\n", id);return 0;
}

输出:

id=6593687681236992000

代码实现主要用到了左移和或位运算(或运算),各个语言类似。上面的实现输出的结果是一个19位长度的整数。

优化

1、时间戳优化

如果时间戳取当前毫秒级时间戳,那么只能表示到2039年,远远不够。我们发现,1970到当前时间这个区间其实是永远都不会用了,那么,为何不使用偏移量呢?也就是时间戳部分不直接取当前毫秒级时间戳,而是在此基础上减去一个过去时间:

id = (1572057648000 - 1569859200000) << 22; 

输出:

id=9220959240192000

上面代码中,第一个时间戳是当前毫秒级时间戳,第二个则是一个过去时间戳(1569859200000表示2019-10-01 00:00:00)。这样我们可以表示的年大概是 当前年份(例如2019) + 69 = 2088 年,很长一段时间内都够用。

2、序列号

序列号默认取0,如果已经使用了则自增。若自增到4096,也就是同一毫秒内的序列号用完了,怎么办呢?需要等待至下一毫秒。部分代码示例:

//同一毫秒并发调用
if (ts == (iw.last_time_stamp)) {//序列号自增iw.sequence = (iw.sequence+1) & MASK_SEQUENCE;//序列号自增到最大值4096,4095 & 4096 = 0if (iw.sequence == 0) {//等待至下一毫秒ts = time_re_gen(ts);}
} else { //同一毫秒没有重复的iw.last_time_stamp = ts;
}

算法变种

1、53bits版本:因为js只支持53位bit的数值

* 0 32 51 53
+-----------+------+------+
|0|time(32) |workid(8) |seq(12) |
+-----------+------+------+

2、其它版本

我们也可以根据自己的业务需求,将不同区间的bit位进行调整。机器位和序列号ID并不是必须的,可以合并。或者拆分出更多的区间表示更多的意义。例如订单号:

* 0 41 47 59  64
+-----------+------+------+------+------+
|0|time(41) |workid(6) |seq(12) | uid(4)
+-----------+------+------+------+------+

我们对订单分16个(2^4)表,每次将 uid & 0xF(也就是 uid & 15)的结果放到后四位,这样以后根据uid查订单的时候,uid mod 16 就能得到数据在哪个分表;同时根据订单ID本身也能找到对应的分表。示例:

php > echo 1572070381000 << 22 | 1 << 16 | 0 << 4 | (1820 & 15);
6593741087309889548
php > echo 1572070381000 << 22 | 1 << 16 | 0 << 4 | (5177331 & 15);
6593741087309889539

验证测试:

php > echo 1572070381000 << 22 | 1 << 16 | 0 << 4 | (5177331 & 15);
6593741087309889539
php > echo 6593741087309889548 % 16;
12
php > echo 1820 % 16;
12
php > echo 6593741087309889539 % 16;
3
php > echo 5177331 % 16;
3

从上面的结果可以看出来,uid、订单号都能定位到相同的分表。

对一个2的n次幂的数num取模(2^n),本质就是num对应二进制的末尾n个bit的和取模。

代码实现

参考网上其它语言的版本,自己写了C和PHP版本的:

  • snowflake-c/snowflake.c at master · 52fhy/snowflake-c
    https://github.com/52fhy/snowflake-c
  • 52fhy/IDWork: Twitter的 Snowflake的PHP版
    https://github.com/52fhy/IDWork

github上其它版本:

  • go语言版本:已用于生产环境,稳定
    https://github.com/bwmarrin/snowflake

  • php c扩展版:未使用过

    fgy58963/php_snowflake: 推特分布式主键生成算法的php扩展
    https://github.com/fgy58963/php_snowflake

参考

1、Twitter-Snowflake,64位自增ID算法详解 - 漫漫路
https://www.lanindex.com/twitter-snowflake%EF%BC%8C64%E4%BD%8D%E8%87%AA%E5%A2%9Eid%E7%AE%97%E6%B3%95%E8%AF%A6%E8%A7%A3/

2、多key业务, 数据库水平切分架构一次搞定 https://mp.weixin.qq.com/s/PCzRAZa9n4aJwHOX-kAhtA

这篇关于Twitter-Snowflake:自增ID算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/519823

相关文章

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.

mysql数据库重置表主键id的实现

《mysql数据库重置表主键id的实现》在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,本文主要介绍了mysql数据库重置表主键id的实现,具有一定的参考价值,感兴趣的可以了... 目录关键语法演示案例在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,当我们

Java时间轮调度算法的代码实现

《Java时间轮调度算法的代码实现》时间轮是一种高效的定时调度算法,主要用于管理延时任务或周期性任务,它通过一个环形数组(时间轮)和指针来实现,将大量定时任务分摊到固定的时间槽中,极大地降低了时间复杂... 目录1、简述2、时间轮的原理3. 时间轮的实现步骤3.1 定义时间槽3.2 定义时间轮3.3 使用时

如何通过Golang的container/list实现LRU缓存算法

《如何通过Golang的container/list实现LRU缓存算法》文章介绍了Go语言中container/list包实现的双向链表,并探讨了如何使用链表实现LRU缓存,LRU缓存通过维护一个双向... 目录力扣:146. LRU 缓存主要结构 List 和 Element常用方法1. 初始化链表2.

mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespace id不一致处理

《mysql8.0无备份通过idb文件恢复数据的方法、idb文件修复和tablespaceid不一致处理》文章描述了公司服务器断电后数据库故障的过程,作者通过查看错误日志、重新初始化数据目录、恢复备... 周末突然接到一位一年多没联系的妹妹打来电话,“刘哥,快来救救我”,我脑海瞬间冒出妙瓦底,电信火苲马扁.

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系