MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明

本文主要是介绍MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转自: http://blog.csdn.net/javastart/article/details/51306423


第1部分 messagepack说明

1.1messagepack的消息编码说明

为什么messagepackjson序列化使用的字节流更少, 可通过图1-1、图1-2有个直观的感觉。

 

 

1- 1 messagepackjson的格式对比1



 

1- 2 messagepackjson的格式对比2

messagepack的具体的消息格式如图1-3所示,messagepack的数据类型主要分类两类:固定长度类型和可变长度类型。



 

1- 3 messagepack的消息格式

messagepack的具体类型信息表示如图1-4所示。

 

 

1- 4 messagepack的类型信息

1.2 messagepack的序列化和反序列化方式

现在msgpack能支持基本的数据类型,支持listmap, 还支持自定义的数据类型。例子1, 序列化和反序列化一个javabean, 只要加上@MessagePackMessage的注解。

 

Java代码  复制代码  收藏代码
  1. /**  
  2.  * 一个用于messagepack测试序列化和反序列的javabean  
  3.  *   
  4.  * @author jimmee  
  5.  */  
  6. @MessagePackMessage    
  7. public class Person {   
  8. /** 编号 */  
  9. public int id;   
  10. /** 名字 */  
  11. public String name;   
  12. /**身高*/  
  13. public double height;   
  14. /**  
  15.  * 默认构造函数  
  16.  */  
  17. public Person() {   
  18. }  
[java]  view plain  copy
  1. /** 
  2.  * 一个用于messagepack测试序列化和反序列的javabean 
  3.  *  
  4.  * @author jimmee 
  5.  */  
  6. @MessagePackMessage   
  7. public class Person {  
  8. /** 编号 */  
  9. public int id;  
  10. /** 名字 */  
  11. public String name;  
  12. /**身高*/  
  13. public double height;  
  14. /** 
  15.  * 默认构造函数 
  16.  */  
  17. public Person() {  
  18. }  

 

 

 

序列化直接调用MessagePackpack方法;反序列化则调用对应的unpack方法。这两个方法,都支持传递序列化和反序列化的数据类型。

1.3 与json的序列化性能对比

如下所示,通过100条数据的序列化和反序列化进行对比。

 

Java代码  复制代码  收藏代码
  1. List<Map> msgs = new ArrayList<Map>();   
  2. for (int i = 0; i < 100; i++) {   
  3. Map msg = new HashMap();   
  4. msg.put(Const.FID, i);   
  5. msg.put(Const.SUBJECT, "subject" + i);   
  6. msg.put(Const.LABEL0, 1);   
  7. msg.put(Const.FROM, "test@163.com");   
  8. msg.put(Const.TO, "test@126.com");   
  9. msg.put(Const.MODIFIED_DATE, new Date().getTime());   
  10. msg.put(Const.RECEIVED_DATE, new Date().getTime());   
  11. msg.put(Const.SENT_DATE, new Date().getTime());   
  12. msgs.add(msg);   
  13.     }  
[java]  view plain  copy
  1. List<Map> msgs = new ArrayList<Map>();  
  2. for (int i = 0; i < 100; i++) {  
  3. Map msg = new HashMap();  
  4. msg.put(Const.FID, i);  
  5. msg.put(Const.SUBJECT, "subject" + i);  
  6. msg.put(Const.LABEL0, 1);  
  7. msg.put(Const.FROM, "test@163.com");  
  8. msg.put(Const.TO, "test@126.com");  
  9. msg.put(Const.MODIFIED_DATE, new Date().getTime());  
  10. msg.put(Const.RECEIVED_DATE, new Date().getTime());  
  11. msg.put(Const.SENT_DATE, new Date().getTime());  
  12. msgs.add(msg);  
  13.     }  

 

 

比较结果如表1-1所示。

1- 1 messagepackjson的性能对比

框架

字节大小(byte

序列化时间(ns

反序列化时间(ns

messagepack

12793

2313335

529458

json

17181

 1338371

1776519

 

可以看出,messagepack的序列化字节数比json小将近30%;序列化时间messagepack差不多是json的两倍;反序列化时间,messagepack只需要json30%的时间。

但是,值得注意的是,虽然messagepack的反序列化时间比较少,但是要真正转换为前端需要的类型参数格式,还需要额外的一些时间。

第2部分 protocol buffers

2.1 protocol buffers的消息编码说明

Protocol Buffers支持的数据类型如下图所示:



  

2- 1 protocol buffers支持的数据类型。

首先对Varint进行说明。Varint 是一种紧凑的表示数字的方法。它用一个或多个字节来示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。

比如对于 int32 类型的数字,一般需要 个 byte 来表示。但是采用 Varint,对于很小的 int32 类型的数字,则可以用 个 byte 来表示。当然,采用 Varint 表示法,大的数字则需要 个 byte 来表示。从统计的角度来说,一般不会所有的消息中的数字都是大数,因此大多数情况下,采用 Varint 后,可以用更少的字节数来表示数字信息。

Varint 中的每个 byte 的最高位 bit 有特殊的含义,如果该位为 1,表示后续的 byte 也是该数字的一部分,如果该位为 0,则结束。其他的 个 bit 都用来表示数字。因此小于 128 的数字都可以用一个 byte 表示。大于 128 的数字,比如 300,会用两个字节来表示:1010 1100 0000 0010

2-2说明了 Google Protocol Buffer 如何解析两个 bytes。注意到最终计算前将两个 byte 的位置相互交换过一次,这是因为 Google Protocol Buffer 字节序采用 little-endian 的方式。



  

2- 2 protocol buffers解析两个字节

消息经过序列化后会成为一个二进制数据流,该流中的数据为一系列的 Key-Value 对,如图2-3所示。



  

2- 3 protocol buffers的消息流

采用这种 Key-Pair 结构无需使用分隔符来分割不同的 Field。对于可选的 Field,如果消息中不存在该 field,那么在最终的 Message Buffer 中就没有该 field,这些特性都有助于节约消息本身的大小。

假设我们生成如下的一个消息Message

 Message.id = 5

 Message.info = “hello”

则最终的 Message Buffer 中有两个 Key-Value 对,一个对应消息中的 id;另一个对应 info

Key 用来标识具体的 field,在解包的时候,Protocol Buffer 根据 Key 就可以知道相应的 Value 应该对应于消息中的哪一个 field

Key 的定义如下:

 (field_number << 3) | wire_type 

可以看到 Key 由两部分组成。第一部分是 field_number。第二部分为 wire_type。表示 Value 的传输类型。

wire type如表2-1所示。

2- 1 wire type说明

Type 

Meaning 

Used For 

Varint 

int32, int64, uint32, uint64, sint32, sint64, bool, enum 

64-bit 

fixed64, sfixed64, double 

Length-delimited 

string, bytes, embedded messages, packed repeated fields 

Start group 

Groups (deprecated) 

End group 

Groups (deprecated) 

32-bit 

fixed32, sfixed32, float 

 

在计算机内,一个负数一般会被表示为一个很大的整数,因为计算机定义负数的符号位为数字的最高位。如果采用 Varint 表示一个负数,那么一定需要 个 byte。为此 Google Protocol Buffer 定义了 sint32sint64 类型,采用 zigzag 编码。

Zigzag 编码用无符号数来表示有符号数字,正数和负数交错,如图2-3所示。使用 zigzag 编码,绝对值小的数字,无论正负都可以采用较少的 byte 来表示,充分利用了 Varint 这种技术。


  

2- 4 ZigZag编码

2.2 protocol buffers的序列化和反序列化

步骤:

创建消息的定义文件.proto

使用protoc工具将proto文件转换为相应语言的源码;

使用类库支持的序列化和反序列化方法进行操作。

 

以同样的数据的操作为例:

1. 定义proto文件messages.ptoto

 

Java代码  复制代码  收藏代码
  1. message MessageMeta {   
  2.   required int32 id = 1;   
  3.   required string subject = 2;     
  4. optional int32 lablel0 = 3;   
  5. required string from = 4;   
  6. required string to = 5;   
  7. optional int64 modifiedDate = 6;   
  8. optional int64 receivedDate = 7;   
  9. optional int64 sentDate = 8;   
  10. }  
[java]  view plain  copy
  1. message MessageMeta {  
  2.   required int32 id = 1;  
  3.   required string subject = 2;    
  4. optional int32 lablel0 = 3;  
  5. required string from = 4;  
  6. required string to = 5;  
  7. optional int64 modifiedDate = 6;  
  8. optional int64 receivedDate = 7;  
  9. optional int64 sentDate = 8;  
  10. }  

 

 

 

 

Java代码  复制代码  收藏代码
  1. message MessageMetas {   
  2. repeated MessageMeta msg = 1;   
  3. }  
[java]  view plain  copy
  1. message MessageMetas {  
  2. repeated MessageMeta msg = 1;  
  3. }  

 

 

2. message.proto文件转换为java语言的源码

例如, 执行命令:protoc -I=src --java_out=out src/messages.proto产生Messagesjava文件。

3. 执行序列化和反序列化

 

Java代码  复制代码  收藏代码
  1. MessageMetas.Builder msgsBuilder = MessageMetas.newBuilder();   
  2. for (int i = 0; i < 100; i++) {   
  3. MessageMeta.Builder msgBuilder = MessageMeta.newBuilder();   
  4. msgBuilder.setId(i);   
  5. msgBuilder.setSubject("subject" + i);   
  6. msgBuilder.setLablel0(1);   
  7. msgBuilder.setFrom("test@163.com");   
  8. msgBuilder.setTo("test@126.com");   
  9. msgBuilder.setModifiedDate(new Date().getTime());   
  10. msgBuilder.setReceivedDate(new Date().getTime());   
  11. msgBuilder.setSentDate(new Date().getTime());   
  12. msgsBuilder.addMsg(msgBuilder.build());   
  13. }   
  14. MessageMetas msgs = msgsBuilder.build();  
[java]  view plain  copy
  1. MessageMetas.Builder msgsBuilder = MessageMetas.newBuilder();  
  2. for (int i = 0; i < 100; i++) {  
  3. MessageMeta.Builder msgBuilder = MessageMeta.newBuilder();  
  4. msgBuilder.setId(i);  
  5. msgBuilder.setSubject("subject" + i);  
  6. msgBuilder.setLablel0(1);  
  7. msgBuilder.setFrom("test@163.com");  
  8. msgBuilder.setTo("test@126.com");  
  9. msgBuilder.setModifiedDate(new Date().getTime());  
  10. msgBuilder.setReceivedDate(new Date().getTime());  
  11. msgBuilder.setSentDate(new Date().getTime());  
  12. msgsBuilder.addMsg(msgBuilder.build());  
  13. }  
  14. MessageMetas msgs = msgsBuilder.build();  

 

 

之后调用相应的writeTo方法进行序列化, 调用parseFrom进行反序列化。

2.3 与json等的性能对比

2- 2 性能对比表格

框架

字节大小(byte

序列化时间(ns

反序列化时间(ns

messagepack

12793

2313335

529458

protocol buffers

6590

941790

408571

json

17181

 1338371

1776519

 

可以看出,protocol buffers在字节流,序列化时间和反序列化时间方面都明显较优(即空间和时间上都比较好)。

第3部分 thrift

thrift的架构如图3-1所示。图3-1显示了创建serverclientstack。最上面的是IDL,然后生成ClientProcessor。红色的是发送的数据。protocoltransport Thrift运行库的一部分。通过Thrift 你只需要关心服务的定义,而不需要关心protocoltransport

Thrift支持 text 和 binary protocolsbinary protocols要比text protocols,但是有时候 text protocols比较有用(例如:调试的时候)。支持的协议有:

TBinaryProtocol 直接的二进制格式

TCompactProtocol 效率和高压缩编码数据

TDenseProtocoal  和TCompactProtocol相似,但是省略了meta信息,从哪里发送的,增加了receiver。还在实验中,java实现还不可用。

TJSONProtocoal使用JSON

TSImpleJSONProtocoal 只写的protocol使用JSON。适合被脚本语言转化

TDebugProtocoal使用人类可读的text 格式 帮助调试



  

3- 1 thrift架构图

上面的protocol 说明了传送的是什么样的数据Thrift transports 则说明了怎样传送这些数据。支持的transport

TSocket 使用 blocking socket I/O

TFramedTransport 以帧的形式发送,每帧前面是一个长度。要求服务器来non-blocking server

TFileTransport 写到文件

TMemoryTransport 使用内存 I/O java实现中在内部使用了ByteArrayOutputStream

TZlibTransport 压缩 使用zlibjava实现中还不可用

最后,thrift 提供了servers

TSimpleServer 单线程server,使用标准的blocking IO用于测试

TThreadPoolServer多线程server 使用标准的blocking IO

TNonblockingServer  多线程 server使用 non-blocking IO java实现中使用了NIO channels),TFramedTransport必须使用在这个服务器。

一个server只允许定义一个接口服务。这样的话多个接口需要多个server。这样会带来资源的浪费。通常可以通过定义一个组合服务来解决。

3.1 thrift的消息编码说明

1. 支持的数据类型

所有编程语言中都可用的关键类型。

bool 布尔值,真或假

byte 有符号字节

i16  16位有符号整数

i32  32位有符号整数

i64  64位有符号整数

double 64位浮点数

string 与编码无关的文本或二进制字符串

可基于基本类型定义结构体,例如:

 

Java代码  复制代码  收藏代码
  1. struct Example {   
  2. 1:i32 number=10,   
  3. 2:i64 bigNumber,   
  4. 3:double decimals,   
  5. 4:string name="thrifty"  
  6. }  
[java]  view plain  copy
  1. struct Example {  
  2. 1:i32 number=10,  
  3. 2:i64 bigNumber,  
  4. 3:double decimals,  
  5. 4:string name="thrifty"  
  6. }  

 

 

支持的容器有list<type>set<type>Map<type1,type2>

若使用TCompactProtocol,传递的消息形式如图3-2所示:

 

 

3- 2 thriftcompact方式的消息流

在这种方式下,对整数而言,也是采用可变长度的方式进行实现。一个字节,最高位表示是否还有数据,低7位是实际的数据,如图3-3所示, 整数106903的编码, 相比普通的int类型,节省一个字节。



  

3- 3 compact方式对一个整数106903进行编码

3.2thrift的序列化和反序列化方式

步骤:

创建thrift接口定义文件;

thrift的定义文件转换为对应语言的源代码;

选择相应的protocol,进行序列化和反序列化。

仍以同样的数据对象为例子:

定义thrift文件messages.thrift

 

Java代码  复制代码  收藏代码
  1. struct MessageMeta {   
  2.   1:i32 id;   
  3.   2:string subject;     
  4. 3:i32 lablel0;   
  5. 4:string from;   
  6. 5:string to;   
  7. 6:i64 modifiedDate;   
  8. 7:i64 receivedDate;   
  9. 8:i64 sentDate;   
  10. }   
  11.     
  12. struct MessageMetas {   
  13. 1:list<MessageMeta> msgs;   
  14. }  
[java]  view plain  copy
  1. struct MessageMeta {  
  2.   1:i32 id;  
  3.   2:string subject;    
  4. 3:i32 lablel0;  
  5. 4:string from;  
  6. 5:string to;  
  7. 6:i64 modifiedDate;  
  8. 7:i64 receivedDate;  
  9. 8:i64 sentDate;  
  10. }  
  11.    
  12. struct MessageMetas {  
  13. 1:list<MessageMeta> msgs;  
  14. }  

 

 

 

2. 将定义的文件转换成相应的java源码

执行命令:thrift -gen java messages.thrift

3. 执行序列化和反序列化

 

Java代码  复制代码  收藏代码
  1. MessageMetas msgs = new MessageMetas();   
  2. List<MessageMeta> msgList = new ArrayList<MessageMeta>();   
  3. for (int i = 0; i < 100; i++) {   
  4. MessageMeta msg = new MessageMeta();   
  5. msg.setId(i);   
  6. msg.setSubject("subject" + i);   
  7. msg.setLablel0(1);   
  8. msg.setFrom("test@163.com");   
  9. msg.setTo("test@126.com");   
  10. msg.setModifiedDate(new Date().getTime());   
  11. msg.setReceivedDate(new Date().getTime());   
  12. msg.setSentDate(new Date().getTime());   
  13. msgList.add(msg);   
  14. }   
  15. msgs.setMsgs(msgList);   
  16. // 序列化   
  17. ByteArrayOutputStream out = new ByteArrayOutputStream();   
  18. TTransport trans = new TIOStreamTransport(out);   
  19. TBinaryProtocol tp = new TBinaryProtocol(trans);   
  20. msgs.write(tp);   
  21.     
  22. byte [] buf = out.toByteArray();   
  23. // 反序列化   
  24. ByteArrayInputStream in = new ByteArrayInputStream(buf);   
  25. trans = new TIOStreamTransport(in);   
  26. tp = new TBinaryProtocol(trans);   
  27. MessageMetas msgs2 = new MessageMetas();   
  28. msgs2.read(tp);  
[java]  view plain  copy
  1. MessageMetas msgs = new MessageMetas();  
  2. List<MessageMeta> msgList = new ArrayList<MessageMeta>();  
  3. for (int i = 0; i < 100; i++) {  
  4. MessageMeta msg = new MessageMeta();  
  5. msg.setId(i);  
  6. msg.setSubject("subject" + i);  
  7. msg.setLablel0(1);  
  8. msg.setFrom("test@163.com");  
  9. msg.setTo("test@126.com");  
  10. msg.setModifiedDate(new Date().getTime());  
  11. msg.setReceivedDate(new Date().getTime());  
  12. msg.setSentDate(new Date().getTime());  
  13. msgList.add(msg);  
  14. }  
  15. msgs.setMsgs(msgList);  
  16. // 序列化  
  17. ByteArrayOutputStream out = new ByteArrayOutputStream();  
  18. TTransport trans = new TIOStreamTransport(out);  
  19. TBinaryProtocol tp = new TBinaryProtocol(trans);  
  20. msgs.write(tp);  
  21.    
  22. byte [] buf = out.toByteArray();  
  23. // 反序列化  
  24. ByteArrayInputStream in = new ByteArrayInputStream(buf);  
  25. trans = new TIOStreamTransport(in);  
  26. tp = new TBinaryProtocol(trans);  
  27. MessageMetas msgs2 = new MessageMetas();  
  28. msgs2.read(tp);  

 

 

3.3json等的性能对比

3- 1 性能对比

框架

字节大小(byte

序列化时间(ns

反序列化时间(ns

messagepack

12793

2313335

529458

protocol buffers

6590

941790

408571

thrift

6530

798696

754458

json

17181

 1338371

1776519

 

通过对比,可以发现thrift总的来说,都比较不错。

第4部分 小结

通过对messagepackprotocol buffers以及thrift的分析,主要分析了这些框架的序列化和反序列化部分的内容。实际上messagepackthrift都还有自己的rpc调用框架。

所有的测试都是在本机上进行,基于100条元数据进行测试。可能不同数据,以及不同的规模,测试结果应该会存在差别,https://github.com/eishay/jvm-serializers/wiki/的有比较好的测试结果说明。根据自己的测试,从性能上说,messagepackprotocol buffers以及thrift都比json好(在测试时,发现messagepack序列化的时间稍微多一些)。

从编程语言上来说,messagepackprotocol buffers以及thrift,当然还包括json,都是支持跨语言的通讯的。

从接口定义的灵活性来(或者是否支持动态类型),messagepackprotocol buffers以及thrift较好,后两者都要预先定义schema并相对固定

 

 实际工作中, 一般都采用protocol buffers或者thrift.

 

第5部分 参考资料

1. http://msgpack.org/

2. http://code.google.com/intl/zh-CN/apis/protocolbuffers/docs/overview.html

3. http://jnb.ociweb.com/jnb/jnbJun2009.html

4. http://code.google.com/p/thrift-protobuf-compare/

5. http://www.tbdata.org/archives/1307

6. https://github.com/eishay/jvm-serializers/wiki/

7. http://wiki.apache.org/thrift/

8. http://pypi.python.org/pypi/msgpack-python/

这篇关于MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110587

相关文章

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

Redis分布式锁使用及说明

《Redis分布式锁使用及说明》本文总结了Redis和Zookeeper在高可用性和高一致性场景下的应用,并详细介绍了Redis的分布式锁实现方式,包括使用Lua脚本和续期机制,最后,提到了RedLo... 目录Redis分布式锁加锁方式怎么会解错锁?举个小案例吧解锁方式续期总结Redis分布式锁如果追求

结构体和联合体的区别及说明

《结构体和联合体的区别及说明》文章主要介绍了C语言中的结构体和联合体,结构体是一种自定义的复合数据类型,可以包含多个成员,每个成员可以是不同的数据类型,联合体是一种特殊的数据结构,可以在内存中共享同一... 目录结构体和联合体的区别1. 结构体(Struct)2. 联合体(Union)3. 联合体与结构体的

MyBatis框架实现一个简单的数据查询操作

《MyBatis框架实现一个简单的数据查询操作》本文介绍了MyBatis框架下进行数据查询操作的详细步骤,括创建实体类、编写SQL标签、配置Mapper、开启驼峰命名映射以及执行SQL语句等,感兴趣的... 基于在前面几章我们已经学习了对MyBATis进行环境配置,并利用SqlSessionFactory核

Java中JSON字符串反序列化(动态泛型)

《Java中JSON字符串反序列化(动态泛型)》文章讨论了在定时任务中使用反射调用目标对象时处理动态参数的问题,通过将方法参数存储为JSON字符串并进行反序列化,可以实现动态调用,然而,这种方式容易导... 需求:定时任务扫描,反射调用目标对象,但是,方法的传参不是固定的。方案一:将方法参数存成jsON字

关于SpringBoot的spring.factories文件详细说明

《关于SpringBoot的spring.factories文件详细说明》spring.factories文件是SpringBoot自动配置机制的核心部分之一,它位于每个SpringBoot自动配置模... 目录前言一、基本结构二、常见的键EnableAutoConfigurationAutoConfigu

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和