spark性能调优---Kryo序列化

本文主要是介绍spark性能调优---Kryo序列化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.为啥要用Kryo序列化

Spark算子操作的时候如果用到外部数据的话，都会对外部数据进行序列化，Spark内部是使用Java的序列化机制，ObjectOutputStream / ObjectInputStream，对象输入输出流机制，来进行序列化这种默认序列化机制的好处在于，处理起来比较方便；也不需要我们手动去做什么事情，只是，你在算子里面使用的变量，必须是实现Serializable接口的，可序列化即可。但是缺点个人觉得默认的序列化机制的效率不高，序列化的速度比较慢；序列化以后的数据，占用的内存空间相对还是比较大。但是Spark支持使用Kryo序列化机制。Kryo序列化机制，比默认的Java序列化机制，速度要快，序列化后的数据要更小，大概是Java序列化机制的1/10。所以Kryo序列化优化以后，可以让网络传输的数据变少；在集群中耗费的内存资源大大减少。

2.Kryo序列化机制，一旦启用以后，会生效的几个地方

a、算子函数中使用到的外部变量，使用Kryo以后：优化网络传输的性能，可以优化集群中内存的占用和消耗

b、持久化RDD，优化内存的占用和消耗；持久化RDD占用的内存越少，task执行的时候，创建的对象，就不至于频繁的占满内存，频繁发生GC。

c、shuffle：可以优化网络传输的性能

3.如何使用Kryo序列化机制（摘自Spark官网）

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

为啥spark默认的序列化机制不改成Kryo序列化机制呢？难道就因为要去注册序列化的类的原因吗？

这篇关于spark性能调优---Kryo序列化的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！