本文主要是介绍Tuning (调试),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Tuning Spark
由于大多数Spark计算的内存特性,Spark程序可能会受到群集中任何资源的瓶颈:CPU,网络带宽或内存。 大多数情况下,如果数据适合内存,瓶颈就是网络带宽,但有时候,您还需要进行一些调整,例如以序列化形式存储RDD,以减少内存使用。 本指南将介绍两个主要主题:数据序列化,这对于良好的网络性能至关重要,还可以减少内存使用和内存调整。 我们还草拟了几个较小的主题。
Data Serialization
序列化在任何分布式应用程序的性能中起着重要作用。 将对象序列化或消耗大量字节的速度慢的格式将大大减慢计算速度。 通常,这将是您应该优化Spark应用程序的第一件事。 Spark旨在在便利性(允许您使用操作中的任何Java类型)和性能之间取得平衡。 它提供了两个序列化库:
- Java序列化:默认情况下,Spark使用Java的ObjectOutputStream框架序列化对象,并且可以与您创建的任何实现java.io.Serializable的类一起使用。 您还可以通过扩展java.io.Externalizable来更紧密地控制序列化的性能。 Java序列化是灵活的,但通常很慢,并导致许多类的大型序列化格式。
- Kryo序列化:Spark还可以使用Kryo库(版本2)更快地序列化对象。 Kryo比Java序列化(通常高达10倍)显着更快,更紧凑,但不支持所有Serializable类型,并且需要您提前注册您将在程序中使用的类以获得最佳性能。
您可以通过使用SparkConf初始化作业并调用conf.set(“spark.serializer”,“org.apache.spark.serializer.KryoSerializer”)来切换到使用Kryo。 此设置配置序列化程序,不仅用于在工作节点之间混洗数据,还用于将RDD序列化到磁盘。 Kryo不是默认值的唯一原因是因为自定义注册要求,但我们建议在任何网络密集型应用程序中尝试它。 从Spark 2.0.0开始,我们在使用简单类型,简单类型数组或字符串类型对RDD进行混洗时,内部使用Kryo序列化程序。
Spark自动包含Kryo序列化程序,用于来自Twitter chill库的AllScalaRegistrar中涵盖的许多常用核心Scala类。
要使用Kryo注册自己的自定义类,请使用registerKryoClasses方法。
val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)
Kryo文档描述了更高级的注册选项,例如添加自定义序列化代码。
如果您的对象很大,您可能还需要增加spark.kryoserializer.buffer配置。 此值必须足够大才能容纳要序列化的最大对象。
最后,如果你没有注册你的自定义类,Kryo仍然会工作,但它必须存储每个对象的完整类名,这是浪费。
Memory Tuning
调整内存使用量有三个注意事项:对象使用的内存量(您可能希望整个数据集适合内存),
这篇关于Tuning (调试)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!