Tuning (调试)

2024-04-05 02:48

文章标签 调试 tuning

本文主要是介绍Tuning (调试)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Tuning Spark

由于大多数Spark计算的内存特性，Spark程序可能会受到群集中任何资源的瓶颈：CPU，网络带宽或内存。大多数情况下，如果数据适合内存，瓶颈就是网络带宽，但有时候，您还需要进行一些调整，例如以序列化形式存储RDD，以减少内存使用。本指南将介绍两个主要主题：数据序列化，这对于良好的网络性能至关重要，还可以减少内存使用和内存调整。我们还草拟了几个较小的主题。

Data Serialization

序列化在任何分布式应用程序的性能中起着重要作用。将对象序列化或消耗大量字节的速度慢的格式将大大减慢计算速度。通常，这将是您应该优化Spark应用程序的第一件事。 Spark旨在在便利性（允许您使用操作中的任何Java类型）和性能之间取得平衡。它提供了两个序列化库：

Java序列化：默认情况下，Spark使用Java的ObjectOutputStream框架序列化对象，并且可以与您创建的任何实现java.io.Serializable的类一起使用。您还可以通过扩展java.io.Externalizable来更紧密地控制序列化的性能。 Java序列化是灵活的，但通常很慢，并导致许多类的大型序列化格式。
Kryo序列化：Spark还可以使用Kryo库（版本2）更快地序列化对象。 Kryo比Java序列化（通常高达10倍）显着更快，更紧凑，但不支持所有Serializable类型，并且需要您提前注册您将在程序中使用的类以获得最佳性能。

您可以通过使用SparkConf初始化作业并调用conf.set（“spark.serializer”，“org.apache.spark.serializer.KryoSerializer”）来切换到使用Kryo。此设置配置序列化程序，不仅用于在工作节点之间混洗数据，还用于将RDD序列化到磁盘。 Kryo不是默认值的唯一原因是因为自定义注册要求，但我们建议在任何网络密集型应用程序中尝试它。从Spark 2.0.0开始，我们在使用简单类型，简单类型数组或字符串类型对RDD进行混洗时，内部使用Kryo序列化程序。

Spark自动包含Kryo序列化程序，用于来自Twitter chill库的AllScalaRegistrar中涵盖的许多常用核心Scala类。

要使用Kryo注册自己的自定义类，请使用registerKryoClasses方法。

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

Kryo文档描述了更高级的注册选项，例如添加自定义序列化代码。
如果您的对象很大，您可能还需要增加spark.kryoserializer.buffer配置。此值必须足够大才能容纳要序列化的最大对象。
最后，如果你没有注册你的自定义类，Kryo仍然会工作，但它必须存储每个对象的完整类名，这是浪费。