本文主要是介绍【Spark加速】加大hive表在HDFS存的分片文件大小,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
配置参数:
spark.hadoop.hive.exec.orc.default.stripe.size=78643200
spark.hadoop.orc.stripe.size=78643200
spark.hadoopRDD.targetBytesInPartition=78643200
spark.hadoop.hive.exec.dynamic.partition.mode=nonstrict
spark.sql.sources.partitionOverwriteMode=dynamic
spark.sql.hive.convertMetastoreOrc=true
代码里落表前的.repartition(5000)
这种要删掉
spark.sql.shuffle.partitions=5000
这个配置参数也要删掉
这篇关于【Spark加速】加大hive表在HDFS存的分片文件大小的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!