本文主要是介绍Hive中小文件过多的几种处理方式,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
1、使用concatenate(只支持RCFile和ORC格式)
2、减少map数量,调整参数:输入合并文件相关的参数
3、减少reduce的数量(例如直接设置reduce为xx个、或者设置reduce的大小,系统自动根据大小确定reduce的个数)
4、使用distribute by,将数据均衡的分配到reduce中
5、归档合并文件
参考资料 数仓面试高频考点--解决hive小文件过多问题
这篇关于Hive中小文件过多的几种处理方式的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!