使用pyspark出现问题: 14/10/24 14:51:40 ERROR lzo.GPLNativeCodeLoader: Could not load native gpl library java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path cp /usr/lib/hadoo
set hive.lzo.paralle.read.index.thread = 1000; 应该是读lzo文件的时候起多个进程去读数据,如果来源表是lzo而且小文件比较多,加这个可以加快速度。 查看默认值: set hive.lzo.paralle.read.index.thread ; -- hive.lzo.paralle.read.index.thread is undefined