关于使用msck修复hive分区,以及在添加分区缓慢的问题

2023-12-20 02:18

本文主要是介绍关于使用msck修复hive分区,以及在添加分区缓慢的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1)需要修复的分区数量很大的解决办法
set hive.msck.repair.batch.size=1000;
set hive.msck.path.validation=ignore;
第一个参数是设置每次插入到metaStore 分区的批量大小,加入有10000个待修复的分区 那么这里就是10000/1000 共计十个批次,默认如果不设置此参数会把所有数据全部发送到metastore 中执行插入操作。
第二个参数是忽略掉非标准分区表的,不会对这种分区做任何操作,如果需要加入的话 也是需要自己手动alter table xx add partition(xxx) location ‘’;

2)添加缓慢问题
最近项目中在修复分区时发现 alter msck 两种方式都很慢,单单执行一个alter 也很慢,后来发现是由于hive 在mysql 中的元数据表缺失了索引导致的(这里是因为在使用msck 修复部分分区停掉程序后 在hive 终端执行alter 添加分区 报错 expect one partition but more found 然后到mysql PARTITIONS 表中看分区名有重复的,然后我们对比了这边两个集群的元数据信息发现缺失了 PART_ID与TBL_ID 的唯一复合索引,这里猜想应该是插入之前需要根据 分区名称 + 表id 做是否存在的校验,之前这两个字段上是没有唯一索引的,并且这里还发现一个问题是 会存在一个表相同的分区名称有多条记录)。
解决办法:
2.1)删除相关重复记录,主要涉及如下三张表,需要将重复的分区手动删除
PARTITIONS
PARTITION_KEY_VALS
PARTITION_PARAMS
2.2) 添加索引
alter table PARTITIONS add UNIQUE KEY UNIQUEPARTITION (PART_NAME,TBL_ID); --主要是这个
alter table PARTITION_KEY_VALS add KEY PARTITION_KEY_VALS_N49 (PART_ID);

  1. 解决中文问题
    这里在修复过程中发现部分分区名称中含有中文,导致在有中文参与查询时会报错
    Illegal mix of collations (latin1_bin,IMPLICIT) and (utf8_general_ci,COERCIBLE) for operation ‘=’
    报错意思是 服务端是latin1 客户端过来的是utf8 编码不一致 不能比较
    所以这里需要修改相关字段的字符集 这里主要是PART_NAME字段
    ALTER TABLE PARTITIONS CHANGE PART_NAME PART_NAME varchar(767) CHARACTER SET utf8 COLLATE utf8_bin;

这里一定注意 utf8_bin 【区分大小写】 如果使用了 utf8_general_ci 这种字符集是不区分大小写的 ,会与上面设置的唯一索引冲突

这篇关于关于使用msck修复hive分区,以及在添加分区缓慢的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/514489

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监