关于使用msck修复hive分区,以及在添加分区缓慢的问题

2023-12-20 02:18

本文主要是介绍关于使用msck修复hive分区,以及在添加分区缓慢的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1)需要修复的分区数量很大的解决办法
set hive.msck.repair.batch.size=1000;
set hive.msck.path.validation=ignore;
第一个参数是设置每次插入到metaStore 分区的批量大小,加入有10000个待修复的分区 那么这里就是10000/1000 共计十个批次,默认如果不设置此参数会把所有数据全部发送到metastore 中执行插入操作。
第二个参数是忽略掉非标准分区表的,不会对这种分区做任何操作,如果需要加入的话 也是需要自己手动alter table xx add partition(xxx) location ‘’;

2)添加缓慢问题
最近项目中在修复分区时发现 alter msck 两种方式都很慢,单单执行一个alter 也很慢,后来发现是由于hive 在mysql 中的元数据表缺失了索引导致的(这里是因为在使用msck 修复部分分区停掉程序后 在hive 终端执行alter 添加分区 报错 expect one partition but more found 然后到mysql PARTITIONS 表中看分区名有重复的,然后我们对比了这边两个集群的元数据信息发现缺失了 PART_ID与TBL_ID 的唯一复合索引,这里猜想应该是插入之前需要根据 分区名称 + 表id 做是否存在的校验,之前这两个字段上是没有唯一索引的,并且这里还发现一个问题是 会存在一个表相同的分区名称有多条记录)。
解决办法:
2.1)删除相关重复记录,主要涉及如下三张表,需要将重复的分区手动删除
PARTITIONS
PARTITION_KEY_VALS
PARTITION_PARAMS
2.2) 添加索引
alter table PARTITIONS add UNIQUE KEY UNIQUEPARTITION (PART_NAME,TBL_ID); --主要是这个
alter table PARTITION_KEY_VALS add KEY PARTITION_KEY_VALS_N49 (PART_ID);

  1. 解决中文问题
    这里在修复过程中发现部分分区名称中含有中文,导致在有中文参与查询时会报错
    Illegal mix of collations (latin1_bin,IMPLICIT) and (utf8_general_ci,COERCIBLE) for operation ‘=’
    报错意思是 服务端是latin1 客户端过来的是utf8 编码不一致 不能比较
    所以这里需要修改相关字段的字符集 这里主要是PART_NAME字段
    ALTER TABLE PARTITIONS CHANGE PART_NAME PART_NAME varchar(767) CHARACTER SET utf8 COLLATE utf8_bin;

这里一定注意 utf8_bin 【区分大小写】 如果使用了 utf8_general_ci 这种字符集是不区分大小写的 ,会与上面设置的唯一索引冲突

这篇关于关于使用msck修复hive分区,以及在添加分区缓慢的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/514489

相关文章

SpringBoot应用中出现的Full GC问题的场景与解决

《SpringBoot应用中出现的FullGC问题的场景与解决》这篇文章主要为大家详细介绍了SpringBoot应用中出现的FullGC问题的场景与解决方法,文中的示例代码讲解详细,感兴趣的小伙伴可... 目录Full GC的原理与触发条件原理触发条件对Spring Boot应用的影响示例代码优化建议结论F

Python虚拟环境终极(含PyCharm的使用教程)

《Python虚拟环境终极(含PyCharm的使用教程)》:本文主要介绍Python虚拟环境终极(含PyCharm的使用教程),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,... 目录一、为什么需要虚拟环境?二、虚拟环境创建方式对比三、命令行创建虚拟环境(venv)3.1 基础命令3

Python Transformer 库安装配置及使用方法

《PythonTransformer库安装配置及使用方法》HuggingFaceTransformers是自然语言处理(NLP)领域最流行的开源库之一,支持基于Transformer架构的预训练模... 目录python 中的 Transformer 库及使用方法一、库的概述二、安装与配置三、基础使用:Pi

关于pandas的read_csv方法使用解读

《关于pandas的read_csv方法使用解读》:本文主要介绍关于pandas的read_csv方法使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录pandas的read_csv方法解读read_csv中的参数基本参数通用解析参数空值处理相关参数时间处理相关

使用Node.js制作图片上传服务的详细教程

《使用Node.js制作图片上传服务的详细教程》在现代Web应用开发中,图片上传是一项常见且重要的功能,借助Node.js强大的生态系统,我们可以轻松搭建高效的图片上传服务,本文将深入探讨如何使用No... 目录准备工作搭建 Express 服务器配置 multer 进行图片上传处理图片上传请求完整代码示例

MySQL 分区与分库分表策略应用小结

《MySQL分区与分库分表策略应用小结》在大数据量、复杂查询和高并发的应用场景下,单一数据库往往难以满足性能和扩展性的要求,本文将详细介绍这两种策略的基本概念、实现方法及优缺点,并通过实际案例展示如... 目录mysql 分区与分库分表策略1. 数据库水平拆分的背景2. MySQL 分区策略2.1 分区概念

SpringBoot条件注解核心作用与使用场景详解

《SpringBoot条件注解核心作用与使用场景详解》SpringBoot的条件注解为开发者提供了强大的动态配置能力,理解其原理和适用场景是构建灵活、可扩展应用的关键,本文将系统梳理所有常用的条件注... 目录引言一、条件注解的核心机制二、SpringBoot内置条件注解详解1、@ConditionalOn

Python中使用正则表达式精准匹配IP地址的案例

《Python中使用正则表达式精准匹配IP地址的案例》Python的正则表达式(re模块)是完成这个任务的利器,但你知道怎么写才能准确匹配各种合法的IP地址吗,今天我们就来详细探讨这个问题,感兴趣的朋... 目录为什么需要IP正则表达式?IP地址的基本结构基础正则表达式写法精确匹配0-255的数字验证IP地

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求