Hive的analyze

2024-01-20 03:38

文章标签 hive analyze

本文主要是介绍Hive的analyze，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、使用

分区表，无论字段

analyze TABLE td.pt_pmart_ceo_FIN_TRSF_CTR_SITE_MAP partition (dt) COMPUTE STATISTICS noscan

ps：一致报错的可能性在UDF函数建在了某个库下，只有在hue上的active database选择某个库的时候才能用UDF

刷新hdfs文件和表分区的映射关系

MSCK REPAIR TABLE jmxk_data.ods_sap_cskt_dd;

2、目的

见名知意，它的目的就是为了统计和分析的作用，它将统计的信息存储到metastore中，后续再来查询的时候就不需要在执行查询计算，而是直接获取即可

3、范围

统计信息支持新建的和现有的表，支持分区表和普通表的统计信息以及列统计信息

4、ANALYZE相关

1、表统计

表统计的信息包括:行数，文件数，大小（以字节为单位）

1、hive 是默认自动收集统计信息，由hive.stats.autogather 配置参数决定，默认是true。但是对于load data 方式是不支持的。（想一下也可以知道，他应该是在计算的时候去计算出这些统计信息）

-注意:这个在hive中是自动收集的。在sparkThriftserver中并不适用，虽然用的hive的元数据信息，但是它们两个在这方面不相通。

这篇关于Hive的analyze的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/624678。 23002807@qq.com

相关文章

java如何通过Kerberos认证方式连接hive

java如何通过Kerberos认证方式连接hive

《java如何通过Kerberos认证方式连接hive》该文主要介绍了如何在数据源管理功能中适配不同数据源（如MySQL、PostgreSQL和Hive）,特别是如何在SpringBoot3框架下通过... 目录Java实现Kerberos认证主要方法依赖示例续期连接hive遇到的问题分析解决方式扩展思考总

阅读更多...

Hive和Hbase的区别

Hive和Hbase的区别

Hive 和 HBase 都是 Hadoop 生态系统中的重要组件，它们都能处理大规模数据，但各自有不同的适用场景和设计理念。以下是两者的主要区别： 1. 数据模型 Hive：Hive 类似于传统的关系型数据库 (RDBMS)，以表格形式存储数据。它使用 SQL-like 语言 HiveQL 来查询和处理数据，数据通常是结构化或半结构化的。HBase：HBase 是一个 NoSQL 数据库，基

阅读更多...

掌握Hive函数[2]：从基础到高级应用

掌握Hive函数[2]：从基础到高级应用

目录高级聚合函数多进一出 1. 普通聚合 count/sum... 2. collect_list 收集并形成list集合，结果不去重 3. collect_set 收集并形成set集合，结果去重案例演示 1. 每个月的入职人数以及姓名炸裂函数概述案例演示 1. 数据准备 1）表结构 2）建表语句 3）装载语句 2. 需求 1）需求说明 2）答

阅读更多...

【Hive Hbase】Hbase与Hive的区别与联系

【Hive Hbase】Hbase与Hive的区别与联系

问题导读： Hive与Hbase的底层存储是什么？ hive是产生的原因是什么？ habase是为了弥补hadoop的什么缺陷？共同点： 1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别： 2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目

阅读更多...

【hive 日期转换】Hive中yyyymmdd和yyyy-mm-dd日期之间的切换

【hive 日期转换】Hive中yyyymmdd和yyyy-mm-dd日期之间的切换

方法1: from_unixtime+ unix_timestamp--20171205转成2017-12-05 select from_unixtime(unix_timestamp('20171205','yyyymmdd'),'yyyy-mm-dd') from dual;--2017-12-05转成20171205select from_unixtime(unix_timestamp

阅读更多...

【hive 函数】Hive分析函数和窗口函数

【hive 函数】Hive分析函数和窗口函数

拿一个例子来说数据集： cookie1,2015-04-10 10:00:02,url2 cookie1,2015-04-10 10:00:00,url1 cookie1,2015-04-10 10:03:04,1url3 cookie1,2015-04-10 10:50:05,url6 cookie1,2015-04-10 11:00:00,url7 cookie1,2

阅读更多...

Hive SQL 分组与连接操作详解

Hive SQL 分组与连接操作详解

目录分组 Group By语句 1. 案例实操 Having语句 1. having 与 where 不同点 2. 案例实操 Join语句等值Join 1. 案例实操表的别名 1. 好处 2. 案例实操内连接左外连接右外连接满外连接多表连接 1. 创建位置表 2. 导入数据 3. 多表连接查询笛卡尔集 1. 笛卡尔集

阅读更多...

Hive SQL基础语法及查询实践

Hive SQL基础语法及查询实践

目录基础语法 1. 官网地址 2. 查询语句语法基本查询（Select…From）数据准备（0）原始数据（1）创建部门表（2）创建员工表（3）导入数据全表和特定列查询 1. 全表查询 2. 选择特定列查询列别名 1. 重命名一个列 2. 便于计算 3. 紧跟列名，也可以在列名和别名之间加入关键字 ‘AS’ 案例实操 Limit语句

阅读更多...

Hive是什么？

Hive是什么？

Apache Hive 是一个基于 Hadoop 的数据仓库工具，用于在 Hadoop 分布式文件系统（HDFS）上管理和查询大规模结构化数据集。Hive 提供了一个类似 SQL 的查询语言，称为 HiveQL，通过这种语言可以在 HDFS 上执行 MapReduce 作业而无需编写复杂的代码。 Hive 的核心概念和特点数据仓库工具：Hive 可以将结构化数据存储在 HDFS 上，用户可

阅读更多...

Hive扩展功能(一)--Parquet

Hive扩展功能(一)--Parquet

软件环境: linux系统: CentOS6.7Hadoop版本: 2.6.5zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这三部机, 每部主机的用户名都为centos 192.168.179.201: m1 192.168.179.202: m2 192.168.179.203: m3 m1: Zookeeper, Namenode, DataNod

阅读更多...