hiveQL学习和hive常用操作

2023-10-19 10:32
文章标签 学习 操作 常用 hive hiveql

本文主要是介绍hiveQL学习和hive常用操作,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hive服务

Hive外壳环境是可以使用hive命令来运行的一项服务。可以在运行时使用-

service选项指明要使用哪种服务。键入hive-servicehelp可以获得可用服务

列表。下面介绍最有用的一些服务。

cli

   Hive的命令行接口(外壳环境)。这是默认的服务。

hiveserver

    让Hive以提供Trift服务的服务器形式运行,允许用不同语言编写的客户端进

    行访问。使用Thrift,  JDBC和ODBC连接器的客户端需要运行Hive服务器来

    和Hive进行通信。通过设置HIVE_ PORT环境变量来指明服务器所监听的端口

    号(默认为10 000).

hwi

Hive的Web接口。参见第372页的补充内容“HiveWeb Interface"。

(hive –service hwi)启动web服务后通过访问http://ip:9999/hwi

jar

    与hadoopjar等价的Hive的接口。这是运行类路径中同时包含Hadoop和

   Hive类的Java应用程序的简便方法。

metastore

    默认情况下,metastore和Hive服务运行在同一个进程里。使用这个服务,可

    以让metastore作为一个单独的(远程)进程运行。通过设置METASTORE_PORT

环境变量可以指定服务器监听的端口号。

 

 

 

 

 

Hive客户端

启动(hive --service hiveserver &)hive远程访问服务

会提示Starting Hive Thrift Server 。

这个时候就可以通过thrift 客户端,jdbc驱动,odbc驱动去访问和操作了。

 

Metastore

 

metastore是Hive元数据的集中存放地。metastore包括两部分:服务和后台数据的存储。

 

默认derby数据,不过只能单机访问。

一般都放在远程数据库,hive和元数据数据库分开放。比如mysql直接配置上mysql参数即可。参考安装部分。

 

 

 

 

 

HiveQL

 

Hive查询的和数据处理的语言,内部会解析成对应的操作或者mapreduce程序等处理。

 

数据类型

基本数据类型

TINYINT: 1个字节

SMALLINT: 2个字节

INT: 4个字节  

BIGINT: 8个字节

BOOLEAN: TRUE/FALSE 

FLOAT: 4个字节,单精度浮点型

DOUBLE: 8个字节,双精度浮点型

STRING      字符串

复杂数据类型

ARRAY: 有序字段

MAP: 无序字段

STRUCT: 一组命名的字段

 

 

数据转换

Hive中数据部分可以通行的范围是允许隐身转换的。

个人处理数据要显示指定转化的话可以调用cast函数比如:cast(‘1’ as int)

当然如果说处理的数据属于非法的话,比如cast(‘x’ as int) 会直接返回null

 

 

Hive表格逻辑上由存储的数据和描述表格中数据形式的相关元数据组成。

Hive表中存在两种形式一个是在自己仓库目录(托管表),另一种是hdfs仓库目录以外的(外部表)。对于托管表基本上是load和drop的时候直接对数据和元数据都操作。但是外部表却是基本只对元数据操作。

 

创建普通表语句

create table records (yearstring,temperature int,quality int) row format delimited fields terminated by'\t'

 

创建外部表语句

 

外部表数据位置

[root@ebsdi-23260-oozie tmp]# hadoop fs-put sample.txt  /user/houchangren/tmp/location
[root@ebsdi-23260-oozie tmp]# hadoop fs-mkdir  /user/houchangren/tmp/location
[root@ebsdi-23260-oozie tmp]# hadoop fs-put sample.txt /user/houchangren/tmp/location
[root@ebsdi-23260-oozie tmp]# hadoop fs-cat /user/houchangren/tmp/location/sample.txt
1990   44      1
1991   45      2
1992   41      3
1993   43      2
1994   41      1


 

创建表指定外部表数据位置&查看数据

hive> create external tabletb_ext_records(year string,temperature int,quality int) row format delimitedfields terminated by '\t' location '/user/houchangren/tmp/location/';
OK
Time taken: 0.133 seconds
hive> select * from tb_ext_records;
OK
1990   44      1
1991   45      2
1992   41      3
1993   43      2
1994   41      1
Time taken: 0.107 seconds

分区和桶

 

 

分区表是hive中一种存放表但是可以根据个别列来分别存放的形式的表结构。区别于普通表的时候要指定分区的列,而且数据中是不存在分区列的,而且不能存在。

一个分区表表中有可以多个维度分区。

 

 

创建分区表语句

create table tb_test (yearstring,temperature int,quality int) partitioned by (ds string,ds2 string) row format delimited fieldsterminated by '\t';

 

查看分区

show partitions tb_test;

 

加载数据到指定分区表

load data local inpath'/root/hcr/tmp/sample.txt' into table tb_test partition(ds='2013-12-06',ds2='shanghai')

 

根据分区条件查询

 

select * from tb_test where ds='2013-12-06';

 

创建桶语句

create table tb_test_bucket(yearstring,temperature int,quality int) clustered by(temperature) into 3 buckets row format delimited fields terminated by '\t';

 

加载数据到桶中

insert overwrite table tb_test_bucket select * from records;

 

查看hdfs文件

hive> dfs -ls/user/hive/warehouse/tb_test_bucket;
Found 3 items
-rw-r--r--  2 root supergroup         202013-12-09 11:36 /user/hive/warehouse/tb_test_bucket/000000_0
-rw-r--r--  2 root supergroup         202013-12-09 11:36 /user/hive/warehouse/tb_test_bucket/000001_0
-rw-r--r--  2 root supergroup         60 2013-12-0911:36 /user/hive/warehouse/tb_test_bucket/000002_0

 

查看数据取样测试

 

select * from tb_test_bucket  table sample(bucket 1 out of 2 on temperature);

 

hive> select * from tb_test_bucket  tablesample(bucket 1 out of 2 on temperature);
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201311101215_51576, Tracking URL = http://hadoop-master.TB.com:50030/jobdetails.jsp?jobid=job_201311101215_51576
Kill Command = /usr/lib/hadoop-0.20/bin/hadoop job  -Dmapred.job.tracker=hadoop-master.TB.com:8021 -kill job_201311101215_51576
Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 0
2013-12-09 11:36:48,415 Stage-1 map = 0%,  reduce = 0%
2013-12-09 11:36:50,449 Stage-1 map = 33%,  reduce = 0%, Cumulative CPU 2.81 sec
2013-12-09 11:36:51,463 Stage-1 map = 67%,  reduce = 0%, Cumulative CPU 2.81 sec
2013-12-09 11:36:52,475 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 4.39 sec
2013-12-09 11:36:53,489 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 4.39 sec
2013-12-09 11:36:54,504 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 4.39 sec
MapReduce Total cumulative CPU time: 4 seconds 390 msec
Ended Job = job_201311101215_51576
MapReduce Jobs Launched:
Job 0: Map: 3   Accumulative CPU: 4.39 sec   HDFS Read: 802 HDFS Write: 20 SUCESS
Total MapReduce CPU Time Spent: 4 seconds 390 msec
OK
1990    44      1
1990    44      1
Time taken: 11.094 seconds


导入数据

Insert overwrite table

在插入数据的时候是强制替换的overwrite

 

动态分区使用(从一个表中的分区中取数据放到另一个目标分区表中,分区是在查询表已经存在的。)

 

设定环境

 

set hive.exec.dynamic.partition=true;
sethive.exec.dynamic.partition.mode=nonstrict;

 

目标分区表

create table tb_test_pt (yearstring,temperature int,quality int) partitioned by (ds string) row format delimited fields terminated by'\t';
 

动态分区取数插入

insert overwrite table tb_test_pt partition(ds) select year,temperature,quality,ds from tb_test;

 

多表导入

 

在hive中是支持如下语法

 

from sourceTable
insert overwrite table targetTable
select col1,col2


源表数据

hive> select * from tb_test;
OK
1990    44      1       2013-12-06      shandong
1991    45      2       2013-12-06      shandong
1992    41      3       2013-12-06      shandong
1993    43      2       2013-12-06      shandong
1994    41      1       2013-12-06      shandong
1990    44      1       2013-12-06      shanghai
1991    45      2       2013-12-06      shanghai
1992    41      3       2013-12-06      shanghai
1993    43      2       2013-12-06      shanghai
1994    41      1       2013-12-06      shanghai


创建三个目标表

create table tb_records_by_year (year string,count int) row format delimited fields terminated by '\t';
create table tb_stations_by_year (year string,count int) row format delimited fields terminated by '\t';
create table tb_good_records_by_year (year string,count int) row format delimited fields terminated by '\t';


插入多表执行sql


from tb_test
insert overwrite table tb_stations_by_year
select  year,count(distinct temperature)
group by year
insert overwrite table tb_records_by_year
select  year,count(1)
group by year
insert overwrite table tb_good_records_by_year
select  year,count(1)
where temperature!=9999 and (quality =0  or quality=1 or quality=3)
group by  year;

操作结果
hive> select * from tb_records_by_year;
OK
1990    2
1991    2
1992    2
1993    2
1994    2
Time taken: 0.088 seconds
hive> select * from tb_stations_by_year;
OK
1990    1
1991    1
1992    1
1993    1
1994    1
Time taken: 0.081 seconds
hive> select * from tb_good_records_by_year;
OK
1990    2
1992    2
1994    2
Time taken: 0.085 seconds



 

 

Create Table … As  Select (CTAS)

把 hive 查询的数据直接放到一个新表中。(因为是原子性操作,so如果查询失败,那么创建也是失败)

 

操作实例

create table tb_records_ctas
as
select year,temperature from tb_test;


 

数据导出

 

导出到本地目录

insert overwrite local directory'/root/hcr/tmp/ex_abc2.txt' select * from m_t2;


导出到hdfs目录

insert overwrite directory'/user/houchangren/tmp/m_t2' select * from m_t2;


 

表的修改Alter table

 

修改表名rename to

alter table tb_records_ctas rename totb_records_2


增加新列

alter table tb_records_2 add columns(new_col int);

修改某一列的信息

ALTER TABLE tb_records_2 CHANGE COLUMN new_col col1  string;

 

查询表结构信息 

hive>desc formatted test;




等等具体还有好多修改表信息的操作

 

参考

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterTable%2FPartition%2FColumn

 

 

表的丢弃

由于数据的元数据在mysql数据库存着,而数据存在hdfs上。

所以如果想留着表结构只清空数据,直接删除hdfs数据即可,默认没有目录,hive会认为是空表。

直接全删除(内部表)

drop table tableName

可以创建一个新的表从旧表中复制模式create table new_table like old_table;

 

create table tb_records_2 like tb_test;

 


这篇关于hiveQL学习和hive常用操作的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/239209

相关文章

Python调用Orator ORM进行数据库操作

《Python调用OratorORM进行数据库操作》OratorORM是一个功能丰富且灵活的PythonORM库,旨在简化数据库操作,它支持多种数据库并提供了简洁且直观的API,下面我们就... 目录Orator ORM 主要特点安装使用示例总结Orator ORM 是一个功能丰富且灵活的 python O

C#中读取XML文件的四种常用方法

《C#中读取XML文件的四种常用方法》Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具,下面我们就来看看C#中读取XML文件的方法都有哪些吧... 目录XML简介格式C#读取XML文件方法使用XmlDocument使用XmlTextReader/XmlTextWr

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

CSS弹性布局常用设置方式

《CSS弹性布局常用设置方式》文章总结了CSS布局与样式的常用属性和技巧,包括视口单位、弹性盒子布局、浮动元素、背景和边框样式、文本和阴影效果、溢出隐藏、定位以及背景渐变等,通过这些技巧,可以实现复杂... 一、单位元素vm 1vm 为视口的1%vh 视口高的1%vmin 参照长边vmax 参照长边re

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

java如何通过Kerberos认证方式连接hive

《java如何通过Kerberos认证方式连接hive》该文主要介绍了如何在数据源管理功能中适配不同数据源(如MySQL、PostgreSQL和Hive),特别是如何在SpringBoot3框架下通过... 目录Java实现Kerberos认证主要方法依赖示例续期连接hive遇到的问题分析解决方式扩展思考总

C++实现封装的顺序表的操作与实践

《C++实现封装的顺序表的操作与实践》在程序设计中,顺序表是一种常见的线性数据结构,通常用于存储具有固定顺序的元素,与链表不同,顺序表中的元素是连续存储的,因此访问速度较快,但插入和删除操作的效率可能... 目录一、顺序表的基本概念二、顺序表类的设计1. 顺序表类的成员变量2. 构造函数和析构函数三、顺序表

使用C++实现单链表的操作与实践

《使用C++实现单链表的操作与实践》在程序设计中,链表是一种常见的数据结构,特别是在动态数据管理、频繁插入和删除元素的场景中,链表相比于数组,具有更高的灵活性和高效性,尤其是在需要频繁修改数据结构的应... 目录一、单链表的基本概念二、单链表类的设计1. 节点的定义2. 链表的类定义三、单链表的操作实现四、