大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)

本文主要是介绍大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据技术之_08_Hive学习_02

    • 第4章 DDL数据定义
      • 4.1 创建数据库
      • 4.2 查询数据库
        • 4.2.1 显示数据库
        • 4.2.2 查看数据库详情
        • 4.3.3 切换当前数据库
      • 4.3 修改数据库
      • 4.4 删除数据库
      • 4.5 创建表
        • 4.5.1 管理表(内部表)
        • 4.5.2 外部表
        • 4.5.3 管理表与外部表的互相转换
      • 4.6 分区表
        • 4.6.1 分区表基本操作
        • 4.6.2 分区表注意事项
      • 4.7 修改表
        • 4.7.1 重命名表
        • 4.7.2 增加、修改和删除表分区
        • 4.7.3 增加/修改/替换列信息
      • 4.8 删除表
    • 第5章 DML数据操作
      • 5.1 数据导入
        • 5.1.1 向表中装载数据(load)
        • 5.1.2 通过查询语句向表中插入数据(insert)
        • 5.1.3 查询语句中创建表并加载数据(as select)
        • 5.1.4 创建表时通过location指定加载数据路径
        • 5.1.5 import数据到指定Hive表中
      • 5.2 数据导出
        • 5.2.1 insert导出
        • 5.2.2 Hadoop命令导出到本地
        • 5.2.3 Hive Shell 命令导出
        • 5.2.4 Export导出到HDFS上
        • 5.2.5 Sqoop导出
      • 5.3 清除表中数据(truncate)

第4章 DDL数据定义

4.1 创建数据库

1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。

hive (default)> create database db_hive;

2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)

hive (default)> create database db_hive;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database db_hive already exists
hive (default)> create database if not exists db_hive;

3)创建一个数据库,并指定数据库在HDFS上存放的位置

hive (default)> create database db_hive2 location '/db_hive2.db';
hive (default)> create table db_hive2.test(id int);

如下图所示:

注意:创建一个数据库,并指定数据库在HDFS上存放的位置,如果不指定数据库名称的话,默认创建的数据库的位置同default位置一样。

4.2 查询数据库

4.2.1 显示数据库

1、显示数据库

hive (default)> show databases;

2、过滤显示查询的数据库

hive (default)> show databases like 'db_hive*';OK
database_name
db_hive
db_hive2
4.2.2 查看数据库详情

1、显示数据库信息

hive (default)> desc database db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	
Time taken: 0.019 seconds, Fetched: 1 row(s)

2、显示数据库详细信息,extended(扩展)

hive (default)> desc database extended db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	
Time taken: 0.016 seconds, Fetched: 1 row(s)
4.3.3 切换当前数据库
hive (default)> use db_hive;

4.3 修改数据库

  用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置

hive (default)> alter database db_hive set dbproperties('createtime'='20191111');

在hive中查看修改结果

hive (default)> desc database extended db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	{createtime=20191111}
Time taken: 0.014 seconds, Fetched: 1 row(s)

4.4 删除数据库

1、删除空数据库

hive (default)> drop database db_hive;

2、如果删除的数据库不存在,最好采用 if exists 判断数据库是否存在

hive (default)> drop database db_hive;
FAILED: SemanticException [Error 10072]: Database does not exist: db_hive
hive (default)> drop database if exists db_hive;

3、如果数据库不为空,可以采用 cascade 命令,强制删除(cascade级联)

hive (default)> drop database if exists db_hive2;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive2 is not empty. One or more tables exist.)
hive (default)> drop database if exists db_hive2 cascade;

4.5 创建表

1、建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

2、字段解释说明
(1)CREATE TABLE:表示创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常。
(2)EXTERNAL:该关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
(3)COMMENT:为表和列添加注释。
(4)PARTITIONED BY:表示创建分区表。(为了应对数据量大的情形,分区分的是文件夹,与MapReduce中的分区不一样)
(5)CLUSTERED BY:表示创建分桶表。(为了应对数据量大的情形,分桶分的是文件,与MapReduce中的分区一样)
(6)SORTED BY:不常用。
(7)ROW FORMAT

ROW FORMAT DELIMITED [FIELDS TERMINATED BY char] 
[COLLECTION ITEMS TERMINATED BY char] 
[MAP KEYS TERMINATED BY char] 
[LINES TERMINATED BY char] 
| SERDE serde_name 
[WITH SERDEPROPERTIES (property_name=property_value

这篇关于大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100808

相关文章

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

idea中创建新类时自动添加注释的实现

《idea中创建新类时自动添加注释的实现》在每次使用idea创建一个新类时,过了一段时间发现看不懂这个类是用来干嘛的,为了解决这个问题,我们可以设置在创建一个新类时自动添加注释,帮助我们理解这个类的用... 目录前言:详细操作:步骤一:点击上方的 文件(File),点击&nbmyHIgsp;设置(Setti

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

mysql数据库重置表主键id的实现

《mysql数据库重置表主键id的实现》在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,本文主要介绍了mysql数据库重置表主键id的实现,具有一定的参考价值,感兴趣的可以了... 目录关键语法演示案例在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,当我们

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

浅谈mysql的sql_mode可能会限制你的查询

《浅谈mysql的sql_mode可能会限制你的查询》本文主要介绍了浅谈mysql的sql_mode可能会限制你的查询,这个问题主要说明的是,我们写的sql查询语句违背了聚合函数groupby的规则... 目录场景:问题描述原因分析:解决方案:第一种:修改后,只有当前生效,若是mysql服务重启,就会失效;

MySQL多列IN查询的实现

《MySQL多列IN查询的实现》多列IN查询是一种强大的筛选工具,它允许通过多字段组合快速过滤数据,本文主要介绍了MySQL多列IN查询的实现,具有一定的参考价值,感兴趣的可以了解一下... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析与优化1.