大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)

本文主要是介绍大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

大数据技术之_08_Hive学习_02

    • 第4章 DDL数据定义
      • 4.1 创建数据库
      • 4.2 查询数据库
        • 4.2.1 显示数据库
        • 4.2.2 查看数据库详情
        • 4.3.3 切换当前数据库
      • 4.3 修改数据库
      • 4.4 删除数据库
      • 4.5 创建表
        • 4.5.1 管理表(内部表)
        • 4.5.2 外部表
        • 4.5.3 管理表与外部表的互相转换
      • 4.6 分区表
        • 4.6.1 分区表基本操作
        • 4.6.2 分区表注意事项
      • 4.7 修改表
        • 4.7.1 重命名表
        • 4.7.2 增加、修改和删除表分区
        • 4.7.3 增加/修改/替换列信息
      • 4.8 删除表
    • 第5章 DML数据操作
      • 5.1 数据导入
        • 5.1.1 向表中装载数据(load)
        • 5.1.2 通过查询语句向表中插入数据(insert)
        • 5.1.3 查询语句中创建表并加载数据(as select)
        • 5.1.4 创建表时通过location指定加载数据路径
        • 5.1.5 import数据到指定Hive表中
      • 5.2 数据导出
        • 5.2.1 insert导出
        • 5.2.2 Hadoop命令导出到本地
        • 5.2.3 Hive Shell 命令导出
        • 5.2.4 Export导出到HDFS上
        • 5.2.5 Sqoop导出
      • 5.3 清除表中数据(truncate)

第4章 DDL数据定义

4.1 创建数据库

1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。

hive (default)> create database db_hive;

2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)

hive (default)> create database db_hive;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database db_hive already exists
hive (default)> create database if not exists db_hive;

3)创建一个数据库,并指定数据库在HDFS上存放的位置

hive (default)> create database db_hive2 location '/db_hive2.db';
hive (default)> create table db_hive2.test(id int);

如下图所示:

注意:创建一个数据库,并指定数据库在HDFS上存放的位置,如果不指定数据库名称的话,默认创建的数据库的位置同default位置一样。

4.2 查询数据库

4.2.1 显示数据库

1、显示数据库

hive (default)> show databases;

2、过滤显示查询的数据库

hive (default)> show databases like 'db_hive*';OK
database_name
db_hive
db_hive2
4.2.2 查看数据库详情

1、显示数据库信息

hive (default)> desc database db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	
Time taken: 0.019 seconds, Fetched: 1 row(s)

2、显示数据库详细信息,extended(扩展)

hive (default)> desc database extended db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	
Time taken: 0.016 seconds, Fetched: 1 row(s)
4.3.3 切换当前数据库
hive (default)> use db_hive;

4.3 修改数据库

  用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置

hive (default)> alter database db_hive set dbproperties('createtime'='20191111');

在hive中查看修改结果

hive (default)> desc database extended db_hive;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive		hdfs://hadoop102:9000/user/hive/warehouse/db_hive.db	atguigu	USER	{createtime=20191111}
Time taken: 0.014 seconds, Fetched: 1 row(s)

4.4 删除数据库

1、删除空数据库

hive (default)> drop database db_hive;

2、如果删除的数据库不存在,最好采用 if exists 判断数据库是否存在

hive (default)> drop database db_hive;
FAILED: SemanticException [Error 10072]: Database does not exist: db_hive
hive (default)> drop database if exists db_hive;

3、如果数据库不为空,可以采用 cascade 命令,强制删除(cascade级联)

hive (default)> drop database if exists db_hive2;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive2 is not empty. One or more tables exist.)
hive (default)> drop database if exists db_hive2 cascade;

4.5 创建表

1、建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

2、字段解释说明
(1)CREATE TABLE:表示创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常。
(2)EXTERNAL:该关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
(3)COMMENT:为表和列添加注释。
(4)PARTITIONED BY:表示创建分区表。(为了应对数据量大的情形,分区分的是文件夹,与MapReduce中的分区不一样)
(5)CLUSTERED BY:表示创建分桶表。(为了应对数据量大的情形,分桶分的是文件,与MapReduce中的分区一样)
(6)SORTED BY:不常用。
(7)ROW FORMAT

ROW FORMAT DELIMITED [FIELDS TERMINATED BY char] 
[COLLECTION ITEMS TERMINATED BY char] 
[MAP KEYS TERMINATED BY char] 
[LINES TERMINATED BY char] 
| SERDE serde_name 
[WITH SERDEPROPERTIES (property_name=property_value

这篇关于大数据技术之_08_Hive学习_02_DDL数据定义(创建/查询/修改/删除数据库+创建表+分区表+修改表+删除表)+DML数据操作(数据导入+数据导出+清除表中数据)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1100808

相关文章

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

java Stream操作转换方法

《javaStream操作转换方法》文章总结了Java8中流(Stream)API的多种常用方法,包括创建流、过滤、遍历、分组、排序、去重、查找、匹配、转换、归约、打印日志、最大最小值、统计、连接、... 目录流创建1、list 转 map2、filter()过滤3、foreach遍历4、groupingB

Java操作PDF文件实现签订电子合同详细教程

《Java操作PDF文件实现签订电子合同详细教程》:本文主要介绍如何在PDF中加入电子签章与电子签名的过程,包括编写Word文件、生成PDF、为PDF格式做表单、为表单赋值、生成文档以及上传到OB... 目录前言:先看效果:1.编写word文件1.2然后生成PDF格式进行保存1.3我这里是将文件保存到本地后

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

Python在固定文件夹批量创建固定后缀的文件(方法详解)

《Python在固定文件夹批量创建固定后缀的文件(方法详解)》文章讲述了如何使用Python批量创建后缀为.md的文件夹,生成100个,代码中需要修改的路径、前缀和后缀名,并提供了注意事项和代码示例,... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5.

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

Python使用Colorama库美化终端输出的操作示例

《Python使用Colorama库美化终端输出的操作示例》在开发命令行工具或调试程序时,我们可能会希望通过颜色来区分重要信息,比如警告、错误、提示等,而Colorama是一个简单易用的Python库... 目录python Colorama 库详解:终端输出美化的神器1. Colorama 是什么?2.

使用IntelliJ IDEA创建简单的Java Web项目完整步骤

《使用IntelliJIDEA创建简单的JavaWeb项目完整步骤》:本文主要介绍如何使用IntelliJIDEA创建一个简单的JavaWeb项目,实现登录、注册和查看用户列表功能,使用Se... 目录前置准备项目功能实现步骤1. 创建项目2. 配置 Tomcat3. 项目文件结构4. 创建数据库和表5.