本文主要是介绍Hive 读书笔记3:HiveQL Data Definition(上),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
HiveQL可以认为是SQL的一种方言,它不完全遵循任何一个版本的ANSI SQL标准,它似乎跟MySQL比较接近,但有一个显著地不同:Hvie不支持行级别的Insert、Update和Delete,并且Hive不支持事务。
创建一个库:create database mydb; 或者create database if not exists mydb;
删除库:DROP DATABASE IF EXISTS mydb;
Hive默认情况下不允许删除存在表的库,因而可以用cascade同时删除所有表:DROP DATABASE IF EXISTS financials CASCADE;
也可以使用schema关键字代替database,二者在hive中等价;
show databases; 查看当前hive下有些什么database,当然也可以用show schemas;如果库比较多,可以用正则表达式限定你感兴趣的database:show databases like 'my.*';Hive为每个database创建一个目录,其下的各表存为子目录。例外的是default database,它不存在自己的目录。当一个库被删除时,其目录也删掉了。查看一个database的属性:describe database mydb; 或者describe database extended mydb;
可以使用use指令指定当前工作的database:use mydb;然后再执行show tables可以查看当前database下的表(当然也可以显示非当前库下的表,采用show tables in otherdb; 如果要进一步通过正则表达式指定感兴趣的表的话,可以: show tables in mydb like 'my.*';)。然而hive却没有指令显示当前在哪个database。但是反复使用use ...指令总是安全的,因为Hive下database没有嵌套的概念。另外,可以通过设定set hive.cli.print.current.db=true;将当前库显示在“Hive>”前面。
Alter Database指令只能修改key-value形式的属性,不能修改除此之外的任何元数据,例如名称和目录路径。例如:hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba');
Hive下创建表:
CREATE TABLE IF NOT EXISTS mydb.employees (
name STRING COMMENT 'Employee name',
salary FLOAT COMMENT 'Employee salary',
subordinates ARRAY<STRING> COMMENT 'Names of subordinates',
deductions MAP<STRING, FLOAT>
COMMENT 'Keys are deductions names, values are percentages',
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>
COMMENT 'Home address')
COMMENT 'Description of the table'
TBLPROPERTIES ('creator'='me', 'created_at'='2012-01-02 10:00:00', ...)
LOCATION '/user/hive/warehouse/mydb.db/employees';
可以冠以“mydb”,在当前工作的库不在目标库下面时。
通过现有的表创建一张新表(它们具有一致的表定义,只是数据不一样,数据位置可以通过location指定,除此之外其它任何属性均不能指定):
CREATE TABLE IF NOT EXISTS mydb.employees2
LIKE mydb.employees;
Hive下有两种表,一种是 托管表(Managed Table),又称内部表,另一种是外部表。对于托管表,Hive会管理其数据的整个生命周期,在表删除时会删除数据。但是托管表不方便与其它工具数据共享。如果我们有主要供其它工具使用的数据(例如Pig),而不想讲ownership转移给hive,可以采用外部表,将表的数据指定出来即可。
创建外部表:
CREATE EXTERNAL TABLE IF NOT EXISTS stocks (
exchange STRING,
symbol STRING,
ymd STRING,
price_open FLOAT,
price_high FLOAT,
price_low FLOAT,
price_close FLOAT,
volume INT,
price_adj_close FLOAT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/data/stocks';
采用Location 关键字指定外部文件位置。这样,删除表时,就不会删除数据文件,仅仅删除元数据。
采用托管表的定义创建一个外部表:
CREATE EXTERNAL TABLE IF NOT EXISTS mydb.employees3
LIKE mydb.employees
LOCATION '/path/to/data';
注意,如果省去“External”关键字,原始表为外部表,则新创建表也是外部表;原始表为托管表,新建表也为托管表。
但实际上Hive对托管表数据的控制并不是完全的,你同样可以采用别的工具去读写托管表路径下的文件,甚至删除它(正如Schema on Read的思想所表达的那样)。当然,如果数据需要跟其他工具共享,从设计上讲,还是应该指定为外部表。
这篇关于Hive 读书笔记3:HiveQL Data Definition(上)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!